不管你愿不愿意,大数据已经无孔不入,很多行业都被卷入了它的冲击波中,带来行业趋势甚至操作准则的改变。
媒体业这两年就冒出来一种用大数据做新闻的报道形式。动不动就几十万条数据,不明觉厉的样子,最近就有一篇关于“铁路运行图大调整”的数据新闻火了,标题就写着32万条铁路数据,在今日头条等资讯平台上刷出了上百万的阅读量。
为什么要用这么庞大的数据来做新闻?新闻难道不应该是采访采访采访然后写故事吗?不过这条新闻还真是引发了上万条热情洋溢的评论。
比如这样的:
还有这样的:
还有两篇也是同一卦的,看起来DT财经这家第一财经去年新做的数据新媒体用这32万条数据弄了一整组报道。
32万条铁路数据揭示:那些地域鸿沟和偏见,十年来未曾改变
为什么要用32万条数据来做一条新闻?这和我们常见的新闻不太一样,传统新闻报道写故事讲道理,用的是有代表性的个案,偶尔用一些小样本的定量分析;现在外部环境变了,人们和社会的各种行为都以大数据的形式记录了下来,新技术催生新的媒体形式,我们现在就处于这个转折点,在新闻操作层面也需要全新的方法论,来做新环境下的记录历史者。
“从小样本到大数据,这是时代催生的新闻方法论,它不是颠覆而是丰富和延展了新闻的视角与价值。”DT财经主编王小乔解释道,“比如铁路运行图调整这条新闻,往常基本就是便民信息和一些新闻通稿了,但爬了32万条数据并分析之后,我们看到的则是铁路运行调整背后所反映的区域经济和人口变化,这是传统新闻报道难以挖掘到的新闻点。”
这种新闻报道你爱不爱看?小编自认为客观理性、讲逻辑,很少读到这种从数据视角来看待事件与社会话题的,还有酷酷的可视化图表,反正是被touch到了。
当然这种新闻操作方式目前还有局限性,新闻业有三方交叉验证消息源的原则,但数据挖掘目前还没法完全做到交叉论证。因为目前整个大数据行业还处在摸索阶段,数据安全和数据所有权的模糊使得交叉验证数据目前还很困难。
DT财经在实际操作中是这么处理的。能获取全数据的当然冲着全数据去,比如铁路大调图;不能获取全数据的,则会选取该领域内占比最大的机构或公司留存的数据,比如房产、交通等领域,并尽量寻找其它定性层面的信息相互验证。当样本量达到一定数量级,它只会更接近现实。
这也是DT财经做新闻时的两大类数据来源,一个是第三方数据提供方,确定选题和维度后,向这些数据持有方提取数据,然后进行分析和成文;另外一块就是源数据,尽可能地接近源数据,依照符合新闻规律的、自行建立的原则来进行数据挖掘、数据清理和数据分析。
提取数据和清理数据的原则怎么确定?你要懂技术,从传统的调查新闻到统计、从设计到编程的若干个专业领域,新闻狗现在都得学起来了;更要有丰富的新闻从业经验,技术和新闻从业者的经验判断结合起来才能产生更好的价值。
应该说,数据挖掘和数据分析技术现在在新闻生产中越来越重要了。但需要强调的是,数据挖掘和分析是用来把新闻做得更好,而不是用来炫技的。最擅长数据挖掘和分析的,当然也不是媒体人,但媒体人最主要的优势,是在长期新闻实践过程中形成的判断力和经验,知道哪些更有传播价值和公共价值。
正因为此,DT财经主编王小乔表示,未来除了会继续用以上几种数据挖掘的方法做新闻,更希望能把DT财经孵化成数据新媒体的一个平台级入口,在这里聚集一批爱数据玩数据的机构和个人。“6月3日我们要办一场‘寻找数据侠’的线下活动,目的就是网罗各种玩转大数据的高人,同时在APP上建立一个‘数据侠’栏目,为隐秘在各条战线上的数据大侠们,提供传播大数据价值的平台。让更多精通数据的人参与进来,发挥他们的优势,让数据展现更大的价值。”
小编听起来不明觉厉~~
大数据似乎在云端,离我们比较远。作为普通受众,如何接触到这些数据,怎样更好的了解数据背后的含义是最重要的问题,DT财经在如何满足受众需求的“最后一公里”这个问题上也许有一定的借鉴意义。
号外:前面提到的6月3日“寻找数据侠”活动,也是上海开放数据创新应用大赛(SODA)第一弹,各行各业的数据大牛,共同打开通往数据时代的大门。你还犹豫什么,赶紧点击活动链接,参与报名吧~http://t.cn/R5wSovC
——本文由DT财经投稿至数据分析网
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。