摘要:「数据会说谎」的真实例子有哪些?
一个热门问题下面,昨天看到了一个答案:「数据会说谎」的真实例子有哪些? – 鱼非鱼的回答。作者用误导性的言论、数据,在数据的选择和分析,以及结论的得出上面撒谎了。我昨天睡前写了一个答案「数据会说谎」的真实例子有哪些? – 许行的回答来质疑他的文章,今天起床以后发现他文章的问题更多。首先我们来看他的答案开头,
“很多人觉得飞机更安全(飞机是最安全的交通工具吗? – 飞机),都是看了维基百科上这个国际数据(我也曾是其中一员)”
一开头一举就奠定了本文的基调:你们包括我都被骗了,国际数据是骗人的,我们要来针对国情进行分析。然后引用了数据并且列出数据来源。似乎好专业呀,又有Wikipedia、网站和期刊。然而,他完全就是在胡说八道。第一,这个表格中的数据,是来源于Modern Railways(一本大众期刊)第623期上面根据英国环境、运输和区域管理部的数据,范围是英国本土的各种交通方式(所以表格里面数据显示,大巴多安全呐)。而他所列举的第二个数据来源论文的摘要写道:
The authors used traffic exposure data to calculate exposure-based fatal and nonfatal traffic injury rates in the United States. ……Nonfatal injury rates were highest for motorcyclists and bicyclists. Exposure-based traffic injury rates varied by mode of travel, sex, and age group. Motorcyclists, pedestrians, and bicyclists faced increased injury risks. Males, adolescents, and the elderly were also at increased risk. Effective interventions are available and should be implemented to protect these vulnerable road users.
这篇论文是用年龄段、交通方式、性别进行分组研究的,而且,最主要研究的是开车、摩托、自行车这些个人出现的方式!不知道@鱼非鱼同学是不是从自己平时的论文资料库里面随便引用了一篇呢?
所以他的数据分析展开就很荒之大谬了,以上都是发达国家的数据,他却说这些不合适:
好了,按照他的操纵思路,读者就会说,嗯,国情不同,具体情况具体分析嘛。然后我们来看关于中国的民航和铁路安全情况。他选择的是2001-2014之间的数据,数据就不贴了,他的结论是:
直接用不太有说服力的统计数据,在加黑的文字里面,直接告诉观众:“在中国,民航的每人公里的死亡率大概是铁路的5.7倍”。长篇大论,数据“详实”,观众就此被说服,这个答案上千赞都没有问题。
但是呢,昨天我写了答案对他的文章进行质疑了「数据会说谎」的真实例子有哪些? – 许行的回答,我的答案提到:
(他的)这个时间点选择上很巧妙。避开了上世纪末一些扎堆的铁路运输事故,但是集中了影响我国21世纪航空运输格局的几次空难,而且数据似乎有问题,比如某次空难的死亡人数是128人而不是155人,引用了Wikipedia的来源却自行修改数据,“引用”是用来装x的么?反正,如果我们选择最近十年2005年-2014年的数据来看的话,结果如下:
是不是数据就反转了?我选择最近十年,也就是2005-2014年的数据是有原因的,大家都知道,科技上有个名词叫做代差,有时候新的一代就是能吊打老的一代。对于中国民航来说,21世纪的第一个十年是很关键的十年,就本文所论及的飞行安全来说,代差来自于三个方面,而且正是2002-2005年之间的几次重大空难推动的:
a、安全规范的更新,严格而全面的飞行要求开始实行。
b、新的机型比如777-300ER、747-8、787、737NG、380、350等的引入,淘汰老的310、MD82等机型,使得我国的飞机平均机龄达到一个很低的水准。
c、航空企业重组,六大航空合并成为现在的三大航,使得航空公司实力更强,管理开始现代化改革。
在2005年之后,中国民航运输保持了两个长达五年的飞行安全记录,2005之前么,700天就发文章昭告天下了。
铁路运输上面应该也有代差,我不太了解,就不发表言论了。反正,既然我们比较安全性,而且要得出对现实具有指导性结论的话,就不要跨越代差。而且,本来空难、铁路事故的发生概率就不大,并且两个又都是重型运输系统,我想,除了在知乎上面耍耍嘴炮之外,应该没有什么实质性的参考价值吧。毕竟对于中国的民航和客运铁路来说,事故旅客每公里致死的几率没有数量级上面的差异。倒是统计分析哪种飞机机型、哪个航空公司、哪个国家的近十年飞行安全记录,避开比较差的,这样才是我们需要了解的信息。
来源:知乎 作者:许行
原文链接:http://zhuanlan.zhihu.com/flyer/20170910
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。