哪些广为人知的数据挖掘案例其实是一地鸡毛?

数据挖掘讲究用数据说话,但很多喜闻乐见的案例并不像听起来那么美好,有些被神化了,有些言过其实,更有些是不可能完成的任务,为什么会这样呢?

数据挖掘讲究用数据说话,但很多喜闻乐见的案例并不像听起来那么美好,有些被神化了,有些言过其实,更有些是不可能完成的任务,为什么会这样呢?

最近搜刮了几个典型案例,分别是啤酒与尿布、Google预测冬季流感、大数据预测纸牌屋、天气精准预报、股市K线预测,希望看了后于你有启示。

1、啤酒与尿布是数据挖掘最大的谎言

这个案例估计是数据挖掘界的头号代表。

全球零售业巨头沃尔玛在对消费者购物行为分析时发现,男性顾客在购买婴儿尿片时,常常会顺便搭配几瓶啤酒来犒劳自己,于是尝试推出了将啤酒和尿布摆在一起的促销手段。没想到这个举措居然使尿布和啤酒的销量都大幅增加了。如今,“啤酒+尿布”的数据分析成果早已成了大数据技术应用的经典案例,被人津津乐道。

但据考证,所谓“啤酒加尿布”的数据挖掘经典案例,其实是Teradata公司一位经理编出来的“故事”,历史上并没有发生过,为什么这么出名,是因为Teradata公司是数据分析行业的领头羊,商业利益的驱动而已。

如果以后碰到精彩的数据挖掘案例,一定得多点批判精神,要相信,百闻不如一见,一见不如重复,这是应有的科学态度。

2、Google预测冬季流感的最终结局是什么?

谷歌流感趋势(GFT)经常上头条,因为其精准的流感预测。

2009年,Google通过分析5000万条美国人最频繁检索的词汇,将之和美国疾病中心在2003年到2008年间季节性流感传播时期的数据进行比较,并建立一个特定的数学模型。最终google成功预测了2009冬季流感的传播甚至可以具体到特定的地区和州。

2013年2月,谷歌流感趋势(GFT)又上了头条新闻,这次是坏消息。

哪些广为人知的数据挖掘案例其实是一地鸡毛?

据 《自然》杂志(Nature)报道,2012之前GFT预测准度还行,但之后预测精准急转而下,其预测的流感样疾病数量是美国疾病控制和预防中心(CDC)的估算数量偏差甚至高出了标准值将近1倍。

为什么预测会失效?

一个可能的原因是过拟合问题,编写一个将5000万搜索关键词与1152个数据点相匹配的算法是非常困难的,很有可能会出现过度拟合(将噪声误认为信号)的情况,很多关键词只是看似与流感相关,但实际上却并无关联。

另一个可能的原因是算法并非一成不变的,算法会被服务提供者依照他们的商业模式而进行修改,而搜索引擎算法的改变和用户的搜索行为会影响GFT的预测结果,比如媒体对于流感流行的报道会增加与流感相关的词汇的搜索次数,进而影响GFT的预测。

因此,我们不仅要能研发出算法,更要能运营好算法,后者往往更显功力。

3、纸牌屋与大数据到底谁成就了谁?

关于《纸牌屋》的大数据预测神话是这样的:作为世界上最大的在线影片租恁服务商,Netflix在美国有2700万订阅用户,在全世界则有3300万,几乎比所有人都清楚大家喜欢看什么,它已经知道用户很喜欢Fincher(社交网络、七宗罪的导演),也知道Spacey主演的片子表现都不错,还知道英剧版的《纸牌屋》很受欢迎,三者的交集表明,拍摄《纸牌屋》会大卖。

很快,《纸牌屋》的策划过程就被暴露出来,事情是这样的,没啥大数据的事:

(1)独立制片公司MRC(Media Rights Capital)准备进入电视圈

(2)为了解决剧本的问题,某年某月的某一天,他们和往常一样在内部开了个会,探讨如何执行他们的想法,即用电影导演来拍电视剧,从而打造具有轰动性效应的电视剧集,避开竞争更为激烈的电影业。此时,一名实习生跳了出来,推荐了英剧《纸牌屋》,对的,你没听错,一名实习生,不是大数据。

(3)MRC看了1990年版本的英剧《纸牌屋》,就主动联系了版权方,签下了《纸牌屋》的改编权,然后去找了CAA(好莱坞最大的经纪公司),组成了纸牌屋的核心孵化团队,导演大卫·芬奇、编剧埃里克·罗斯、凯文·史派西都是签约在CAA。

(4)在完成了剧本孵化的工作之后,MRC和CAA去找了Netflix,Netflix提出了自己来投资制作的想法,并且开出了优厚的条件,比如不用试播便一次性定制两季,总预算超过1亿美金,制作团队可以保有最终剪辑权等等(意思是制作团队可以保有版权,这个诱惑最大)。

(5)2012年,乔纳森·费兰德开始担任Netflix的首席联络官(CCO),此人之前是在迪斯尼工作,同一年,凯利·梅里曼(Kelly Bennett)加入了Netflix,这位原负责华纳国际业务的高管担任了Netflix的首席营销官。正式通过他们两个人的包装,Netflix在大数据和《纸牌屋》之间建立了联系,就像我们所看到的那样,Netflix成功的被定义为HBO和Showtime未来的榜样,Netflix的股价因此飙升。

可以认为,是《纸牌屋》的成功宣传了大数据,而不是大数据造就了《纸牌屋》,大数据只是Netflix在宣传《纸牌屋》的过程中使用的噱头,那么,Netflix为什么选择大数据作为宣传点呢?

因为,IT行业的一大特点就是替代传统行业,通信,购物,金融等等,而Netflix想要取代的是HBO之类的有线电视台,必须体现出差异化,大数据满足了这个要求。

记得前几年大数据处于风口,笔者也写了不少大数据材料,也引用了很多吸引眼球的大数据案例,包括这个《纸牌屋》,但现在回过头看,大数据真要渗透进诸如影视这些垂直行业,路其实还远着,与互联网、金融、医疗等领域相比,这些行业无论从沉淀的数据量,多领域数据的关联能力,技术底子看都太薄了。

大数据在各个领域的应用自有其演进的过程,不能奢望哪个领域突然就靠大数据起来了,即使有也是昙花一现,因为不符合事物发展的客观规律。

4、天气精准预测是不可能完成的任务

夏天浙江台风频频,因此笔者很关心台风的预测问题,其实气象局告知台风会来根本不是本事,因为你都看到了近洋海面的气流,真正考验预测能力的其实是台风路径和登录地点,这个对防灾疏离很有意义,但我们经常碰到的情况是,即使在台风登陆前的几小时,还确定不了到底在哪个地方登录,后续的台风路径预测也是一变再变,为什么预测不准呢?

何帆在解读《超预测:预见未来的艺术和科学》一书中,给出了一个观点,其提到与个人行为的可预测不同,复杂体系是不可预测的。

那么,什么是复杂体系呢?

你朝窗外望去,窗外的世界就是复杂体系。天气、生态系统、金融市场、国际政治以及我们人类社会等等都是复杂体系,所有的复杂体系都是不可预测的。

最简单的复杂体系是沙堆。你在假期的时候来到海边,在沙滩上把沙子堆成一个金字塔形状的沙堆。你有没有想过,能不能把沙堆堆得越来越高,一直堆到月亮上去?显然,这是不可能的。物理学家专门做过这个实验。他们把沙滩上的沙子一粒一粒掉下来,然后用一个仪器记录沙粒掉落的过程。他们发现,当沙子一开始掉落的时候,会自发地形成一个自组织系统,也就是说,当一粒新的沙子掉下来之后,原来的沙子都会自动地调整位置,形成一个更稳定的系统。

但是,随着沙子继续掉落,当过了一个临界值之后,沙堆就会进入不稳定状态。这个时候,你知道沙堆随时可能会发生塌方,但是,再往上放一粒沙子,沙堆会倒塌呢,还是再往上放一千粒沙子,沙堆会倒塌呢?我们不知道,也不可能知道。

美国气象学家爱德华·洛伦兹发表过一篇论文,题目叫:《一只在巴西翩翩的蝴蝶可否在得克萨斯州引起龙卷风?》洛伦兹发现,使用计算机对天气模式进行仿真的时候,数据输入的细微变化都会导致不同的长期预测结果。初始条件的细微变化,将会带来巨大的影响。

洛伦兹告诉我们,水汽聚集在微尘的周围,就形成了云。这听起来很简单,但是,某一朵特定的云到底是怎样形成的,会变成什么形状,取决于水滴之间复杂的反馈作用。所以,即使我们知道所有关于云的形成原理的知识,也无法预测特定的云会如何出现。

因此,复杂系统的预测是件很难的事情,最值得用心去训练预测能力的领域,往往是介乎于钟表和云之间的,也就是说,既不是可以完全精准预测的,也不是完全随机的,因此,对于天气、地震误报漏报这类事情,还是要多些体谅。

5、不要尝试用K线预测股价

吴军在《谷歌方法论》提到中国股民对K线这类已知道的技术指标的好感在世界各国中是少有的,或许跟某些媒体的误导有关,但不管是什么原因,这种以K线为代表的技术指标坑了亿万股民,因为即使把它画得更好,也不会有助于股民挣钱。

有些人会不服气,总会找出一些例子,某某用一个技术指标挣到钱,但是那些人同时也忽略了大量的人赔钱的事实,股市上的狗屎运常常比我们想象的要多,但是很多人把这个叫做水平,把遇到狗屎运的人称为股神,如果一个人连续10年每年投资回报比大盘好,你是否觉得他是股神?如果你的回答是肯定的,可能数学没有学好。

大家随机做股票交易,每一千个人中就可以出这样一个“股神”,按照人的一般交往圈150人算,朋友的朋友就超过22000人,按照4%的炒股比例,也就是说在你的朋友的朋友中就有这样一个股神,现在通信很发达,这样一个很容易就被朋友的朋友知道了,假如你在一个较大的单位工作,听见某某或某某的某某炒股发财是大概率事件,千万别心痒。

即使换成20年,算一下概率,这种人在国内起码有100人,因为每100万人就会出这样一个,这些人可能被邀请去做讲座,教大家画K线,当然,等你去画,就没了他的运气。

从信息论的角度看,股票能否赚钱在于你拥有的信息的多少,你知道,别人不知道,你就能赚钱,但如果这些信息每个人都知道,比如K线,那么它的作用早已反映在股市的波动中了,再用它就不灵了。

从另一个角度讲,如果真有人掌握了股市的特有规律来预测,他做的事情不是开班讲课挣讲课费,而是闷声发大财。最后一个发现特别灵的股票指标是著名投资人彼得.林奇发明的PEG(市盈率相对于盈利的增长率),彼得.林奇闷声发大财从不告诉别人,创造了股市上不败的神话,但是他四十多岁就收手了。

你会疑问为什么你找不到这些指标,因为容易找的早被找完了,而其他的由于太复杂,根本不是散户可以找到的,甚至专业人士都不行,事实上,全世界只有著名的对冲基金文艺复兴敢说他找到了有用的信号,文艺复兴公司里面没有搞金融的人,全是世界上最好的数学家、理论物理学家和机器学习专家。

虽然自己早放弃了股票,但吴军说得还是有理有据,现在闲逛书店看到满地的股票技术参考书时,心里就会想起自己当初的样子,但又有多少人能听到这些道理,然后抑制一下冲动和浮躁呢?

作者:傅一平    微信号:fuyipingmnb

本文为专栏文章,来自:与数据同行,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/122100.html 。

(2)
与数据同行的头像与数据同行专栏
上一篇 2022-03-18 01:22
下一篇 2016-01-02 22:15

相关文章

关注我们
关注我们
分享本页
返回顶部