对于搞数据的人来说,不仅要能基于数据技能来某得一点生计,最好也能用来指导自己的生活,比如解答自己生活中的一些困惑,今天就来谈谈笔者的生活统计学,这是第一篇,如果以后有机会再写吧。
1、回归平均:我儿子到底能长多高?
统计回归效应,也叫“向平均数回归”,是指在进行重复测量时,前测中获得的极高或极低分数会在后测时倾向于向平均值偏移,即随着时间的推移高分者成绩下降,低分者成绩升高,这种自然倾向被称为“统计回归效应”。
假如男孩他爸身高1.6米,有理由相信男孩未来身高不过1.65米吗?
这要看情况,因为现在样本太少了,除了看父母身高,最好要看下孩子外婆、奶奶家族里的身高情况,如果平均身高超过了1.7米,可以相信自己孩子身高会回归到比父亲高一点,比如达到1.7米,因为孩子他爸偏离了平均值太多。
世界杯上C罗首场比赛就上演帽子戏法,这个吊起了大家的胃口,但这种巅峰表现不可能持续,后续回归平均水平属于正常发挥,世界杯上冒尖的球员昙花一现显然也是常态了,自笔者懂球开始,发现在世界杯上突然惊艳表现的球员后续大都趋于平庸,有理由相信,姆巴佩是被高估了。
在男子高空滑雪比赛时,常常会听到解说员说“这位选手第一轮表现很好,为了保持领先的地址,他现在可能会有点很紧张,估计下一轮表现会欠佳”,或者“这位选手第一轮表现很糟糕,他知道自己现在别无选择,也没有什么压力了,只能尽力做好,这样下一轮反而会做得更好”。其实这个解说员已经察觉到回归平均值的概念了,但他在没有任何依据的情况下竟然编出了一个有理有据的故事。
万事万物其实都遵循这个道理,可奇怪的是,一旦你告诉别人这些数据中间有“回归”关系,别人只会说“这不是显而易见的吗,谁的表现都是有高有低”,但是回归的概念从来不是显而易见的。
2、小数定律:没有理由相信炒股能挣钱
小数定律:如果统计数据很少,那么事件就表现为各种极端情况,而这些情况都是偶然事件,跟它的期望值一点关系都没有。
诸如巴菲特等的极端异常点对于普通人来说没啥借鉴意义,因为各自的环境完全不同,一些炒股挣钱的少数人所谓的经验还不如说是幸运儿,10000个人里总有那么几个,有个真实的案例说某公司把10000个股票的预测结果发给10000个人,最后总有几个人信遇到股神了。
不要相信什么技术分析,现在有证据证明足球比赛的结果符合市场有效假说,也就是说足球场上即时的变化、球队的实力等所有信息已经即时反映到了赔率上,没有任何预测空间。
股票市场基本上也是个有效市场,不要相信什么K线技术分析之类,这些信息即使有价值也已经即时体现到了当前的股价中,假如有人说看好马云因此准备投他的股票,就要相信看好马云这个信息早就被第一波人先见之人赚到了,轮不到自己,真有价值信息一般也不会到你耳朵里。
著名的对冲基金文艺复兴公司里面有一堆著名的数学家、机器学习专家,也许他们会基于技术发现一些不同的预测信号。
3、幸存者偏差:在拼多多一片骂声中寻找另一面
先讲一个故事,在二战期间,盟军的战斗机在战斗中损失惨重,于是盟军总部秘密召集了一批物理学家、数学家来专门研究“如何减少空军被击落的概率”。
当时军方统计了所有返航飞机的中弹位置,发现机翼部分中弹比较密集,而机身和机尾的中弹比较稀疏,因此当时普遍的建议便是:应加强机翼部分的防护。然而,统计学家沃德却提出了一个完全相反的观点,他认为应加强机身和机尾部分。
沃德教授说“所有的样本都是成功返航的飞机,也就是可能正是因为机翼遭到攻击,机身和机尾没有遭到密集的攻击,所以才使得这些飞机能够成功返航。”
后来又经过一系列有力的论证后,军方果真采用了他的建议。事后也证明这的确是无比正确的决策,有效降低了空军被击落的概率。
这个故事讲的就是所谓的幸存者偏差,幸存者偏差是指当取得资讯的渠道仅来自于幸存者时,此资讯可能会存在与实际情况不同的偏差,因为死人不会说话。
最近评论拼多多的很多,笔者并无兴趣讨论拼多多的假货问题,而是想知道拼多多到底有没有市场?之后笔者找到了另一篇文章,也许这个世界很多人并不上微博,微信或者发微信公众号,他们住在五坏外,因此键盘侠和APP侠看到的只是世界的一面:
4、真数据假分析:读书到底有没有用?
做统计的一般都要有数据敏感性,从而发现逻辑错误,笔者曾经写过一篇《大数据也是个江湖: 关于腾讯大数据“购买iPhone人群普遍无房无车学历低”的一地鸡毛》说过这个问题,以下是另一篇误导的新闻:
据《2017社会大学英雄榜》显示,国内登上胡润百富榜的2000多位资产超二十亿的富豪中,有一半的人都是低学历。很多人会认为:学历的高低跟收入的确没什么关系,然而,这种解读是错的。
应该是:中国在2016年末大约有13.8亿人口,其中本科及以上的只有3800万,本科以下则有13.42亿,低学历的人本来就比高学历的人多得多(35倍),而它们进入榜单的人数基本相同。因此,拥有高学历的人进入百富榜的概率,是低学历的35倍。
在这个例子中,所有的数据都是真实的,但如果你只看到一部分数据,而没有看到其他数据,那就很容易被数据给坑了,得出错误的结论,笔者真的惊讶于本科人数只有占比只有3%-4%,惊讶于很多学生初中毕业后上不了高中,而且这个比例还很大。
最近吴军在《谷歌方法论》中也提到这个问题,据美国的调查显示,居然有高达46%的人认为上大学没有用,但是,另一方面,无论是收入情况还是就业率都在给持有这种观点的人打脸,在美国,拥有博士学位的人,年平均工资是12万美元,硕士是7.4万,本科是5.7万,没有大学学位的只有3.2万,而高中都没有毕业的只有2万。
甭管素质不素质,知识就是力量可不是白说的。
5、假数据真分析:这个客户画像是真的吗?
一家公司希望了解自家产品的用户画像,于是他们在产品包装上印上自家小程序的二维码,然后想办法促使用户去扫码(比如扫码查真伪、扫码学习食用方法等),一旦用户扫描二维码,公司就能从后台了解他们的基本信息,比如下图就是对用户年龄分布的统计结果:
现在请问:哪个年龄段的人才是该产品的典型用户?对于这个问题,我一共听到过三种答案。
第一种认为是30—39岁。如果你问他为什么,很显然,因为那部分柱子最高。
第二种认为是25—29岁。因为虽然它高度只是第二,但它的年龄跨度只有5岁,仅仅是30—39岁跨度的一半。
第三种则认为18—29岁都是,道理跟第二条类似,不再多解释。
那么,究竟哪种答案才更加正确呢?我估计大部分人都会选第二种或者第三种吧?最开始我也是这样解读的,认为该产品的典型用户就是“年轻人”,不过说实话,这个结论还真挺让我惊讶。因为若根据我的常识来判断的话,它的典型用户应该是年纪稍大点的中年人才对,该产品属于健康食品,主打“排毒”“减肥”“降三高”“治便秘”“抗酸”的功效,数据结果却与常识判断相互矛盾,这时候,你到底该相信数据还是相信常识呢?
准确的答案应该是:无法仅通过该数据就得出结论,好好去核实数据质量吧,如果不可能,对于这个场景,笔者还是相信自己的常识。
6、因果关系陷阱:名校真的很有用吗?
我们经常误把相关关系当成因果关系,但实际上生活中很多你以为的因果关系都不一定是因果关系,比如笔者随便问一些问题,学而思对于孩子成才到底有没有帮助?从小学钢琴学艺术真的能开发大脑?适量喝葡萄酒真的能养身?快步走比跑步锻炼更有利于健康?吃深色的菜更有利于健康?吃瓜子多了会上火?吃黑木耳、芹菜能降压?血压超过140就得吃降压药?孩子功课不好是学校和孩子的错?减少孩子玩游戏的时间对于提升学习成绩有帮助?
名校是否真有用也是一个非常有争议的课题,因为自己的孩子在一所普通的公办初中就读,正好《赤裸裸的统计学》给出了美国的一个研究。
哈佛大学等世界顶尖大学的毕业生进入社会后,其收入往往高于一般大学的毕业生,让他们获得高收入的究竟是常青藤大学的教育优势,还是他们本身就很出色?
判定因果关系一般需要依赖随机双盲实验,但这个案例显然不能通过现实的随机实验来检查,而两位美国经济学家找到了比对的方法,他们发现其实很多学生在高中毕业时会同时申请多所大学,通过这一事实的“挖掘”,研究出现了转机,一些学生被名牌大学录取之后就去报到了,而有一些学生在收到名牌大学录取通知书后,经过再三考虑,还是去了普通大学或学院深造,于是现在就有了实验组和对照组。
结果他们发现,毕业于名牌大学的人在收入方面并没有超过实力相当的那部分普通学校的人,唯一例外的就是出生于低收入家庭的人,他们从名牌院校毕业后的收入会有明显的增长优势。
也许我们不能奢望孩子进入一个好学校就能去改变什么,其实孩子在进入大学之前基本上已经决定了未来的样子,他会努力在哪里都会努力,不努力做什么都白搭,而值得注意的是由于贫困家庭可能无法提供孩子充分成长的环境,因此只有进入名校才有机会发挥潜力,富裕家庭的孩子显然有更多的选择,不会由于不能进名校而耽搁他的前程。
正是对于因果关系的执着使得美国FDA对于药品监测异常严格,导致发明一款药的成本极大,《我不是药神》很发人深省,你也许看到了药价贵的现象,但如果更深看一层,你能看出FDA严谨的科学态度,由于核实因果关系实在太困难了,FDA得让药厂不停的进行多批次临床随机实验,大多数药胎死腹中。
前面笔者提出了一系列问题,现在发现答案大都是听来的,从来没找到过详实的随机实验结果证明,因此可以说都不可信,但从众心理又常让自己屈服,毕竟我们相信大多数人的选择还是相对安全的,而有时你得自己研究,信自己亲身实践的感觉,如果没知识就只能听天由命了。
比如有研究表明,如果家长自己都不爱学习,看看电视打打游戏过日子,就不要奢望靠监督管教能让孩子爱上学习,家长的实际行动潜移默化的影响着孩子,行胜于言孩子可懂着啦,即使孩子学习成绩好,家长也不用得意哦,更多是基因使然吧。
7、三七定律:看房子到第几套的时候可以买?
生活中的很多事情,其实是可以用算法来解决的。比如买房子的问题,与其浑浑噩噩地接受命运安排,不如有点理性决策的精神,把它变成一个数学问题。
我们假设这个问题的条件是这样的:
1. 你随机地遇到各种房子,但是只打算买一个。
2. 遇到一个房子,如果你选择买下,这个房子就是你的。
3. 如果你选择不买,很快别人就会把它买走——你没有第二次机会。
4. 你应该给自己设定一个看房总数的期限,或者一个时间期限——比如说一个月之内一定要买到房子。
数学家的策略是,你要把这一个月的时间分成两个阶段。在第一阶段,你只看不买,就是根据自己的购买能力,了解一下市场上哪些房子你喜欢,哪些你不喜欢。记住在这个阶段内你看到过的最满意的那个房子。
等到过了某个时间点—具体说过了你设定期限的37%以后—你就进入第二阶段。如果预先设定的期限是一个月,那么第二阶段就从第12天开始。
从这天开始,你一旦遇到一个比第一阶段那个最好的房子好,或者类似的房子,就毫不犹豫地买下来。
这个三七定律是有数学证明的,用这个定律可以解决很多问题,比如你希望能在应聘者里找到最好的人,最佳策略是给自己设定一个招聘总时间,前37%的时间里只面试,收集数据不做决定,之后只要碰到一个比之前所有应聘者都优秀的人,马上下offer,你能得到最好应聘者的机率也是37%。这是你能获得的最好效果。
找对象也一样。
8、基廷斯指数:我该选择哪家餐馆就餐?
在生活过程中,探索新事物和珍惜当下一直是一个矛盾。从临终老人的“后悔自己年轻时没去做的事”到“邻居家的草坪更好”,前者涉及到探索,后者涉及到珍惜。
总的来说,我们到底在什么情况下探索新事物,什么情况下专注于已有的事物呢?
其实这是一个数学问题。比如你家附近有个餐馆,去过15次,其中9次的体验非常好,6次的体验非常不好。明晚是否该去这家餐馆吃饭呢?数学家提出了“基廷斯指数”的决策方法。
上图是基廷斯指数的表,以餐馆的例子来说明一下,9次体验好对应Wins 9,6次体验不好对应Losses 6 .二者结合起来对应的概率是0.6997,即最后一列倒数第四个。而对于新餐馆而言,Wins和Losses都是0,对应的概率是表中第一个0.8699,因此你们应该去新餐馆。
数学家的洞见就是你必须考虑时间因素,如果你还很年轻,你就应该积极寻找最适合自己的工作,如果你再过两个月就退休了,你还跳什么槽?
同样,老人喜欢待在熟悉的环境,不再探索新事物,并不是因为他们不敢探索了,而是因为他们不用探索了。你常以为父母生活很无聊、埋怨他们生活不积极,有可能是错的—他们正在享受用一辈子的时间探索出来的成果。
无论如何,统计学对于我们看清这个世界是有点帮助的。
作者:傅一平 微信号:fuyipingmnb
本文为专栏文章,来自:与数据同行,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/58942.html 。