你发现没有,如果你在网上买过东西,商家就会根据你的网购经历,给你推荐很多相关的商品。比方说你买了婴儿奶粉,商家除了给你再推荐奶粉,还会给你推荐婴儿车、婴儿床。还有,你可能也听过,很多互联网公司都会基于后台收集到的各种数据,做出自己产品的“用户画像”,让分散在整个互联网上的用户,从无数抽象的数据,变成一个或者几个具象化的人物,然后再有目的地优化自己的产品。那你知道支撑大数据和算法科技的,是哪一门学科呢?可能你也想到了,对,就是专门处理数据的统计学。
统计学是一门古老的学科,从人类文明出现以来,统计就已经存在。从最开始的结绳记事,到后来随着各种政权的出现,为了方便管理,各国都会成立专门的机构负责统计国家信息,比如中国古代的户部。漫长的人类历史不仅是统计学的发展史,也是人类认知世界的历史。为什么这么说呢?接下来,我就从以下三个方面解释这个问题。首先,我给你说说统计学的基本原理、这个学科的底层逻辑是什么。接着,跟你说说,统计学作为一门应用科学,它的基本理论框架包括哪些内容,它又是如何帮助我们去处理复杂的数据,用已知去预测未知的。最后,我们再来看看大数据时代的统计革命。
统计学的概念与原理
一般意义上的统计学,包含了概率学与数理统计学两个部分,都以概率论为基础。听着吓人,其实除了一个吓人的名字,这门学问并不高深,我们从小到大都和它打着交道。比如学生时代参加的大大小小的考试,本质上都是数学统计的过程。老师出的考卷就相当于一张调查问卷,通过选择有限的知识点和题目,来考察我们对整个知识体系的掌握情况。用统计学的术语表达出来,这就是典型的抽样调查,考试成绩就是量化后的调查结果,而我们每个人的学习能力和努力程度,就会以分数的形式展现出来。
其实统计学作为一门应用科学,统计一直是从问题出发的,它的本质就是借助一些数学工具来解决现实问题。一个统计学家所做的工作,就是通过分析数据来推断事物的本质,预测它未来的发展。而分析数据的第一步,就是找出那些看似偶然发生的事件,背后隐藏着哪些必然性的统计规律。这里就要用到两个概率学基本定理,第一个是大数定律,它是整个概率学的基础。在生活中,想要做好财产管理和风险投资,都离不开它。
第二个是中心极限定理,这个定理解释了,为什么我们可以通过随机抽样,来调查整个群体的特点规律。了解这些概率学知识之后,我们就可以把目光放在统计学的基本方法上。
第三个重点我们就来说说,随机抽样,这是调查统计的基础环节,我们可能大概知道它是怎么回事,但是其实这个环节,经常容易出错。那么,对于比较复杂的问题,科学家又是如何开展分析研究的昵?
第一个重点:大数定律
想象一下你在学生时代的某天,老师心情不好,一连在班级里做了10次单词听写。 对你来说,每次听写的成缋肯定是有浮动的,可能有一两次得分比较高,一两次不太理想。但听写了这么多次,应该比较能反映你的真实水平了。这就是“大数定律”的主要内涵,用数学术语来表达,那 就是当试验次数足够多时,实验结果的平均值会无限地接近一个数值,这个数值一般叫做“期望值”。它的意义在于,我们可以通过研究概率来看清风险,做出决定,尤其是在理财和投资的时候,体现得特别明显。
比如常常有人幻想自己一夜暴富,那最有可能的方法就是,买彩票或者进赌场。其实博彩行业就是依靠概率理论来发财的,让大家都觉得自己会是那个幸运儿。可如果按照每期奖金的数额除以彩票的发行量,每张彩票的实际价值都不到1分钱,但人们依然热衷于花2元钱来交换1分钱。就算是某期彩票暴出大奖掏空了奖池,从长远看,发行彩票也是稳赚不赔的。为什么昵?根据“大数定律”,对于长期发行、销量稳定的彩票,奖金总额的期望值是恒定的,发行机构只要保证彩票的销售额大于奖金期望值,就肯定赚钱。赌场也是一样,只要能吸引到足够数量的赌客,不管幸运儿蠃走多少钱,赌场永远是最后的蠃家。所以,一夜暴富的事发生在我们身上的概率微乎其微,沉溺其中的结果,就是让赌场老板和彩票发行机构大赚了一笔。
反过来,对于一些期望值比较高的投资,我们也要用到大数定律的知识。比如一个投资门槛是100万的项目,成功率只有30%,但是预期回报达到了500%,这么诱人该不该投昵?这时候,如果你把注意力都放在了高回报率上就很危险。我们要注意,大数定律成立的前提是“试验次数 足够多”。投资100万可不是买2元钱的彩票,如果你是工薪阶层,用来投资的100 万元是你的全部资产,那你显然没有多次投资的资本。这时候如果你孤注一掷,有70%的概率会血本无归。反过来,如果你是巴菲特,那这样的项目肯定是来得越多越好,因为你投资的几百个项目里肯定有一些会成功,平均来看一定会像开赌场一样赚到大钱。所以,面对理财投资中的高期望,我们首先要考虑的因素就是风险倾向。根据大数定律,你的风险承受能力越强,意味着允许试验的次数越多,也就越有可能赚到期望的投资回报。
生活中最常见的、依靠大数定律来赚钱的其实是保险行业。比如我们在网上购买电子产品的时候,网站经常会向我们推销延长保修服务。比如一台1000元的打印机, 多花50元可以延保1年。如果你掌握了大数定律,就很容易想到,厂家对这款打印机提供维修服务的预期成本,肯定少于50元,否则就要赔钱了。
但有些时候,这种钱还必须得花。大家都知道保险公司利润很高,假设一种人身意外险的赔偿额度是100万,发生意外的概率是百万分之一,那么预期损失就是1元钱,如果你花10元钱来买,保险公司就能挣到10倍的利润,基本和开赌场没什么区别。但你要知道,买这类保险的意义并不是为了省钱,而是当你遭受一些难以承受的巨大损失时,帮你渡过难关。因为人身意外的损失,是不能和一千元的打印机来比较的,这时保险更多的是一个规避风险的理性工具。
第二个重点:中心极限定理
这个定理是概率学首席定理,我们可以这么理解:假如你烧了一锅汤,想知道味道怎么样,没必要把汤都喝光,只要尝一小勺就可以了,任意一勺汤的味道绝不会相差很远。那中心极限定理的含义就是,任意一个群体样本的平均值,都会围绕在这个群体的整体平均值周围。我们对一个基数庞大的群体做统计调查的时候,只要对其中的一部分样本进行研究,得出的结论就能反映整个群体的特点,而且抽样的数量越大,准确性越高。
因为这个定理的存在,我们开展调查统计就变得简单方便了。如果我们掌握了某个群体的具体信息,就能推理出从这个群体中正确抽取的随机样本的情况。举一个有趣的例子:假设有一个城市同时在举办马拉松比赛和吃热狗大赛,比赛前有一辆载满外国马拉松运动员的公交车不见了,结果警察找到了一辆载满大胖子外国人的公交车。由于语言不通,那警察只能根据经验来判断。即使马拉松选手里面可能也有一两个略重的,但是满车都是胖子不大可能。所以利用中心极限定理不难推断出,警察很可能找错了车子。
当然这属于比较极端的情况,如果换个场景条件,找到的两辆车中,乘客有胖有瘦,该怎么判断呢?这时候我们可以对车中乘客的体重进行测量,计算他们体重分布的标准差,运用中心极限定理,我们仍然能判断出哪辆车是我们要找的。这是因为:马拉松运动员群体的体重标准差是明显小于普通群体的,他们的体重分布更集中。这也是中心极限定理的另一种运用,那就是如果已知两个样本的基本特性,就能推理出这两个样本是不是来自同一个群体。
第三个重点:随机抽样
随机抽样,是我们收集数据的主要方法。比如开展问卷调查的时候,如果客户数量庞大,根据前面说过的中心极限定理,只要在他们中间抽取一部分有代表性的样本来填写问卷,就能达到目的。这个选取代表性样本的过程就是随机抽样。
所以,随机抽样只是看似简单,它的关键在于“随机”这两个字。要做到随机,必须保证每个对象被抽到的概率完全相等,这样抽样后的样本才能代表整个对象群体。比方说我们想知道100个玩具球中有多少红色球、多少蓝色球,只要把它们放进一个袋子里,然后随机取出30个,就能得到基本准确的颜色比例。但问题是,我们开展调查时的对象是人,我们所关心的人口组成远远要比一袋子玩具球要复杂。 如果不能保证相关人口中的每个人,被选为样本的概率都相同,作者就认为这样的抽样结果存在“偏见”,这样有偏见的样本往往会得出荒谬的结论。
第四个重点:回归分析
在说回归分析之前,先来讲讲高尔顿发现的“回归现象”——从遗传学的角度来看,父母高的话,孩子也应该高,父母矮的话,孩子也应该矮呀。但是实际测量的数据却不是这样的。整体来看,孩子的身高其实都有一个逐步向人类平均身高靠拢的现象,高尔顿将这种数据向总体平均值靠拢的现象称为“均值回归”。
其实,高尔顿提出的概念,已经和成熟的统计思想非常接近了。但是首次将这种思想用数学公式表达出来的是他的学生卡尔.皮尔逊。
1895年,皮尔逊第一次在科学史上明确地阐述了实验数值的随机性,而所有出现的观测值都可能符合某种规律性。科学的目的,就是找到几个指标来描述这种规律性。他告诉大家都别为自己的实验误差纠结了,世界本来就是测不准的,每次的实验结果都是随机出现的,至于怎么出现有它自己的规律,科学研究的主要工作不在于研究具体数据,而在于发现这种规律性。这种思想对当时的科学界来说,就像是一枚重磅炸弹。
可以说,皮尔逊的统计思想颠覆了当时人们认知世界的方式,人们开始认识到,万事万物不见得一定是因果关系,而是相互作用相互影响的相关关系,人们也逐渐接受了实验结果的随机性。这种事物间的相关性以及数据分布的随机性,也得到了科学界的普遍认可,直到现在已经深深地渗入到我们的曰常生活中了。
皮尔逊的思想虽然具有颠覆性,但由于他自己的数学能力有限,有些概念和数学推导并不成熟,后来皮尔逊的朋友戈赛特和费希尔重新定义了一些统计概念,纠正了皮尔逊的一些错误。尤其是费希尔,他在一般性的统计方法和统计思想上,提出了实验设计方法、方差分析法、回归分析方法等。
其中回归分析方法,是一种非常强大的统计学方法,专门用来分析那些影响因素很多的复杂问题。简单来说,回归分析就是通过一个已知的现象,来找到未知的原因。它可以通过严格的数学分析,复原出每种原因对结果的贡献比例。
举个例子,伦敦大学公共卫生学院曾经主持过一项著名的“白厅”研究。医学家们发现,英国政府里低级别的公务员,患上心脏病的概率比他们的上司更高,白厅研究就是要找出这背后的真实原因。这个研究显然不能用随机抽样的方法实现,因为我们不可能把志愿者强行分配到各个工作岗位工作几年,然后再看哪些人因公殉职了。研究员只能在很长一段时间里,对数千名公务员进行详细的数据采集,来比对各类导致心脏病的可能因素。
比如说,低阶公务员的学历普遍偏低,会不会是影响因素?烟民比例多呢?还是不能享受到高水平的医疗服务?或者是加班多,锻炼时间少?这些都是导致心脏病高发的变量,那么到底哪一个才具有决定性的影响呢?这么庞杂的数据里有太多错综复杂的因素,显然会干扰研究员的判断。这时候就要用到回归分析这个工具,它的作用好比一个可以调节孔径的筛子,能在综合考虑其他变量效果不变的情况下,把其中一个变量的效果分离出来。
回归分析的数学过程比较复杂,好在现在有了成熟的多元线性回归方程模型可以套用。我们要做的,就是把多个变量的取样结果代入回归方程式,计算结果就会显示出,我们关注的变量和心脏病发病率的线性关系。通过统计推断,我们就能知道这个变量到底在多大程度上影响了发病率。实验结果表明,造成心脏病高发的真正原因,是对工作缺乏控制力和话语权。而这类存在感较低的岗位,在低级别职位中更常见。现在,“低控制力”已经成了一个 专有名词,专指那些精神负担重、决策水平低的工作。
事实上,当前科学界绝大多数的研究结论都是以回归分析作为基础的。尤其是回归分析软件的普及,让建立模型和解析方程变得很简单。但同时也要注意,电脑永远不能代替人的工作,如果我们在进行回归分析时遗漏了变量,或者忽视反面因素,回归分析就会得出危险的结论。
比如,上世纪90年代,哈佛大学医学院对12万名女性开展了纵向调查,经过严格的回归分析证实,定期摄入雌激素的女性, 突发心脏病的概率只有其他女性的1/3。医学机构支持了这个观点,医院开始定期为中老年妇女进行雌激素的补充治疗。然而后来的临床试验发现,补充雌激素的副作用会导致乳腺癌和血栓病高发,这是科学家们没有考虑到的重大疏漏。最终,因为接受雌激素治疗而死亡的女性患者达到上万人。你看,一旦出现变量遗漏,错误的回归分析结果甚至会杀人。
以上就是我们要说的第一部分的内容,这部分的重点是统计学的基本原理与相关概念。统计学就是基于问题,收集数据、分析数据、解读数据的过程。它的产生起源于我们探索世界的需要。第二部分我们来讲讲统计学的基本框架。
统计学的基本框架
我们所处的世界包含各种各样的事物,我们想全部观察一遍几乎是不可能的,人口普查不可能年年搞,了解新药疗效也不可能让每个病人都试一下,但是观察一部分我们还是可以做到的。在统计学里,这个真实的世界或者我们想研究的事物,被称为“总体”,而从总体找到一 部分具有代表性的个体,就是找“样本”,统计学就是帮助我们利用样本的信息来推测总体情况的工具,也就是从局部到整体,从已知到未知的过程。
当我们使用统计学的时候,一般有两种目的。要么,是为了分析现有的样本数据,要么,是估计未知的总体情况。根据不同的目的,统计学可以划分为两大部分,一部分是描述统计,一部分是推论统计。
这两个词儿听起来可能不太好理解,我来给你解释一下。简单说,描述统计其实就是处理样本数据的过程,通过对杂乱无章的原始数据进行整理,让这些数据能够直观简练地呈现出来,并作为我们认识事物的客观依据;而推论统计则带有猜测的成分,是从样本到总体的过程,通过整理出来的样本数据信息来估计总体、预测未来。可以说,这两种统计方法的功能不一样,描述统计针对的是已知的样本,是当下;推论统计针对的是未知的总体,是未来。
大面儿上了解了它们的区别,我再分别给你举例说明一下。
我们先说“描述统计”。其实描述统计理解起来并不复杂,它无非从几个角度来描述数据,告诉我们数据整体处于什么样的水平,数据内部分布是比较平均还是参差不齐,在某个具体的行业或领域内跟其他数据横向相比处于什么样的水平,或者从历史的角度纵向来看又处于怎样的水平。 实际工作中当我们分析某个企业的薪酬水平、某国的GDP数据时,基本就是从这些维度思考的。
描述统计虽然是一种处理数据的方法,但它作为一种思维方式同样指导着我们的工作和生活。比如,我们有时会听到“用户画像”这样一个概念,是不是听起来很高大上?但其实它本质上就是一种描述统计。数据团队在制作“用户画像”的过程中,首先会根据需要选取关键的指标或者维度,然后收集各个维度的数据或相关信息,比如收入水平、教育水平、产品使用频率等,这就是一个计算平均值的过程; 最后将这些信息整理,抽象出一个用户的信息全貌,给用户贴标签,这个过程就是把各个指标的平均值综合起来然后用文字描述出来。当然具体的操作要比这些复杂得多,但其本质并没有区别,只不过描述统计处理的是数据,而用户画像有可能处理的是文字而已。
了解了描述统计的含义和功能,我们再来说说“推论统计”。
前面我们提到,推论统计本质上就是用样本信息推测总体情况,利用已知信息去估计未知的过程,这其中含有“猜”的成分,既然是“猜”就必然存在如何判断猜得准不准的问题。因此在统计教材中,这部分章节涉及大量的统计方法和计算公式,还有复杂的逻辑推理过程,让很多人头痛不已。然而无论是使用什么分析方 法,本质上都不外乎是这么两种思路,那就是“参数估计”和“假设检验”。
所谓的“参数估计”,就是直接从样本出发,利用样本计算出的数据来估计总体情况,它又分为点估计和区间估计两种,简单来讲就是你在估计的时候用的是一个具体的数值还是一个数值范围。现实生活中,其实我们每天都在“被估计”,每当你刚浏览完某个产品的信息,紧接着平台 就会给你推荐一大堆相关产品。但细心的话,你可能会发现虽然买的是同样的东西,但不同的平台随后给你推荐的产品却不太一样。这是因为,他们抓取的样本数据或者具体算法不同,但背后的统计思想并没有差别,无外乎用现有的大多数人的样本数据来预测你的偏好。
除了“参数估计”,推论统计里,还有一种重要的方法就是“假设检验”。简单来说,“假设检验”就是从总体出发,先对总体情况提出一个假设,称之为“零假设”。然后通过实验收集数据,将收集到的数据跟这个零假设进行比较,看看之前的差异大不大,大到什么程度才能认为实验方法是有效的。其实“假设检验”的思路跟我们生活中的目标管理很像,先定目标,执行完后看看目标是否达成。这个分析方法,在学术研究领域,是非常常见的。当然科学家们做的“假设检验”要比 这复杂严谨得多,但基本思路就是这么简单。
现在假设检验的思想已经渗透到了现代科学教育中,并成为科学家和工程师的常规思考方式,他们在进行科学研究、发表科学论文的时候,基本都会用到这种思路。通常“零假设”都是一些通过多次验证的共识性的结论,想要推翻它可不容易,而科学研究就是一步一步地、小心翼翼地在试图推翻“零假设”的过程。最后,我们来讲讲大数据时代的统计革命。
大数据时代的统计革命
到了互联网时代,大数据技术的发展让我们能够很容易获得整体的数据,统计学这个从样本来估计整体的学科,还有那么大的价值吗?统计学是通过”概率”和“相关”来认识世界的,但谁能保证这是绝对正确的呢?概率这种看不见摸不着的东西真的存在吗?我们认知世界的方式真的正确吗?如果这一点没法确认,那大数据会不会带来另一场认知革命?我们认知世界的方式又会经历怎样的变革?
最后,我们的社会生活是建立在科学原理之上的,进入到大数据时代,转变自己对周围世界的认知方式非常重要。所以,掌握一些基本的统计学知识,刻意挑战一下自己对世界的直观感性认识,培养理性判断的能力,会对我们很有帮助。我们未必都要把自己变成科学家,但要尽量让自己具备科学家式的思维方式,这会让我们在做关键判断的时候游刃有余。
本文由 Alankou 投稿至 数据分析网 并经编辑发表,内容观点不代表本站立场,如转载请联系原作者,本文链接:https://www.afenxi.com/63390.html 。