说人话的统计学：做统计，多少数据才算够？（上）

上一集里，我们讨论了统计显著性（也就是p值）这一统计推断中最广泛使用的工具。

什么？你已经忘了我说了啥？

用一句话来概括：

p值就是在假定我们希望检验的效应并不存在（即「原假设成立」）的前提下，收集到了与我们所得到的结果相同或更极端的数据的概率。

如果这个概率足够小（最常见的是小于0.05），我们就不得不问，人品怎么可能这么好（或者说这么不好）？答案是否定的（如果你对这点有所怀疑，想想你上次裸考蒙对10道选择题是什么时候）。

因此，我们的结论是，原假设并不成立，我们得到了具有「统计学意义上的显著性」的结果。

统计显著性，是支撑各种统计推断方法的一条粗壮的大腿（咦这为什么听起来有点奇怪）——尽管这条大腿也有各种各样的毛病。

现在问题来了——如果p值并没有那么小呢？比方说0.25？

这意味着什么呢？

到底是原假设真的正确呢，还是我们手上的数据不够？

如果蓝精灵只扔了两次钢蹦儿，得到两个正面（此时的p值正是0.25），蓝精灵该认为钢蹦儿公平的假设成立吗？你一定会说，不对不对，得多抛几次才行啊！

在实际科研中，做这个判断可就没那么容易了。其实，在所有的研究开始之前，我们都面临这么一个决策。

多少数据才算够？

显然，我们做研究的资源（人力、物力、财力和时间等）都是有限的，如果我们想要研究的问题需要的数据量远远超出我们的能力范围，那么我们就面对着一个残酷的现实：

这个研究还没有开始

就已经注定失败了

即便你是土豪你任性，也得掂量掂量哪个课题能低投入、高回报，对不对？为了能对研究所需的数据量作尽可能准确的估计，我们就需要用到统计推断的第二条大腿——

统计功效

statistical power

（也称统计效力、统计效能）

利用统计功效进行数据量的估计，称为功效分析 (power analysis)。

第一类错误、第二类错误与统计功效统计功效与统计显著性有着极为密切的联系，而它们又建立在两个统计学概念——第一类错误和第二类错误——之上。在某个文艺小清新网站上，有一则作者不可考的略黄略暴力的故事很好地阐述了这几个概念[1]：

话说N年过去了，某位性别不明的地球统治者决定要消灭地球上的男人们。但是怎样找到地球上所有的男人并把他们都消灭呢？这位统治者开发出了一种自动判别武器——

如果胸小于A罩杯，则杀无赦；如果等于或大于A罩杯，则放过。

如果用统计学的语言来说，由于武器旨在找出男人放过女人，每当它碰到一个没见过的人时，它就先假设这是个女人（「原假设」），如果这人罩杯太小，那就认为这肯定不是个女人（「推翻原假设」）。

不是女人那还能是啥？

男人呗（「接受备选假设」）。

腥风血雨过后，结果不难想象：

绝大部分的男人都不带走一片云彩地离开了这个世界，而绝大部分女人都还在愉快地生活着，然而有些可怜的mm因为胸太小被误杀，有些胸肌发达的gg却因为胸很大而活了下来。

在这里，武器的判别程序犯了两种错误：

把一小部分小胸女人当成了男人，也就是在原假设其实为真时错误地拒绝了它，这在统计学中被称为「第一类错误」；
把一小撮大胸男人当成了女人，也就是在原假设其实为假时错误地接受了它，这在统计学中被称为「第二类错误」。

我们通常用一对希腊字母和β来代表犯第一类和第二类错误的概率。在这个故事里，就是被错杀的女人在所有女人中的比例，而β则是被放过的男人在所有男人中的比例。

到头来，我们如何知道这个武器有多成功呢？既然原来的目标是消灭男人，我们就看看到底多大比例的男人被干掉了，这个比例就是1-β。我们很快就会看到，这正是统计功效。

你在读到第一类错误的时候，是否觉得有点儿似曾相识？

是的！

我们之前讨论的统计显著性说的就是这事儿，我们之所以要在p值足够低的时候才拒绝原假设，就是为了让我们犯第一类错误的可能性尽可能低。

那么，第二类错误由谁来控制呢？

正是统计功效！

统计功效指的就是：如果我们感兴趣的效应或差异的确存在，在给定的显著性水平的规定下，我们能够正确地拒绝原假设的概率。这其实就是不犯第二类错误的概率，因此，统计功效的值可以用1减去β得到，用数学式子表示为

其中，P表示概率，(拒绝 H₀ | H₁ 为真)表示在备选假设 H₁为真的条件下拒绝了原假设H₀的事件。

当了解了这一切之后，统治者很生气，就不能两种错误都少犯些吗！ta得到的反应一定是：「臣妾做不到啊！！」

在任何统计学问题上，两类错误都是此消彼长的。

如果统治者想少犯第二类错误，把大胸男们也一块赶尽杀绝，那么必然会有更多小胸女人中枪；相反，如果统治者想少犯第一类错误，降低罩杯标准，那么男人们逃脱厄运就更容易了。

因此，我们的统计学巨人尽管努力地想用显著性和功效这两条大腿把第一类和第二类错误都踩在脚下，然而他却是骑在一辆自行车上——放下一条腿，就只能抬起另一条腿。

决定统计功效的因素好了，我们知道了统计功效是什么，那么它由什么决定呢？我们又如何通过功效来找出需要的数据量？

我们再来讲第二个故事：

让我们再次回到山的那边海的那边，自从上次的掷钢蹦儿事件以后，蓝精灵和格格巫一直相安无事。有一天上课，蓝精灵突然找不着一样东西了，心想是不是早上起晚了匆匆忙忙落在了宿舍。正巧格格巫有事要回去，于是蓝精灵就让他帮忙找一找。过了一会儿，格格巫回来了，两手一摊：“没有啊！”（这里我们认为格格巫的确去找了，不考虑格格巫使坏的可能性）此时蓝精灵该怎么想呢？那东西到底在不在宿舍？这个问题我们无法给出确凿的回答。

既然没有确定的答案，我们就退而求其次，看能否能算出某个概率。蓝精灵真正关心的是什么问题呢？是那样东西在宿舍的可能性（概率）。

很遗憾，正如我们在上一集中讨论过的一样，目前常用的频率学派的统计推断方法无法得出这个概率，只有用贝叶斯推断才能大致推测。关于贝叶斯的那些事儿我们留着以后再聊，现在我们稍微换个思路：如果东西真的在宿舍，格格巫能找到它的概率是多少？

细想一番，我们能够发现，有以下几个因素影响着这个概率。

首先，自然是那个东西的大小。

如果蓝精灵让格格巫找的是个纽扣，那即便纽扣真的在宿舍，格格巫也很可能会错过；如果东西是个手机，找到的可能性就大些；要是找的东西是个冰箱，找到的可能性就几乎是1了。

当然，格格巫他有没有认真去找也很重要。

为了简单起见，在这里我们只讨论格格巫找东西的时间：要是格格巫找了大半小时，东西就不大可能会漏网；要是格格巫敷衍了事半分钟就回来了，即便东西再大，都很可能被他错过。

还有别的要考虑的因素吗？别忘了，宿舍本身混乱程度如何也能左右格格巫找到东西的可能性。要是宿舍里窗明几净井井有条，格格巫就不难发现东西；而如果宿舍一片狼藉（有鉴于钢蹦儿事件，貌似这更接近于真实情况），找东西的难度可就大多了。

在上面这个故事里，蓝精灵要找的东西就是我们所感兴趣的效应或差异，格格巫寻找的过程就是我们所做的实验。我们可以通过类比来直观理解影响统计功效的因素有哪些：

一、效应的大小（即故事中被寻找的东西的大小）。效应越大，统计功效越大。还记得在上一集里我们讨论“p值不是什么”的时候，提到过p值不能代表效应的大小吗？彼处所说的效应和这里其实就是一个概念。我们辛辛苦苦做实验、做统计分析，为的就是尽可能准确地找到效应有多大。目标越大，自然越容易被找到。

二、数据或样本量的多少（即故事中格格巫找东西的时间）。容易想象，数据越多，统计功效越大。

三、数据中包含的「噪音」水平（即故事中宿舍有多乱）。如果噪音的水平（例如样本的标准差）相对于效应而言很大，即便效应真实存在，也很容易被噪音掩盖，从而无法得到有显著性的结果。在实际应用中，由于效应大小和噪音水平必须互相比较才有意义，因此通常将两者相除，计算出标准化的效应大小，从而将两个量合并成为一个量。

另外，别忘了我们刚刚讨论过，两类错误是相互对抗的关系，因此，用于控制第一类错误率的显著性水平也会影响用于控制第二类错误率的统计功效。

从上面的讨论中，我们了解到，统计功效（1-β）由这些因素决定：

标准化的效应大小（ES）

样本量（N）

显著性水平（)

统计学家们已经证明，这四个量只要知道其中任意三个，就能求出剩下的一个。因此，如果需要在开展研究之前估计所需的样本量N，只需知道、1-β和ES，剩下的事情交给计算机软件就可以完成了。

事情听起来很完美。

真的如此吗？

仔细想一想，和1-β都是人为的标准，确定起来并不难，可是效应大小ES呢？这不恰恰是我想通过研究来了解的吗？如果我还没开始研究就知道了效应大小，那我还哪里用得着算数据量、做实验呢？听起来像是先有鸡还是先有蛋的问题了，这便是功效分析最大的难点所在。

我们该怎么办？

在这里我们将暂时卖个关子。

在下一集中，我们将讨论估计效应大小的方法和提高统计功效的策略，并且还会为大家介绍一款进行功效分析的免费软件。

参考文献：

http://www.douban.com/group/topic/12156052/
http://www.graphpad.com/guides/prism/6/statistics/index.htmstat_an_analogy_to_understand_stati.htm
Bausell, R. B., & Li, Y. F. (2002). Power analysis for experimental research: a practical guide for the biological, medical and social sciences. Cambridge University Press

来源：微信公众号协和八（ID：pumc08）编辑：粉条儿菜本文由协和八授权发布

作者：张之昊，2005年进入清华－协和临床医学八年制专业，后转入清华生物系获理学学士学位。2010年起在耶鲁大学跨院系神经科学项目攻读哲学博士学位，利用功能核磁共振技术与计算建模研究人类经济决策的脑科学基础。同时，还作为耶鲁大学StatLab统计咨询师为耶鲁师生提供数据分析、实验设计及统计学软件的咨询服务。

本文为专栏文章，来自：协和八，内容观点不代表本站立场，如若转载请联系专栏作者，本文链接：https://www.afenxi.com/23242.html 。