让人纠结的统计学P值

每次研究生答辩，委员会们为了显示自己的认真负责态度，都会对统计学方法，统计学差异，P值等问题特别重视。虽然大家显然对这个问题都是一知半解，甚至误解。

关于统计学的争议最多的就是P值，就是这个大写斜体的P值。无数论文和博客曾经写过这个“无效假设检验”话题。无效假设检验是统计学的基本原理和基石，是指根据于某种实际需要，对未知的或不完全知道的统计总体提出一些假设。然后由样本的实际结果，经过一定的计算，作出在概率意义上应当接受那种假设的测验。一般的描述是，你假设两组处理是不同的，然后用检测数据进行统计学计算（经常说分析），计算什么，计算这两组因为抽样误差产生这种差异的概率不超过5%（任何小于5%的概率）。统计学经过大量研究认为，5%是一种小概率事件，因为相同的概率不超过5%，属于小概率事件，那么我们就说这两组数据存在显著（显著只是统计学几率，不是相差多少）差异。请注意，统计学分析的结果是两组差异的可能性P值大小，并不是相差的多少，但是我们现在对P值非常认真。几乎到了崇拜的地步，如果没有达到预期的小概率，即使数据差别很大，我们不承认差异。在临床研究中，我们几乎都不相信个案，认为这是偶然的可能性很大，除非像某些绝对不可能发生的案例，例如你用某方法治疗艾滋病，患者完全痊愈，有一个我也服。其他的，例如你治某个恶症癌症患者，完全康复，因为本来就存在不名原因自愈的可能，我绝对不相信，尽管我也觉得有点神奇。

今天的《自然》再次提出这个话题，认为P值只是冰山一角。“无效假设检验”。而根据数学和统计规律，影响P值大小的最重要因素是样本量和差异大小。

如果差异足够大，例如某种抗血压药物的治疗效果，很小的样本量就可以计算出足够小的P值，如果差异比较小，例如某种癌症治疗药物，可以通过扩大样本量获得足够小的P值。言外之意，P值本身是可以操纵的数据，那么对能操纵的一个P值的崇拜有何必要？对P值这一质疑，不只是停留在争论上，甚至有的学术杂志政策专门提出禁止使用P值。2015年2月《基础和应用社会心理学杂志》就决定禁止使用P值。

这样的禁令并不能影响科学出版的质量。不得不承认，有很多统计和研究设计方法很成功，也非常有价值。P值计算是统计学分析得最后一个阶段。在实践中，在研究早期阶段对数据进行分析对研究结果也非常重要，这种分析应该贯穿于从实验设计到影响因素，能提前了解误差的来源和性质，是来自干扰因素，还是简单的测量误差，从而对实验设计进行细微调整。

（足够小的）P值是非常容易获得的目标，也是应用广泛和容易被滥用的统计学标准。在实际应用中，不当调整统计学差异给滥用统计学标准提供了方便。例如通过换用不同的统计学方法以获得最有利（符合预期）的统计学结论。

理论上，P值只适合小样本的统计学分析，因为只要足够的样本量，任何细微的差别都能找到足够小的P值。用贝叶斯因子或其他统计指标代替P值是权衡真假阳性的选择，或者是提高统计效率，本身并不能彻底解决问题。

统计学教育非常重要。就好像任何进行DNA序列分析和遥感的人都必须学习使用机器，任何使用统计学工具分析数据的人都必须对统计概念和数据分析软件进行培训。甚至研究生指导老师也必须进行统计学培训，以提高对潜在统计学分析错误的识别能力。一些在线课程就是针对这些问题，例如约翰霍普金斯大学的Data ScienceSpecialization等，用户可以方便地学习使用一些计算机统计分析软件。

但教育不能解决所有的问题。数据分析的教学基本采用学徒模式，每个学科都发展出自己的统计分析文化，决策是基于特定学科文化传统而不是经验证据。例如经济学家和生物医学科学家对同样类型的数据采用完全不同的分析方法。

数据分析的最终目标应该是基于证据。这类似于循证医学，鼓励医生只接受有对照试验证明疗效的证据。无论怎么争论，统计学都不能放弃，争论看来没有太多必要，只要你继续科研对统计学纠结就会存在。