A/B测试中的因果推断——随机化分流

摘要：现在我们来看看在统计推断中如何应用这个模型，对试验的因果效果进行估计。

分流机制

前面我们说过，对于因果效果的估计，我们需要比较多个个体的实际观测到的潜在结果，其中一部分个体和另外一部分分别接受不同的处理，观测到不同的潜在结果。

假如我们有两个用户参与这个雾霾小试验：小强和小明，观测到如下的结果。

表面上来看，小强不戴口罩咳嗽 100 分钟，小明戴口罩也是咳嗽 100 分钟，我们也许就简单地得出一个结论：雾霾时戴口罩没有用，咳嗽不会少。

但是真实情况可能是：小强对雾霾的抵抗力比小明好很多，所以他不戴口罩咳嗽 100 分钟，戴口罩只咳嗽 10 分钟；而身体较弱的小明不戴口罩会咳嗽 200 分钟，戴口罩咳嗽 100 分钟。

那么真实的因果效果应该是戴口罩少咳嗽 100 分钟左右，我们从数据表面得出的戴口罩无用的结论是错误的。

上面给出的是一个只有两个个体的简单例子，如果参与试验的个体很多，同样可能出现这样的状况。

问题出在哪里？

显然，个体之间是存在差异的，如果我们把抵抗力强的分派在一组，把抵抗力差的分派到另外一组，然后进行对比，结果就会和真实情况偏差很大，从而得出错误的结论。

问题的关键在于参与试验的用户进行分组的方法，也就是哪些用户观测到戴口罩的潜在结果，哪些用户观测到不戴口罩的潜在结果，这是对试验比较的结果影响很大的重要因素。我们把这个分组的过程称为用户分流/分派机制 (assignment mechanism)。

也就是说，多个个体参与试验并不足以保证我们进行有效的因果推断，我们必须掌握个体的分流机制这个关键信息或者对其进行有计划的控制。分流机制和因果效果的定义没有关系，但是它是潜在结果模型应用过程中的关键一步，是决定效果估计准确性的重要因素。我们通常需要在试验设计中选择一个好的分流方案，以使得因果效果的估计接近于它的定义，并且尽可能提升试验的统计功效。

因果效果是通过潜在结果（只能观测到其中一个）的比较来定义的，和实际接受到的处理无关。但是，因为我们只能观测到一半的潜在结果，无法得知个体的因果效果，在评估因果效果时就存在一个因果推断的困难：数据缺失问题，个体没有接受到的处理所对应的潜在结果的数据是缺失的。因此，解决问题的关键就是缺失数据的处理机制，在因果推断中就是分流机制。

哪些个体应该接受哪些处理，或者说哪些潜在结果应该被观测到？分流机制的这些分派决定是非常关键的。我们再看看有 4 个用户参与雾霾小试验的例子，这次试验增加了用户小芳和小刚，小芳和小强在一组，不戴口罩；小刚和小明在一组，戴口罩。观测到数据如下：

这次从数据上看，不戴口罩咳嗽 150 分钟（平均），戴口罩咳嗽 55 分钟（平均），结论是戴口罩可以减少咳嗽时间 95 分钟（平均）。和真实的个体因果效果对比我们可以看出，这个估计结果是很准确的。

这次试验为什么可以推断出正确的结论呢？因为我们增加了试验用户小芳和小刚，而小芳的雾霾抵抗力和小明接近（相同），小刚的抵抗力和小强接近（相同），从而解决了数据缺失的问题：你可以把小芳的结果看作是小明没有观测到的不戴口罩情况下的潜在结果，把小刚的结果看作是小强没有观测到的戴口罩情况下的潜在结果。

这里分流的关键在于把用户属性（抵抗力）差不多的小强 vs 小刚，以及小明 vs 小芳，分派到两个不同的组，接受不同的处理。如果反过来，把属性差不多的用户都放在同一个组，那么数据缺失问题还是没有得到解决，试验结论和上面两个用户情况下的试验一样依然是错的。

从这两个例子我们可以看出：我们不能脱离个体的分流机制而仅仅由个体观测到的潜在结果来进行因果推断，有效的推断要求我们必须考虑这个问题：为什么这些用户接受这个处理，另外的用户接受另一个处理？

随机化试验

采用随机化分流方式的试验设计就是随机化试验 (Randomized Experiments)，它是我们在 A/B 测试中进行统计推断的基础。传统的随机化试验主要有三种类型：

伯努利 (Bernoulli)随机化试验
完全随机化试验 (Completely Randomized Experiments)
分层随机化试验 (Stratified Randomized Experiments)

最简单的 Bernoulli 试验以类似于抛硬币的方式来决定每一个个体的分派；完全随机化试验中每个 treatment 分派到的个体数量是固定的，但个体的分派是随机的；分层随机化则是在完全随机化的基础上，先通过协变量对总体进行分层，然后在层内随机化分派。

不同的随机化试验类型（随机化分流方式）导致不同的分派概率分布。以完全随机化试验为例，其个体概率如下：

根据这个概率分布，我们就可以对总体的平均因果效果进行统计推断和估计了。

平均因果效果的估计

让我们先从数学上正式地定义平均因果效果 (Average Causal Effect)，它是我们试验和分析的最终目标。

首先把总体中所有的个体编号为 i = 1, …, N，N 是总体的容量。每个个体可接受一组处理中的一个，我们用 Ti 来表示个体 i 可接受的处理的集合。大多数情况下，这个集合对所有个体都是相同的。在我们的小试验中，Ti 包括两个处理水平：0 表示不戴口罩（control 组），1 表示戴口罩（treatment 组）。