做A/B Test实验时，需要多少样本量？

在实际业务中，我们会思考一个很现实的问题，ABTest得到的结论是否可信？如果不可信，那需要多少样本才能说明一组ABTest实验是具有显著性的呢？

我们今天分两步来阐述这个问题：

首先介绍一个原理——假设检验

在适当的条件下，中心极限定理告诉我们，大量相互独立随机变量的均值经适当标准化后依分布收敛于正态分布，AB测试采用双样本对照的z检验公式。

显著性上，根据z检验算出p值，通常我们会用p值和0.05比较，如果p<0.05，我们认为AB没有显著差异。置信问题上，对一个概率样本的总体参数进行区间估计的样本均值范围，它展现了这个均值范围包含总体参数的概率，这个概率称为置信水平。

从另一个角度来说，AB两个实验组之间即使有差异，也不一定能被观测出来，必须保证一定的条件才能使你能观测出统计量之间的差异；否则，结果也是不置信的。而这个条件就是开头提到的问题，样本数量问题。

2、样本量级

其次介绍我们需要多少样本呢？

那么问题来了，一次ABTest需要多少样本（用户）呢？假设AB两组实验的用户具有相同的标准差，根据公式，带入n1，同时根据假设p值和a值，推导出需要的最低用户数。

3、抖音的ABTest实验系统

这是【字节】ABTest实验系统的基本原理：

冷启动推荐：通过审核后，抖音会对实时在线用户进行流量分桶，每桶按照总用户量10%分配进行实验推送，第一步叫冷启动流量池曝光，比如你今天上传一个视频，通过双重审核的作品，系统将会分配给你一个初始流量池：200-300在线用户。不论你是不是大号，只要你有能力产出优质内容，就有机会跟大号竞争。

标签积累：分配的视频流量再进行分配实验组，每个实验组按照5%比例分配，并为用户贴上相近标签。

加权推荐：把作品送量测试给首个实验组用户，根据用户反馈的转、评、赞、完播率等计算作品基数，决定是否进行第二轮推荐及推荐力度。即播放量=A*完播率+B* 点赞率+C* 评论率+D* 转发率。

加大流量推荐：达到通过推荐基数，继续把作品推送下一个分配实验组进行测试；

顶流推荐：进入精品推荐池，大规模曝光，一旦进入精品推荐后，人群标签就被弱化了，几乎每个抖音用户都会刷到。

作者：CSDN博主「炼丹笔记」链接：https://blog.csdn.net/m0_52122378/article/details/115205207

本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流，内容版权归原作者所有，如涉作品、版权和其他问题请给「我们」留言处理。