什么是标准偏差？

什么是标准偏差（Std Dev,Standard Deviation）

标准偏差（也称标准离差或均方根差）是反映一组测量数据离散程度的统计指标。是指统计结果在某一个时段内误差上下波动的幅度。是正态分布的重要参数之一。是测量变动的统计测算法。它通常不用作独立的指标而与其它指标配合使用。

标准偏差在误差理论、质量管理、计量型抽样检验等领域中均得到了广泛的应用。因此, 标准偏差的计算十分重要, 它的准确与否对器具的不确定度、测量的不确定度以及所接收产品的质量有重要影响。然而在对标准偏差的计算中, 不少人不论测量次数多少, 均按贝塞尔公式计算。

样本标准差的表示公式

数学表达式：

$S=sqrt{frac{sum^{n}_{i=1}left(x_i-bar{x}right)^2}{n-1}}=sqrt{frac{left(x_1-bar{x}right)^2+left(x_2-bar{x}right)^2+cdots +left(x_n-bar{x}right)^2}{n-1}}$

S-标准偏差（%）
n-试样总数或测量次数，一般n值不应少于20-30个
i-物料中某成分的各次测量值，1～n；

标准偏差的使用方法

在价格变化剧烈时，该指标值通常很高。

如果价格保持平稳，这个指标值不高。

在价格发生剧烈的上涨/下降之前，该指标值总是很低。

标准偏差的计算步骤

标准偏差的计算步骤是：

步骤一、(每个样本数据－样本全部数据之平均值)²。

步骤二、把步骤一所得的各个数值相加。

步骤三、把步骤二的结果除以 (n – 1)（“n”指样本数目）。

步骤四、从步骤三所得的数值之平方根就是抽样的标准偏差。

六个计算标准偏差的公式

标准偏差的理论计算公式

设对真值为X的某量进行一组等精度测量, 其测得值为l₁、l₂、……l_n。令测得值l与该量真值X之差为真差占σ, 则有　　　　σ₁ = l_i X

σ₂ = l₂ X

……

σ_n = l_n X

我们定义标准偏差σ为

$sigma=lim_{n to infty}sqrt{frac{1}{n}sum^{n}_{i=1}sigma^2_{i}}$

$=lim_{n to infty}sqrt{frac{1}{n}sum^{n}_{i=1}(l_i-X)^2}$ （1）

由于真值X都是不可知的, 因此真差σ占也就无法求得, 故式只有理论意义而无实用价值。

标准偏差σ的常用估计—贝塞尔公式

由于真值是不可知的, 在实际应用中, 我们常用n次测量的算术平均值 $bar{L}(bar{L}=frac{l-1+l_2+cdots+l_n}{n})$ 来代表真值。理论上也证明, 随着测量次数的增多, 算术平均值最接近真值, 当时, 算术平均值就是真值。

于是我们用测得值l_i与算术平均值之差——剩余误差（也叫残差）V_i来代替真差σ , 即

$V_i=L_i-bar{L}$

设一组等精度测量值为l₁、l₂、……l_n

则　 $V_1=l_1-bar{L}$

$V_2=l_2-bar{L}$

……

$V_n=l_n-bar{L}$

通过数学推导可得真差σ与剩余误差V的关系为

$sum^{n}_{i=1}sigma^2_{i}=frac{n}{n-1}sum^{n}_{i=1}V^2-i$

将上式代入式(1)有

$sigma=sqrt{frac{1}{n}sum^{n}_{i=1}sigma^2_i}=sqrt{frac{1}{n}frac{n}{n-1}sum^{n}_{n-1}V^2_i}$

$=sqrt{frac{1}{n-1}sum^{n}_{i=1}(l_i-bar{L})^2}$ 　　　(2)

式(2)就是著名的贝塞尔公式(Bessel)。

它用于有限次测量次数时标准偏差的计算。由于当时，,可见贝塞尔公式与σ的定义式(1)是完全一致的。

应该指出, 在n有限时, 用贝塞尔公式所得到的是标准偏差σ的一个估计值。它不是总体标准偏差σ。因此, 我们称式(2)为标准偏差σ的常用估计。为了强调这一点, 我们将σ的估计值用“S ” 表示。于是, 将式(2)改写为

$S=sqrt{frac{1}{n-1}sum^{n}_{i=1}(l_i-bar{L})^2}$ 　　(2′)

在求S时, 为免去求算术平均值的麻烦, 经数学推导(过程从略)有

$sum^{n}_{i=1}(l_i-bar{L})^2=sum^{n}_{i=1}l^2_i-frac{(sum^{n}_{i=1})^2}{n}$

于是, 式(2′)可写为

$s=sqrt{frac{1}{n-1}left(sum^{n}_{i=1}l^2_i-frac{left(sum^n_{i=1}l_iright)^2}{n}right)}$ 　　(2″)

按式(2″)求S时, 只需求出各测得值的平方和 $sum^n_{i=1}l^2_i$ 和各测得值之和的平方艺 $(sum^n_{i=1})^2$ , 即可。

标准偏差σ的无偏估计

数理统计中定义S²为样本方差

$S^2=frac{1}{n-1}sum^{n}_{i=1}(l_i-bar{L})^2$

数学上已经证明S²是总体方差σ²的无偏估计。即在大量重复试验中, S²围绕σ²散布, 它们之间没有系统误差。而式(2′)在n有限时,S并不是总体标准偏差σ的无偏估计, 也就是说S和σ之间存在系统误差。概率统计告诉我们, 对于服从正态分布的正态总体, 总体标准偏差σ的无偏估计值为

$hat{sigma}=S_1=sqrt{frac{n-1}{2}}frac{Gammaleft(frac{n-1}{2}right)}{Gammaleft(frac{n}{2}right)}sqrt{frac{1}{n-1}sum^{n}_{i=1}(l_i-bar{L})^2}$ 　　(3)

令 $K_{sigma}=sqrt{frac{n-1}{2}}frac{Gammaleft(frac{n-1}{2}right)}{Gammaleft(frac{n}{2}right)}$

则 $hat{sigma}=S_1=K_{sigma}S$

即S₁和S仅相差一个系数K_σ,K_σ是与样本个数测量次数有关的一个系数, K_σ值见表。

计算K_σ时用到

Γ(n + 1) = nΓ(n)

$Gamma(frac{1}{2})=sqrt{pi}$

Γ(1) = 1

由表1知, 当n>30时, $K_{sigma}=1.0087approx 1$ 。因此, 当n>30时, 式(3′)和式(2′)之间的差异可略而不计。在n=30～50时, 最宜用贝塞尔公式求标准偏差。当n<10时, 由于K_σ值的影响已不可忽略, 宜用式(3′), 求标准偏差。这时再用贝塞尔公式显然是不妥的。

标准偏差的最大似然估计

将σ的定义式(1)中的真值X用算术平均值代替且当n有限时就得到

$S_2=sqrt{frac{1}{n}sum^{n}_{i=1}(l_i-bar{L})^2}$

$=sqrt{frac{1}{n}left(sum^{n}_{i=1}l^2_i-frac{sum_{i=1}^{n}(l_i)^2}{n}right)}$ 　　(4)

式(4)适用于n>50时的情况, 当n>50时,n和(n-1)对计算结果的影响就很小了。

2.5标准偏差σ的极差估计由于以上几个标准偏差的计算公式计算量较大, 不宜现场采用, 而极差估计的方法则有运算简便, 计算量小宜于现场采用的特点。

极差用”R”表示。所谓极差就是从正态总体中随机抽取的n个样本测得值中的最大值与最小值之差。

若对某量作次等精度测量测得l₁、，且它们服从正态分布, 则

R = l_max l_min

概率统计告诉我们用极差来估计总体标准偏差的计算公式为

$S_3=frac{1}{d_2}R$ 　　(5)

S₃称为标准偏差σ的无偏极差估计, d₂为与样本个数n(测得值个数)有关的无偏极差系数, 其值见表2

由表2知, 当n≤15时, $a_2approxsqrt{n}$ , 因此, 标准偏差σ更粗略的估计值为

$S'_3=frac{1}{sqrt{n}}R$ 　　(5′)

还可以看出, 当200≤n≤1000时，因而又有

$S'_3=frac{1}{6}R$ 　　(5″)

显然, 不需查表利用式(5′)和(5″)了即可对标准偏差值作出快速估计, 用以对用贝塞尔公式及其他公式的计算结果进行校核。

应指出,式(5)的准确度比用其他公式的准确度要低, 但当5≤n≤15时,式(5)不仅大大提高了计算速度, 而且还颇为准确。当n>10时, 由于舍去数据信息较多, 因此误差较大, 为了提高准确度, 这时应将测得值分成四个或五个一组, 先求出各组的极差R₁、, 再由各组极差求出极差平均值。

$bar{R}=frac{R_1+R_2+cdots+R_K}{K}$

极差平均值和总体标准偏差的关系为

$S_3=frac{1}{d_2}bar{R}$

需指出, 此时d₂大小要用每组的数据个数n而不是用数据总数N(=nK)去查表2。再则, 分组时一定要按测得值的先后顺序排列,不能打乱或颠倒。

标准偏差σ的平均误差估计

平均误差的定义为

$eta=lim_{n to infty}frac{left|delta_1right|+left|delta_2right|+cdots +left|delta_nright|}{n}$

$=frac{sum^{n}_{i=1}left|delta_1right|}{n}$

误差理论给出

$eta=sqrt{frac{2}{pi}}delta=0.7979sigmaapproxfrac{4}{5}sigma$ 　　(A)

可以证明 $sum^{n}_{i=1}left|delta_i right|$ 与 $sum^{n}_{i=1}left|V_iright|$ 的关系为

(证明从略)

$sum^{n}_{i=1}left|delta_iright|=sqrt{frac{n}{n-1}}sum^{n}_{i=1} left| V_i right|$

于是　　 $eta=frac{sum^{n}_{i=1}left|delta_iright|}{n}=frac{sum^{n}_{i=1}left|V_iright|}{sqrt{n(n-1)}}$ 　　(B)

由式(A)和式(B)得

$frac{sum^{n}_{i=1}left|V_iright|}sqrt{n(n-1)}=sqrt{frac{2}{pi}}sigma$

从而有

$S_4=hat{delta}=sqrt{frac{pi}{2}}frac{sum^{n}_{i=1}left|V_iright|}{sqrt{n(n-1)}}$

$=1.2533frac{sum^{n}_{i=1}left|V_iright|}{sqrt{n(n-1)}}$

$approxfrac{5}{4}frac{sum^{n}_{i=1}left|V_iright|}{sqrt{n(n-1)}}$

式(6)就是佩特斯(C.A.F.Peters.1856)公式。用该公式估计δ值, 由于right|Vright|不需平方,故计算较为简便。但该式的准确度不如贝塞尔公式。该式使用条件与贝塞尔公式相似。

标准偏差的应用实例

对标称值R_a = 0.160 < math > μm < math > 的一块粗糙度样块进行检定, 顺次测得以下15个数据:1.45,1.65,1.60,1.67,1.52,1.46,1.72,1.69,1.77,1.64,4.56,1.50,1.64,1.74和1.63μm, 试求该样块R_n的平均值和标准偏差并判断其合格否。

解：1)先求平均值

$bar{L}=1.60+frac{-12+5+0+7-8-14+12+9+17+4-4-10+4+4+3}{15times 100}$

$=1.60+frac{27}{15times 100}=1.618(<math>mu m<math>)$

2)再求标准偏差S

若用无偏极差估计公式式(5)计算, 首先将测得的, 15个数据按原顺序分为三组, 每组五个, 见表3。

表3

组号	l_1		l_5		R
1	1.48	1.65	1.60	1.67	1.52	0.19
2	1.46	1.72	1.69	1.77	1.64	0.31
3	1.56	1.50	1.64	1.74	1.63	0.24

因每组为5个数据, 按n=5由表2查得 $frac{1}{d_2}=0.43$

故

$S_3=frac{1}{d_2}bar{R}=0.43times0.247=0.10621(<math>mu m<math>)$

若按常用估计即贝塞尔公式式(2′) , 则

$S=sqrt{frac{1}{n-1}sum^{n}_{i=1}(l_i-bar{L})^2}=0.0962(<math>mu m<math>)$

若按无偏估计公式即式(3′)计算, 因n=15，由表1查得K_δ = 1.018, 则

$S_1=K_{delta}S=1.018times 0.0962=0.09793(<math>mu m<math>)$

若按最大似然估计公式即式(4′)计算, 则

$S_2=sqrt{frac{1}{n}left[sum^n_{i=1}l^2_i-frac{(sum^n_{i=1}l_i)^2}{n}right]}$

$=sqrt{frac{1}{15}timesleft(39.3985-frac{24.27^2}{15}right)}$

= 0.09296( < math > μm < math > )

若按平均误差估计公式即式(6), 则

$S_4=1.2533frac{sum^{n}_{i=1}|V_i|}{sqrt{n(n-1)}}$

$=1.2533timesfrac{1.176}{sqrt{15times 14}}=0.1017(<math>mu m<math>)$

现在用式(5′)对以上计算进行校核

$S'_3=frac{1}{sqrt{n}}bar{R}=frac{1}{sqrt{15}}times 0.247=0.0637(<math>mu m<math>)$

可见以上算得的S、S₁、S₂、S₃和S₄没有粗大误差。

由以上计算结果可知0.09296<0.0962<0.0979<0.1017<0.1062

即　S₂ < S < S₁ < S₄ < S₃

可见, 最大似然估计值最小, 常用估计值S稍大, 无偏估计值S₁又大, 平均误差估计值S₄再大, 极差估计值S₃最大。纵观这几个值, 它们相当接近, 最大差值仅为0.01324μm。从理论上讲, 用无偏估计值和常用估计比较合适, 在本例中, 它们仅相差0.0017μm。可以相信, 随着的增大, S、S₁、S₂、S₃和S₄之间的差别会越来越小。