27 - 标准差(Standard Deviation) 与标准误差(Standard Error)_服务器知识

本文摘自

Streiner DL.Maintaining standards: differences between the standard deviation and standarderror, and when to use each. Can J Psychiatry 199641: 498–502.

标准差，缩写为S.D., SD, 或者 s (就是为了把人给弄晕？)，是描述数据点在均值（mean）周围聚集程度的指标。

如果把单个数据点称为“ X i ,” 因此 “ X 1 ” 是第一个值，“ X 2 ” 是第二个值，以此类推。均值称为“ M ”。初看上去Σ( X i - M )就可以作为描述数据点散布情况的指标，也就是把每个 X i 与 M 的偏差求和。换句话讲，是（单个数据点—数据点的平均）的总和。

看上去挺有逻辑性的，但是它有两个缺点。

第一个困难是：上述定义的结果永远是0。根据定义，高出均值的和永远等于低于均值的和，因此它们相互抵消。可以取差值的绝对值来解决（也就是说，忽略负值的符号），但是由于各种神秘兮兮的原因，统计学家不喜欢绝对值。另外一个剔除负号的方法是取平方，因为任何数的平方肯定是正的。所以，我们就有Σ( X i - M ) 2 。

另外一个问题是当我们增加数据点后此等式的结果会随之增大。比如我们手头有25个值的样本，根据前面公式计算出SD是10。如果再加25个一模一样的样本，直觉上50个大样本的数据点分布情况应该不变。但是我们的公式会产生更大的SD值。好在我们可以通过除以数据点数量 N 来弥补这个漏洞。所以等式就变成Σ( X i - M ) 2 / N .

根据墨菲定律，我们解决了两个问题，就会随之产生两个新问题。

第一个问题（或者我们应该称为第三个问题，这样能与前面的相衔接）是用平方表达偏差。假设我们测量自闭症儿童的IQ。也许会发现IQ均值是75, 散布程度是100 个IQ点平方。这IQ点平方又是什么东西？不过这容易处理：用结果的平方根替代，这样结果就与原来的测量单位一致。所以上面的例子中的散布程度就是10个IQ点，变得更加容易理解。

最后一个问题是目前的公式是一个有偏估计，也就是说，结果总是高于或者低于真实的值。解释稍微有点复杂，先要绕个弯。在多数情况下，我们做研究的时候，更感兴趣样本来自的总体（population）。比如，我们探查有年轻男性精神分裂症患者的家庭中的外现情绪（expressed emotion，EE)水平时，我们的兴趣点是所有满足此条件的家庭（总体），而不单单是哪些受研究的家庭。我们的工作便是从样本中估计出总体的均值（mean）和SD。因为研究使用的只是样本，所以这些估计会与总体的值未知程度的偏差。理想情况下，计算SD的时候我们应当知道每个家庭的分值(score)偏离总体均值的程度，但是我们手头只有样本的均值。

根据定义，分值样本偏离样本均值的程度要小于偏离其他值，因此使用样本均值减去分值得到的结果总是比用总体均值（还不知道）减去分值要小，公式产生的结果也就偏小（当然N很大的时候，这个偏差就可以忽略）。为了纠正这个问题，我们会用N-1除，而不是N。总之，最后我们得到了修正的标准差的（估计）公式（称为样本标准差）：

顺带一下，不要直接使用此公式计算SD，会产生很多舍入误差(rounding error)。统计学书一般会提供另外一个等同的公式，能获得更加精确的值。

现在我们完成了所有推导工作，这意味着什么呢？

假设数据是正态分布的，一旦知道了均值和SD，我们便知道了分值分布的所有情况。对于任一个正态分布，大概2/3（精确的是68.2%）的分值会落在均值-1 SD和均值+1 SD之间，95.4%的在均值-2 SD 和均值+2 SD之间。比如，大部分研究生或者职业院校的入学考试（GRE,MCAT,LSAT和其他折磨人的手段）的分数分布（正态）就设计成均值500，SD 100。这意味68%的人得分在400到600之间，略超过95%的人在300到700之间。使用正态曲线的概率表，我们就能准确指出低于或者高于某个分数的比例是多少。相反的，如果我们想让5%的人淘汰掉，如果知道当年测试的均值和SD，依靠概率表，我们就能准确划出最低分数线。

总结一下，SD告诉我们分值围绕均值的分布情况。现在我们转向标准误差（standard error）。

前面我提到过大部分研究的目的是估计某个总体(population)的参数，比如均值和SD（标准方差）。一旦有了估计值，另外一个问题随之而来：这个估计的精确程度如何？这问题看上去无解。我们实际上不知道确切的总体参数值，所以怎么能评价估计值的接近程度呢？挺符合逻辑的推理。但是以前的统计学家们没有被吓倒，我们也不会。我们可以求助于概率：（问题转化成）真实总体均值处于某个范围内的概率有多大？（格言：统计意味着你不需要把话给说绝了。）

回答这个疑问的一种方法重复研究（实验）几百次，获得很多均值估计。然后取这些均值估计的均值，同时也得出它的标准方差（估计）。然后用前面提到的概率表，我们可估计出一个范围，包括90%或者95%的这些均值估计。如果每个样本是随机的，我们就可以安心地说真实的（总体）均值90%或者95%会落在这个范围内。我们给这些均值估计的标准差取一个新名字：均值的标准误差（the standard error of the mean），缩写是SEM,或者，如果不存在混淆，直接用 SE 代表。

但是首先得处理一个小纰漏：重复研究（实验）几百次。现今做一次研究已经很困难了，不要说几百次了（即使你能花费整个余生来做这些实验）。好在一向给力的统计学家们已经想出了基于单项研究（实验）确定 SE 的方法。让我们先从直观的角度来讲：是哪些因素影响了我们对估计精确性的判断？一个明显的因素是研究的规模。样本规模 N 越大，反常数据对结果的影响就越小，我们的估计就越接近总体的均值。所以， N 应该出现在计算 SE 公式的分母中：因为 N 越大， SE 越小。类似的，第二因素是：数据的波动越小，我们越相信均值估计能精确反映它们。所以， SD 应该出现在计算公式的分子上： SD 越大， SE 越大。因此我们得出以下公式：

(为什么不是 N ? 因为实际是我们是在用 N 除方差 SD 2 ，我们实际不想再用平方值，所以就又采用平方根了。)

所以， SD 实际上反映的是数据点的波动情况，而 SE 则是均值的波动情况。

前面一节，针对 SE ，我们提到了某个值范围。我们有95%或者99%的信心认为真实值就处在当中。我们称这个值范围为“置信区间”，缩写是CI。让我们看看它是如何计算的。看正态分布表，你会发现95%的区域处在-1.96 SD 和+1.96 SD 之间。回顾到前面的GRE和MCAT的例子，分数均值是500， SD是100，这样95%的分数处在304和696之间。如何得到这两个值呢？首先，我们把 S D乘上1.96，然后从均值中减去这部分，便得到下限304。如果加到均值上我们便得到上限696。CI也是这样计算的，不同的地方是我们用 SE 替代 SD 。所以计算95%的CI的公式是： 95%CI= 均值± ( 1.96 x SE )。

好了，现在我们有 SD , SE 和CI。问题也随之而来：什么时候用？选择哪个指标呢？很明显，当我们描述研究结果时， SD 是必须报告的。根据 SD 和样本大小，读者很快就能获知 SE 和任意的 CI 。如果我们再添加上SE和CI，是不是有重复之嫌？回答是：“YES”和“NO”兼有。

本质上，我们是想告之读者通常数据在不同样本上是存在波动的。某一次研究上获得的数据不会与另外一次重复研究的结果一模一样。我们想告之的是期望的差异到底有多大：可能波动存在，但是没有大到会修改结论，或者波动足够大，下次重复研究可能会得出相反的结论。

某种程度上来讲，这就是检验的显著程度，P level 越低，结果的偶然性就越低，下次能重复出类似结果的可能性越高。但是显著性检验，通常是黑白分明的：结果要么是显著的，要么不是。如果两个实验组的均值差别只是勉强通过了P <0.05的红线，也经常被当成一个很稳定的结果。如果我们在图表中加上CI，读者就很容易确定样本和样本间的数据波动会有多大，但是我们选择哪个CI呢？

我们会在图表上加上error bar（误差条，很难听），通常等同于1个 SE 。好处是不用选择SE或者CI了（它们指向的是一样的东西），也无过多的计算。不幸的这种方法传递了很少有用信息。一个error bar (-1 SE,+1 SE )等同于68%的CI；代表我们有68%的信心真的均值（或者2个实验组的均值的差别）会落在这个范围内。糟糕的是，我们习惯用95%，99% 而不是68%。所以让忘记加上 SE 吧，传递的信息量太少了，它的主要用途是计算CI。

那么把error bar加长吧，用2个 SE 如何？这好像有点意思，2是1.96的不错估计。有两方面的好处。首先这个方法能显示95%的CI，比68%更有意义。其次能让我们用眼睛检验差别的显著性（至少在2个实验组的情况下是如此）。如果下面bar的顶部和上面bar的底部没有重叠，两个实验组的差异必定是显著的（5%的显著水平）。因此我们会说，这2个组间存在显著差别。如果我们做t-test，结果会验证这个发现。这种方法对超过2个组的情况就不那么精确了。因为需要多次比较（比如，组1和组2，组2和组3，组1和组3），但是至少能给出差别的粗略指示。在表格中展示CI的时候，你应该给出确切的数值（乘以1.96而不是2）。

SD 反映的是数据点围绕均值的分布状况，是数据报告中必须有的指标。 SE 则反映了均值波动的情况，是研究重复多次后，期望得到的差异程度。 SE 自身不传递很多有用的信息，主要功能是计算95%和99%的CI。 CI是显著性检验的补充，反映的是真实的均值或者均值差别的范围。

一些期刊已把显著性检验抛弃了，CI取而代之。这可能走过头了。因为这两种方法各有优点，也均会被误用。比如，一项小样本研究可能发现控制组和实验组间的差别显著（0.05的显著水平）。如果在结果展示加上CI，读者会很容易看到CI十分宽，说明对差别的估计是很粗糙的。与之相反，大量鼓吹的被二手烟影响的人数，实际上不是一个均值估计。最好的估计是0，它有很宽的CI，报道的却只是CI的上限。

总之， SD 、显著性检验，95%或者99% 的CI，均应该加在报告中 ，有利于读者理解研究结果。它们均有信息量，能相互补充，而不是替代。相反，“ 裸”的 SE 的并不能告诉我们什么信息**，多占据了一些篇幅和空间而已。

https://blog.csdn.net/zzminer/article/details/8939244?utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromMachineLearnPai2%7Edefault-1.control&dist_request_id=1331302.267.16182420970660717&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromMachineLearnPai2%7Edefault-1.control

S=√（PxQ）／n，标准误（英文：Standard Error）衡量对应样本统计量抽样误差大小的尺度。标准误用来衡量抽样误差。

（一）率的抽样误差

在抽样研究中，抽样误差是不可避免的。由于随机抽样造成的样本率与总体率的差别称为率的抽样误差。描述率的抽样误差大小的指标为率的标准误。

（二）率的标准误的含义

若从阳性率为π的总体中随机抽取m个样本含量均为n的样本，可得到m个样本阳性率p1，p2，…，pm。当n较大，π既不接近0也不接近1时，样本率的分布近似服从正态分布N（π，σp2）。样本率的标准差σp反映各样本率对总体率π的离散程度，可用于描述率的抽样误差大小，称为率的标准误。率的标准误越小，说明其抽样误差越小；反之，抽样误差越大。

率的标准误的计算

率的标准误σp计算公式为：

式中：π为总体率；n为样本含量。

实际工作中总体率π往往是未知的，常用样本率p作为总体率π的估计值，相应可得到σp的估计值Sp，其计算公式为：

从上式可以看出，减小率的抽样误差的有效方法是适当增大样本含量。

标称误差=（最大的绝对误差）/量程 x 100%

绝对误差 = | 示值 - 标准值 | （即测量值与真实值之差的绝对值）

相对误差 = | 示值 - 标准值 |/真实值（即绝对误差所占真实值的百分比）

扩展资料

系统误差：就是由量具，工具，夹具等所引起的误差。

偶然误差：就是由操作者的操作所引起的（或外界因素所引起的）偶然发生的误差。测量值与真值之差异称为误差，物理实验离不开对物理量的测量，测量有直接的，也有间接的。由于仪器、实验条件、环境等因素的限制，测量不可能无限精确，物理量的测量值与客观存在的真实值之间总会存在着一定的差异，这种差异就是测量误差。误差与错误不同，错误是应该而且可以避免的，而误差是不可能绝对避免的。

误差，物理实验离不开对物理量的测量，测量有直接误差的，也有间接的。由于仪器、实验条件、环境等因素的限制，测量不可能无限精确，物理量的测量值与客观存在的真实值之间总会存在着一定的差异，这种差异就是测量误差。

设被测量的真值（真正的大小）为a，测得值为x，误差为ε，则：x－a=ε

误差分类

在数值计算中，为解决求方程近似值的问题，通常对实际问题中遇到的误差进行下列几类的区分：

模型误差

在建立数学模型过程中，要将复杂的现象抽象归结为数学模型，往往要忽略一些次要因素的影响，对问题作一些简化。因此数学模型和实际问题有一定的误差，这种误差称为模型误差。

测量误差

在建模和具体运算过程中所用的数据往往是通过观察和测量得到的，由于精度的限制，这些数据一般是近似的，即有误差，这种误差称为测量误差。

截断误差

由于实际运算只能完成有限项或有限步运算，因此要将有些需用极限或无穷过程进行的运算有限化，对无穷过程进行截断，这样产生的误差成为截断误差。

舍入误差

在数值计算过程中，由于计算工具的限制，我们往往对一些数进行四舍五入，只保留前几位数作为该数的近似值，这种由舍入产生的误差成为舍入误差。

抽样误差

抽样误差：是指样本指标和总体指标之间数量上的差别，例如抽样平均数与总体平均数之差、抽样成数与总体成数之差（p-P）等。抽样调查中的误差有两个来源，分别为：

（1）登记性误差，即在调查过程中，由于主客观原因而引起的误差。

（2）代表性误差，即样本各单位的结构情况不足以代表总体特征而引起的误差。

参考资料百度百科误差

欢迎分享，转载请注明来源：夏雨云

原文地址:https://www.xiayuyun.com/zonghe/444589.html

27 - 标准差(Standard Deviation) 与标准误差(Standard Error)

发表评论

评论列表（0条）