SD是标准偏差,反映的是样本变量值的离散程度。SEM是标准误差,反映的是样本均数之间的变异。
SD为样本标准差 ,根据标准差SD能反映变量值的离散程度 。正负值就是在计算好的SD上加个正负号, 表示在这个范围内波动;在平均值上加上或者减去这个数字,都认为在正常范围内 。
标准差的统计学常用符号为s,医学期刊常用SD表示。标准差是一个极为重要的离散度指标,常用于表示变量分布的离散程度 。对于一组变量,只用平均数来描写其集中趋势是不全面的,还需要用标准差来描写其离散趋势。标准差用公式表示为:s= ∑(x-ˉx) 2 n-1由上式可见,标准差的基本内容是离均差,即(x-ˉx)。它说明一组变量值(x)与其算术均数(ˉx)的距离,故能描述变异大小。s小表示个体间变异小,即变量值分布较集中、整齐s大表示个体间变异大,即各变量值分布较分散。
SEM是样品标准差,即样本均数的标准差,是描述均数抽样分布的离散程度及衡量均数抽样误差大小的尺度,反映的是样本均数之间的变异。标准误用来衡量抽样误差。标准误越小,表明样本统计量与总体参数的值越接近,样本对总体越有代表性,用样本统计量推断总体参数的可靠度越大。因此,标准误是统计推断可靠性的指标。
拓展资料
生物统计学是生物数学中最早形成的一大分支,它是在用统计学的原理和方法研究生物学的客观现象及问题的过程中形成的,生物学中的问题又促使生物统计学中大部分基本方法进一步发展。生物统计学是应用统计学的分支,它将统计方法应用到医学及生物学领域,在此,数理统计学和应用统计学有些重叠。
参考资料百度百科—生物统计学
一、含义不同
mean表示都是平均数。
SEM是standard error of mean是平均数的抽样误差,反应平均数的抽样准确性。
SD全称standard deviation标准差,又常称均方差,是离均差平方的算术平均数的平方根,用σ表示。
二、用法不同
SEM计估计值的准确性无法度量,但可以用统计方法来测量。
测试的误差来源包括系统误差和采样误差,这些误差很容易克服,采样误差是由许多无法控制的内部和外部因素引起的,这些因素都是偶然的,即使在测试中非常小心也很难消除,但可以通过增加重复次数来减少。
小样本(n≤30)取平均值±标准差,大样本(n>30)取平均值±标准差。
三、类型不同
标准差是方差的算术平方根。标准差可以反映数据集的离散程度。如果平均值相同,则标准差可能不相同。
标准误差是用样品的标准偏差除以样品容量的平方根来计算的,标准误差受样本量影响较大,样本量越大,标准误差越小,抽样误差越小,说明样本能够更好地代表种群。
适用于数据不服从正态分布的情况
t 检验成员都有非参数检验的「对应版本」:
单样本 t 检验和成对样本的 t 检验对应于威尔科克森符号秩检验,以下简称 符号秩检验
独立样本的 t 检验对应于曼-惠特尼 U 检验(也叫做曼-惠特尼秩和检验),下面简称 秩和检验
秩和检验是非参数检验中,用来比较两个独立样本数据的检验方法。秩和检验用 U 统计量来检验原假设。
秩和检验并没有用到一个数据的绝对数值,而只用到了数据的相对大小——秩。
结论不会受个别极端数据值干扰
秩和检验并不要求数据正态
秩和检验还适用于代表等级的定序变量
如果数据确实来自正态分布的总体,如果用了秩和检验而不是 t 检验,会降低统计功效。即实际上有显著差异的两组数据更容易被误判为没有差异。
直接检验两组数据的均值是否相等,因此结果有着直观的解释,而秩和检验是检验一组数据大于另外一组数据的概率是不是大于 0.5,这并不直观。
t 检验是为了对一组或者两组个体的某个连续变量的平均值进行统计推断。
非参数检验则是中位数。
极端地说,不管与原假设的差别有多小,只要样本量足够大,p 值总会达到显著的水平。
一个很低的 p 值,可以源于很大的效应,也可以来自很小的效应但很大的样本量,还可能是效应大、样本量也大。
我们可以把平均值与标准值之差除以样本的标准差。这样一来,效应大小就是一个综合了平均值的差异及其不确定性的数量了,称为 Cohen 氏 d 值:
Cohen 氏 d 值使我们能够把来自完全不同的数据的若干 t 检验的效应大小放在同一个尺度上比较
Cohen 氏 d 值的发明人 Jacob Cohen 曾经提出过一条经验准则,把 d 值为 0.2,0.5 和 0.8 的效应分别称为小、中、大效应
由于成对样本和独立样本 t 检验都涉及两个样本,因此这个标准差是结合了两个样本的「合并标准差」(pooled standard deviation)
效应大小、显著性水平(α,通常为 0.05)、统计功效(1-β,通常为 0.8)和样本量(n)只要知道其中三个,就能求出第四个
使用G*Power软件
不会受到测量单位和尺度的影响
用一个范围或区间来表示效应大小及其不确定性。用统计学的术语来说,这叫做 区间估计 (interval estimation)。
而这个范围或区间本身,被称为 置信区间 (confidence interval)。
如果我们重复从同一个总体中获得样本,用同样的方法构建出许多用于估计效应大小的区间,这些区间中包含真实值的比例便是区间估计的 置信度 (confidence level)。
一般选用 95% 的置信度,从而与 p=0.05 的显著性水平相对应。
一个 95% 置信区间并不意味着真实值落在这一个区间内的概率为 95%,而是说如果重复许多次实验,每个实验按这样的方法构造出一个 95% 置信区间,在这所有的置信区间中,将有 95% 的区间包含了真实值。
如果总体标准差已知,那么样本均值的分布仍然是个正态分布,但是它的标准差将会是总体标准差根据样本量(在刚才的例子里是 10)按一定比例缩小所确定的值;如果总体标准差未知,那么样本均值的分布就变成了一个 t 分布,它的具体参数由样本均值、样本量、样本标准差三者共同确定。
八股文:
用单样本 t 检验对比了格格巫包子的重量与标准包子重量(50g)的区别,发现格格巫包子的重量(平均值=45g,标准差=3g,95% 置信区间 [ 43.8g,46.2g ] )与标准值 50g 有显著区别( t (25)=4.2, p <0.001 )。
信息量的角度,散点图>箱线图>柱状图
标准差 ( standard deviation, 缩写为 sd 或者 std )
标准误差 (standard error of the mean,缩写 se 或者 sem )
后者是前者除以 √n,这里 n 是样本量
两组数据各自进行某个检验,其显著性的差别并不代表这两组数据的差别具有显著性
只要数据的结构是有「嵌套」( nested )关系的,都会具有相互不独立的特征。
比方说,我们希望分析江苏省居民的可支配收入,同时我们还记录了所有江苏省居民住在哪个小区、哪个城市, 这样就形成了一个具有嵌套关系的样本,因为每个小区都包含了若干个居民数据点(居民被「嵌套」在小区里),而每个城市又包含了若干小区(小区被「嵌套」在城市里)
解决方案
第一,我们可以选定嵌套关系中的某一层,以该层为单位将不同的数据点取平均,这样一来,这一层的每个单元就只有一个数据点,在有些条件下它们之间可以认为是相互独立的。
在上面这个例子里,格格巫可以先把每只小鼠的 3 个血压降低值取平均,然后再对两组(每组 10 个数据点)数据做 t 检验。这样做的优点是让我们回到基本的 t 检验等方法,容易掌握和解读,但缺点则是损失了原始数据中的一部分信息(每只小鼠重复测量的波动性的差别),因而会在一定程度上降低统计效能。
而更好、也更复杂的解决方法,是使用多层模型( multilevel models,又称分层模型 hierarchical models )
欢迎分享,转载请注明来源:夏雨云
评论列表(0条)