为什么说测量误差的处理本质上就是一个随机数值的处理方法问题？_服务器知识

面对测量误差，我们该怎么办？

在上一期，我简要介绍了测量误差的概念及其对统计分析的危害；在这一期，我将着重谈一谈针对测量误差的应对办法。

不过在进入正文之前，我首先需要强调的一点是，就目前已掌握的知识来看，测量误差只能通过更好的研究设计和更严格的调查执行来降低，而到了数据分析阶段，我们并没有太多好的办法。看到这里，可能很多只用二手数据的小伙伴要感到失望了，毕竟不是所有人都有能力和精力去搜集一手数据，那么面对有测量误差的二手数据，我们该怎么办呢？

1、挑选合适的变量

我们常说，一个数据质量不好，其实这是一个非常笼统的说法。更准确的说法是，一个数据中有些变量质量不好，但有些变量还基本能用。众所周知，目前市面上能够见到的统计数据都是由很多变量组成的，我们所谓的测量误差也是针对具体的变量而言，而非针对整个数据。所以，对数据分析者来说，一个很基本的能力就是从很多变量中挑出那些测量误差比较小、可以进行统计分析的变量。但问题是怎么挑呢？

我个人认为，在挑选变量时需要遵循两个原则。

第一，客观的比主观的好，具体的比抽象的好，单一维度的比多维度的好。因为相比单一维度的、具体的客观概念，那些包含多个维度的、比较抽象的主观概念更难测量，所以对这些概念进行统计分析更可能受测量误差影响。从这个角度来说，性别、年龄、民族、婚姻状况等基本的人口学变量是相对安全的变量，在分析时应该多用；而满意度、幸福感、社会融合等变量很难测准，在分析时就应该少用。但少用并不意味着不能用，毕竟很多重要的社会学问题，如满意、幸福、公平等都是抽象的理论概念，那么对这类变量该怎么办呢？这就涉及到挑选变量的第二个原则。

第二，如果研究必须使用抽象程度比较高的变量，那么最好将之作为因变量，而不要作为自变量。在上一期我们讲过，当因变量有测量误差时，最主要的危害是降低模型和统计检验的效率，但对回归系数的估计没有太大影响。而统计检验效率的降低可以通过增大样本容量来弥补，目前我们分析使用的数据样本量通常都比较大，所以综合来看，使用有测量误差的因变量不会导致毁灭性的结果。但是，当自变量有测量误差时，情况就不一样了，它会显著低估模型的回归系数，这对任何一个回归分析来说都是不能接受的。总而言之，当我们要研究满意、幸福、公平、信任等抽象问题时，比较合适的研究路径是将这些变量作为因变量，分析它们的影响因素；而不要将它们当作自变量，研究它们的社会后果。

2、改进现有的测量

如果一项研究不能巧妙地避开有测量误差的变量，那么就只能面对它。通常来说，变量的测量误差是很难纠正的，除非在研究设计时就考虑到了测量误差问题。

举例来说，自评健康是健康研究领域常用的一个变量。测量自评健康的常规方法是使用5分Likert量表（非常健康、比较健康、一般、不太健康、非常不健康）让受访者对自己的健康状况打分。这种问法操作简单，但问题在于不同受访者对健康的评价标准往往是不一样的，有些人明明健康状况很糟糕，但依然会认为自己身体很好；而有些人即使身体很好也认为自己的健康状况不行。纠正这个问题的一个办法是锚定法（anchor vignette），即在询问自评健康的同时给受访者一些情境，让受访者评价出现在这些情境中的个体的健康状况，然后根据这些情境题确定受访者的健康评判标准（锚点），再以这个标准去纠正原有的自评健康测量。目前通过锚定法来纠正自评健康测量问题的研究设计已经得到了非常广泛的应用，比如在“中国健康养老追踪调查（CHARLS）”中就采取了这种设计。此外，一些调查在询问满意度、幸福感、自评阶层地位时也采用了这种设计。《社会》杂志今年最新的一期（2017年第6期）就刊登了一篇使用锚定法测量中国民众主观社会地位的论文，感兴趣的读者可以去查阅这篇文章。

如果研究设计使用多个指标去测量一个变量，那么就可以使用结构方程模型（SEM）改善对该变量的测量。结构方程模型包括测量模型和结构模型两部分，其中结构模型与一般意义上的回归没有本质区别，唯一的不同点是参与回归的变量既可以是观测变量，也可以是潜变量（latent variable），而潜变量是通过测量模型得到。通俗来讲，潜变量就是我们想要测量的目标变量，但是因为测量误差，我们只能得到它的多个观测指标。单独来看，每个观测指标都是有缺陷的，但综合多个指标我们就能提取出它们共有的部分（即潜变量），然后以之为基础就可以分离出测量误差。目前，结构方程模型在心理学领域已经得到了非常广泛的应用，心理学在测量诸如幸福、满意、焦虑、抑郁等概念时通常会采用一个包含数个题目的量表，基于这个量表就可以藉由结构方程模型生成对应的潜变量，然后去探讨各潜变量之间的因果关系。相比之下，社会学在研究类似问题时大多还是使用单一测量指标，这样就不能有效分离出测量误差，这不得不说是一个遗憾。

3、大数据

通过前文的介绍，我们知道，如果能在调查时进行更加精巧的研究设计，就可以通过锚定法或结构方程模型缓解变量的测量误差问题。但直到目前为止，我们依然是在传统数据搜集的话语下讨论测量误差问题，实际上，随着信息技术特别是互联网技术的迅猛发展，社会科学采集数据的渠道已经发生了非常明显的变化。既然如此，数据采集技术的革新能否缓解传统的测量误差问题呢？更进一步，大数据有助于降低测量误差吗？

区分效度（discriminant validity）：在一项测验中，如果可以在统计上证明那些理应与预设的建构（construct）不存在相关性的指标确实同此建构没有相关，那么这项测验便具有区分效度。例如，如果一项测验的理论假设创意性（creativity）和智力（intelligence）有很大区别，而相关测验中的创意性得分和智力没有显著相关关系，那么就可以认为这项测验具有良好的区分效度。

中文名

区分效度

外文名

discriminant validity

相对概念

聚合效度

定义检验方法TA说

定义

区分效度（discriminant validity）是构思效度的又一个证据，指的是在应用不同方法测量不同构念时，所观测到的数值之间应该能够加以区分。[1]

检验方法

构思效度要求一个有效的测验不仅应与其他测量同一构思的测验有相关，而且还必须与测量不同构思的测验无相关，前者即是聚合效度（convergent validity），后者则是区分效度。两种效度的检验都要用到相关分析的方法，需要检验构思效度的目标测验与其他测验的相关就是区分效度系数，相关系数越大，聚合效度越大，区分效度越小。

在检验聚合效度和区分效度时，最常用的统计方法是多特质-多方法模型（multi-traits multi-methods，MTMM）。MTMM方法得到的证据具有较强的说服力，但它的设计较为复杂，操作较为困难。而运用SEM方法则比较直接，对样本要求相对较低，尤其适用于在没有开发新量表时，检验研究模型中各个变量测量间的区分效度。[1]

分享你的世界

我要分享见解，

点击发布

纠错

参考资料

[1] 戴海琦．心理测量学（第2版）．高等教育出版社．2015年10月

甲状腺有结节的人，餐前养成这个习惯妙处多！

娜初广告

hvp阳性怎么办?怎么感染了hpv病毒-试试这个办法！

坎钠生物广告

金属分析仪奥林巴斯授权一级代理——上海泽权仪器

关注金属分析仪的人也在看

美国原装进口奥林巴斯金属分析仪，快速合金的牌号分辨，精准金属元素分析，制造QA/QC，PMI1-2秒牌号匹配，精确度高，创新技术，坚固耐用，改进创新，高效多产。泽权仪器全国总代理

上海泽权仪器设备有..广告

大家还在搜

高中化学网课

抑郁自评量表

数据分析的常用方法

心理测试题

spss数据分析教程

手持式分析仪

学ppt在哪里学

3级能效

为什么说测量误差的处理本质上就是一个随机数值的处理方法问题？

发表评论

评论列表（0条）