一、调查的质量取决于调查的信度和效度。
信度主要指测量结果的一致性、稳定性。也就是说结论和数据是否反映了用户最真实稳定的想法。用户在回答问题的时候,往往会受到环境、时间、当时当地的情绪影响,而作出并不真实的想法,即会有随机误差。信度就是衡量这种随机误差对用户想法的影响大小。
效度是指多大程度上测量了你想要测量的东西。
对某个产品用研,我们现在用得最多是用户访谈、问卷调查和可用性测试。而在这几个过程中都会涉及信度和效度的问题。
二、用户访谈中的效度和信度
1. 访谈不能仅仅局限于用户
任何一个产品项目都会受到市场环境、公司战略、技术力量、平台规范和流行趋势等各个方面的影响。对某一产品的需求,可能来自用户、产品、技术、交互以及视觉。不同岗位人员看待产品的角度不一样,侧重点也不一样,找多个角色有助于把需求找全,不遗漏,所以必须提前了解他们的需求。这样才能使我们的研究更有针对性、全面性、有用性。有用程度、全面程度是效度的重要组成部分。
2. 巧妙的选择访谈用户
通常,前期深度访谈的用户数量不会太多,所以用户条件一定要把握适当。反馈的问题才能全面、合理、有用。
比如是做Android平台上的某一软件。
首先Android新手用户和熟练用户都是必须的,熟练用户更能反映android用户习惯性操作方式、平台特点、以及长期使用过程中积累的意见和建议;而新手用户可以更好的反映该平台哪些地方存在学习困难,从而通过我们的设计帮助用户去降低学习成本。
其次非Android平台用户也是必须的,可以从侧面了解他们不用Android的原因。从而帮助产品挖掘更多潜在用户提供方向。
人口学信息(学历、职业、性别、年龄)要覆盖全面。不同属性的用户看重地方会存在差异。需求也会不一样。
包含竞品用户。通过了解用户对竞品的评价,可以提炼出竞品的优劣势,从而为增强产品竞争力提供方向。
3. 一定要有专家
专家是重要的信息携带者。李乐山教授说专家有三类,用户专家、制造专家、市场销售专家,他指出判断某人是否是专家的标准是:(1)能够熟练使用一种产品;(2)能够比较同类产品;(3)有关的新知识容易整合到自己的知识结构中;(4)具有10年专业经验;(5)积累大量经验并且在使用经验方面具有绝招;(6)了解有关的历史(该产品设计史、技术发展史等);(7)关注产品发展趋势(8)知识链或者思维链比较长,提起任何一个有关话题,他们都能够谈出大量的有关信息;(9)能够提出改进或创新的建议,他们的创新或改进方案,其高水平体现在采用简单方法解决复杂问题。
对于互联网,专家应该指的是用户专家、开发专家、设计专家以及产品专家;他们凭借丰富的经验,系统全面的掌握行业同类产品、开发及设计模式、历史及发展趋势、专业水平极高。他们可以为我们提供很多我们始料未及的建议。这是保证用研过程,特别是对于后期问卷结构效度有很大的作用。
三、问卷调查与分析中的信度与效度
为了提高工作效率,问卷调查往往采用网络调查的方法,信度效度问题出现的可能性就更大。
最近看到一些满意度调查是采用量表加结构方程模型(SEM)的方式。我们看看哪些地方可能会出现信度和效度的问题。
1. 理论模型支持
由于SEM进行的是验证性因子分析,是检验而不是探索新的模型,因此,整个因果关系的假设必须有强有力的理论支持和严密的逻辑框架。包括模型中变量关系的假定、指标的选取、甚至测度项的表达方式等。如果最终输出的模型和理论模型结构不符,那么该模型是没有任何说服力的。比如用ACSI模型作为满意度的理论模型时,是否真的按照感知质量、感知价值、顾客期望这几个层面去设计问卷?
2. 保证份量
普通抽样调查中原则上是越多越好,但遇到目标用户较少的情况,只要保证一定的条件就ok的,样本量受到置信区间、抽样误差范围的影响,可根据实际的况测算出最小样本量。常用的公式是:
14N=Z2蟽2d2′<</span>(N为样本量、Z为置信区间、d为抽样误差范围、 14蟽’<为标准差,常取0.5)
但对于结构方程模型大样本是必须的,SEM中涉及的变量众多,变量间的关系很复杂交错,小样本量会导致模型不稳定,收敛失败进而影响模型中参数。朱远程等[1]在文献中指出,当样本低于100时,几乎所有的结构方程模型分析都是不稳定的,大于200以上的样本,才称得上一个中型样本。若要得到稳定的结构方程模型结构,低于200的样本数量是不鼓励的。有些学者将最低样本量与模型变量结合在一起,建议样本数至少应为变量的十倍,这一规则经常被引用。模型中变量越多,对大样本的要求就越高。
3. 变量需遵循原则
a. SEM模型中各变量的函数关系要是线性的,否则是不能用回归计算路径系数的。
b. 在使用最大似然估计法时,变量一定要是多元正态分布的,这就要求指标要呈正态分布,否则就要对指标进行正态处理才行。
c. 变量间的多重共线性程度要低,否则路径系数会有很大误差。
d. SEM建立的过程中会不断的修正才能得到比较完美的模型,比如因子分析时,若发现某一测度项对应的因子载荷过小,就会人为的将该测度项删除,但是若模型建立之后,一些变量对应了4~5个测度项,一些变量只剩下1~2个测度项,那么我们就需要思考只有两个测度项的变量是否被完全解释,这仅有的两个测度项就全面真实的反映该变量么?如果是这样,就算KMO、Bartlett、因子载荷都通过了,效度也是难以保证的。所以问卷前期需要反复的预调研,不断的对问题进行修正,而不是随意的人为删除。我学生时代对淘宝满意度进行调查时,就犯了类似的错误,模型中的“互动性”片段,互动性由四个变量衡量,其中“双向沟通性”一开始设计的时候由5个测度项支持,但是因子分析检验通不过,就直接将因子载荷比较小的客服、论坛、淘江湖三者去掉了,最后虽然在数据上通过了信度效度检验,但是只有阿里旺旺、留言板这两个测度项支持是绝对不能解释“双向沟通性”的。
4. 数据质量是根源
要使模型结构稳定有效,首先要保证数据质量,反复检验问卷的信度。
a. 不同时间的一致性。
在设计问卷时,可以将同样的问题对同一个人重复测试,如果这两道题得到的答案是不一致的,相关系数(Pearson r)小于0.7,那么这份问卷的稳定信度就值得考量。
假如问卷样本足够大,可以一分为二(每一个样本也要保证足够样本量),分别建立两个模型;通过对比两个模型中参数的差异,便可以检验该模型的稳定性和适用性。如果两者差异太大,就说明模型本身是有问题的。
b. 不同形式的一致性
用内容等效但表达方式不同的两份问卷调查,检测两者的等效信度,比如Gamma系数。
c. 内在一致性
问卷中相关的问题为同样的目标服务,他们在逻辑一致,也就是同质的。首先要测量每个测度项与总体的相关性(item-total correlation),然后再测量同一变量下相关问题间的同质性,而对于不同的提问方式选择对应的方法:比如,对于李克特量表方法,就用Chronbach系数检验;在基础研究中,信度至少应达到 0.80 才可接受,在探索性研究中,0.70 可接受,0.70-0.98 为高信度,小于0.35 为低信度。对于是非题则采用kuder-Richardson系数检验。在进行内在一致性检验时,要看题目选项是否反序,如果两道题都是问“对该产品是否满意”,一道7代表满意,1代表不满意;另一道1代表满意,7代表不满意,这样就会影响信度。遇到这种情况要提前人为调整过来。
5. 看得更远一点
问卷结论不仅要解决当前的问题和需求,还有具有一定的预测作用,市场是变化的,当前的目标用户不一定就是未来的(或者下一个版本的)目标用户,比如目标用户的收入可能有增加的趋势,某一平台的使用率在快速提高,当前的满意度模型可能在一个月之后就不适用了(比如新功能点的出现)。
假设我们要对QQ影音进行满意度调查,现在建立了一个满意度模型,但若下个月QQ影音中多了一个重要的功能,对整个满意度的提升产生了很大作用,那么,模型中各项的路径系数会不会产生变化?该模型在下个月可能就不适用了,造成的后果就是当前的满意度值与下个月的满意度值没有可比性了,很多工作也就白费了。所以,诸如满意度模型这样的研究,是需要反复调查,长期对该满意度模型进行监控和修正,以求得到最稳定的模型,就可以让模型会具有很预测和比对作用啦。
6.关注细节
a. 问卷设计中题项表述不能出现歧义、避免太专业词汇以及诱导词汇
b. 选项间要有明确的区分(互斥)
c. 避免遗漏,“其他”选项是必须的,而且最好配有输入框,记忆中,每次问卷调查中都能从“其他”选项中获取大量信息。
d. 一般题项不能太多,设置问题选项的时候,尽可能的让选项随机显示,特别是在选项较多的情况下。
e. 数据处理过程中删除重复项矛盾项之外,最好能统计到用户填写问卷的时间差。如果整个填写的时间极短,完全可以判定用户没有认真填写。
f. 极端的、离群的选项可以考虑将其删除。
四、可用性测试中的信度与效度
首先保证,主持人的态度亲切、测试前随意聊聊彼此熟悉、测试提纲清晰全面。另外,以下几点也对保证测试的信度和效度很重要。
1. 不要忽略异想天开
脑暴中要求彼此不能批评,在进行访谈或测试中,也不能对用户某些操作做出评论,否则用户很有可能隐藏内心真实的感受。关注并记录用户出错,但是用户出错时态度要中立。
通常,用户在体验的真实的原型后,会产生很多看似异想天开的诉求,有些虽然在当前不能实现,但是会为未来发展提供很多思路和方向。所以,我们要积极鼓励用户进行思维发散。
2. 前后验证、竞品比对
在测试完成后,可以加上一个总体调查问卷,一者让用户对自己体验的各个功能点有一个回顾和比较,同样也可以验证用户体验过程的态度和最终的态度是否具有一致性。如果存在不一致,应该进一步追问理由,确定用户的真实想法。
测试时,让用户体验竞品,并作出比较,也是发现有效信息的途径。
3. 敏锐观察
测试中,除了按照已定的提纲进行问答之外,过程中还要敏锐的观察用户一些细微的表情、停留、思考。不但要了解用户对个功能点如何评价的,还要知道用户做某一任务过程中,是怎么思考、计划、实施的,用户的第一反应、习惯性的操作、思维路线的作用远远大于单纯的评价。用户任务完成之后,要追问用户如此操作的原因。
4. 记录原话并习惯性确认
测试结论要有用户的原话支持,不能轻易的改变用户的表述。和用户交流过程中,要习惯性的问:“请问你的意思是……?”“我这样理解你的意思,你看对么……?”以保证测试结论的效度。
5. 必要时进行入户调查
首先,入户调查会大大减少外界环境的影响,用户在自己的空间中,会更真实的反映常见的问题。其次,入户调查一般是在用户画像提取出来之后,按照用户画像描述的属性,有意识有针对性去挑选具有某些典型属性的对象进行深入、全面、系统调查(典型调查),比如某一产品的目标用户,他们反映的问题,代表性强,往往有以一当十的功效,避免了非目标用户信息造成的干扰。
6. 用户条件与数量
参与测试用户根据目标用户特征选择。
一般衡量测试是否需要继续进行的方法是:看是否发现新的问题,如果有新的问题,就应该继续,反之,可以结束。
Neilson研究结果表明,5名用户的测试可以发现85%的可用性问题。而在我们在以往的可用性测试经验中,用户数一般定为6个,基本上能发现全部问题。当然任何数字都只是一个参考,用户数量最好根据具体的测试情况(衡量时间、资源、投入产出比)而定。总之,关键在于是否有新的问题出现。
⒈决定一份抽样计划(sampling design)
确认抽样结构(sampling frame)在抽样单位(sampling unit)中,选取受访者时所使用的方法。
⒉ 选择在抽样中将被使用的方法,便于从抽样结构中产生电话号码的群集。
⒊ 针对每份抽样样本电话号码制作一份访谈表格。
⒋ 发展一份草拟问卷调查表,将其表格化。
⒌ 发展一份草拟的简介/选项窗体及打退堂鼓时所用的声明窗体,以供电访员使用。
⒍ 雇用电访员与监督人员,制定与访谈有关的时程表。
⒎ 先进行指引性测试(pilot-testing),借此修正调查程序及方法。
⒏ 印制最后定稿的问卷调查表及其它各种表格。
⒐ 对访谈人员及监督人员进行训练。
⒑进行完全受到监督的访谈。
⒒对已完成的问卷调查表进行校订育编码的工作,并将所有资料转换成计算机可判读的格式。
⒓对资料进行分析,编制各种调查报告等。 电话调查-本条目在以下条目中被提及MORI市场研究公司 PPS抽样调查法 Q分类法 SEM模型 不重复抽样 专项调查 主观概率法 二手资料调研 二路焦点小组 产品留置测试 任意抽样 会议调查 典型调查法 分层抽样 分层最佳抽样 分层比例抽样 判断抽样 双重抽样 可行性研究 品牌知名度 因果性调研 国际营销调研 垃圾调研法 多维尺度法 多阶段抽样 定性研究方法 定量研究方法 实地调研 家庭日记法 市场实验调查法 市场容量测定法 市场调查 平衡量表法 投射研究 投影技法 抽样调查 抽签法 拐点调研 探索性调研 推销人员估计法 描述性调研 数值分配量表 整群抽样 文案调查法 文献调查法 无准备访问 星巴克公司 案例研究法 案头调研 概率抽样 深层访谈法 滚雪球抽样 焦点访谈法 独立控制配额抽样 留置调查 盲测 相互控制配额抽样 等比量表 等距抽样 等距量表 简单随机抽样 类别量表 经销商访谈 经验判断法 网上间接调查 网络调研 联合分析法 行踪分析 观察法 评价量表 询问法 辛迪加调研 逐户寻找法 邮寄调查 配对比较量表 配额抽样 重点调查 重置抽样 问卷调查法 随机号码表法 非概率抽样 面谈访问法 顺序量表 顾客满意度指数 顾客调查更多条目(85)...
1. 调查的样本量太小,计算出的结论可靠性不高。例如看到一些研究生的论文,只发了几十份问卷调查表,就根据统计到的百分比写下十分肯定的结论。其实,是有问题的。
例如:调查“你对××活动喜欢的程度”,调查了45人。调查结果:非常喜欢2人,喜欢5人,一般10人,不太喜欢13人,不喜欢15人。作者统计出:喜欢和非常喜欢的共7人占调查人数45人的15.5%,不太喜欢和不喜欢的共28人,占62.2%。并根据15.5%和62.2%来进一步写结论。
但是,他忽略了调查的样本计算出率以后,还应该计算率的标准误和置信区间。如本例喜欢率为15.5%。还应该计算率的标准误Sp。
__________________________
本例,喜欢率的标准误 Sp =√P(1-P)/n = √15.5(100-15.5)/45 = 5.39 %
按样本量n,查t值表上, n-1的t0.01和t0.05 的值,查得t0.05=2.02 , t0.01=2.69, 根据喜欢率15.5 %、标准误5.39 % 和t0.05的值,可计算出:
95% 置信区间:15.5±2.02×5.39=4.6%~26.4%。(置信区间上下限的差值高达21.8%)。
95% 置信区间的含义是,如果用样本的喜欢率15.5%来估计总体的喜欢率时,有95%的可能是在4.6%~26.4%的区间之间。这样高达21.8%的区间意味着15.5%是不太可信的。
但是,如果扩大样本量到450人,4500人,而统计出的喜欢率也是15.5%。由于调查的样本量扩大了,标准误 Sp会缩小,计算出的95% 置信区间也就缩小为12.2%~18.8%和14.4%~16.6%。这时用样本率估计总体率时,上下限的差值很接近15.5%,才是可信的。
2. 调查数据的统计分析过于简单。
目前看到的调查数据统计分析大都比较简单。只是计算各个问卷指标的百分比,如上面举例的喜欢率15.5%等等。
要避免统计分析过于简单,首先,在做调查表设计时,就事先要考虑好调查数据的统计分析方法。例如同样是调查“你对××活动喜欢的程度”,除了要扩大调查样本量外,在调查表中增加调查性别和年龄。这样就可以采用一种较为复杂的方法——交叉分析。交叉分析是分析“年龄”、 “性别”和“对××活动喜欢程度”三个变量之间的关系。假设不分类统计时,喜欢率是15.5%。交叉分析后就会发现由于性别的不同,年龄段的不同喜欢率是不同的。
例如:2005年国民体质监测问卷调查中,对“睡眠时间”的统计分析,如果只是简单地计算某市成年男子2473人的问卷,只能统计出:睡眠6小时以下的人为13.4%,睡眠6~9小时的73.6%,睡眠9小时以上的13%。但是,如果增加年龄因素,分年龄段进行统计就可以看到,各年龄段的百分比是不同的(统计表略)。利用分年龄段的百分比还可以画出折线图(图略)。从图上更可以清楚的显示出:随着年龄增加,睡眠时间逐渐减少的趋势。
上述统计分析方法比较简单。但是,仅靠简单的统计方法来处理问卷调查数据是十分可惜的,因为大量的数据信息还没有充分利用。所以,设计问卷时,就应该注意到,让收集到的调查数据能做多因素统计分析(如:回归分析,因子分析等)。下面是我帮助或指导有关单位做过的统计分析实例:
例1:2005年国民体质监测的调查问卷内容中,包括了各人的文化程度,职业,工作、生活和体育锻炼等方面的许多问题。为了分析这些调查内容和各人的体质有什么关系,找出哪些因素对体质的好坏特别有关?在进行统计分析时,就需要把体质监测的指标和问卷调查的内容联系起来进行统计。
在成年组调查问卷内容中可进行计算的12个问题是:受教育程度,职业,平均每周工作时间,平均每天睡眠时间,睡眠质量,平均每天步行时间,平均每天坐姿活动时间,吸烟状况,运动感受,平均每周锻炼次数,平均每次锻炼时间,坚持锻炼时间。把这些作为X1, X2, ……X12,再把每个人体质监测中的体质总分作为Y,就可以进行逐步回归分析计算。
某省成年男甲组4242人的数据用逐步回归分析计算结果是:从12个指标中依次选出了X 1 (受教育程度),X12 (坚持锻炼时间), X10(平均每周锻炼次数),X7(平均每天坐姿活动时间) 4个指标。得到回归方程:
Y = 21.85+ 1.02 X 1 -0.20 X7+ 0.34 X10 + 0.28 X12F=101.92 (P<0.01)
复相关系数 R= 0.296
根据回归方程的系数就可以知道:受教育程度高,平均每周锻炼次数多,坚持锻炼时间长,平均每天坐姿活动时间少的人体质总分就高。反之就低。而这个结论只做一般的调查表百分比统计,是得不到的。
例2:某市开展《超重与肥胖人群运动与营养综合干预实验研究》12周后,对参加者进行了问卷调查,内容有:每天进餐情况(分为:五分饱,八分饱,十分饱),每周快走次数(分为:3次以下,3次,4次,5次及以上),每次快走时间(分为:30分钟以内,30~60分钟,60~90分钟,90分钟以上),每次快走距离(分为:3公里以下,3~4公里,5公里及以上)等。
如果仅统计各个问卷内容的百分比,只能计算出如:每次快走时间30分钟以内的29人占22.1%,30~60分钟的47人占35.9%,60~90分钟的19人占14.5%,90分钟以上的36人占27.5% 等等,这样的统计结果并不能说明什么问题。更无法分析出哪些是对减肥有效果的因素。
但是,把问卷调查的内容与参加12周实验后各人体重下降值联系起来统计,情况就不同了。如可以分别计算出:每周快走次数、每次快走时间等指标与体重下降值的相关系数。当计算出以上指标都和体重下降值呈中度或低度相关时,还可以进一步用回归分析的方法计算出标准回归系数或偏回归平方和来分析各指标对体重下降的作用大小。
本例有131人参加实验,为了用数学表达式来描述:饮食、运动量和降体重的关系。把调查表内容转换成数字后,选择了X1(每天进餐情况)、X2(每周快走次数)、X3(每次快走距离)与Y(体重下降值)计算出三元回归方程:
Y= 1.26-1.30 X1 +0.59 X2 +1.70 X3 F =13.855 (P<0.01)
复相关系数 R = 0.4966
从回归方程可以看到,在吃八分饱的情况下,增加每周快走次数和每次快走距离,降体重的效果更好。
可见,当采用了多元回归分析方法后,可以充分利用调查表里的信息从而获得比简单的统计百分比更多的研究结果。
例3:某市对学生体质下降原因进行调研时,设计的调查表内容包括:学生、家长、学校等方面30多项指标。为了分析调查的各指标对学生身体素质影响的主次关系,从调查表中选出可进行因子分析计算的26个指标进行了R型因子分析计算。
R型因子分析通过计算,可找出控制着所有指标的几个主要因素。计算后,原来的许多指标重新组合成较少的几个新的综合指标──公因子。这些公因子相互独立而且反映了原来指标的绝大部分信息。通过R型因子分析的结果,可以看出哪些指标是同一类的,每一个指标以哪一公因子为主,其他公因子所占比例如何,从而分析该指标的特点。还可根据贡献率较大的几个公因子中所包括的指标,来分析出各指标的主次关系。
对3699名中学生的调查数据作R型因子分析计算后,从贡献率最大的5个公因子所包括的调查指标看,归入第1公因子的7个指标,都和参加体育活动有关,因此把第一公因子命名为体育活动因子,归入第2公因子的2个指标,是反映学生家长文化水平的学历,归入第3公因子的2个指标,是反映学生是否关心自己体质、健康的指标,归入第4公因子的2个指标,是反映学校是否关心和组织学生体育活动的指标,归入第5公因子的2个指标,是反映学生家长对体育运动的态度的指标。
从而可以分析出,对学生体质影响最大的第一因素是学生参加体育活动的情况,第二因素是家长的文化水平高低,第三因素是学生自己是否关心自己的体质、健康情况。第四因素是学校是否关心和组织学生参加体育活动,第五因素是家长是否喜爱体育活动是否支持学生参加体育活动。
因子分析的优点在于用一个或少数几个综合指标概括原始数据中尽量多的信息,它能够实现对问题的高度概括,并揭示出一般的特征和规律。本例通过因子分析的统计方法,从学生填在26个调查问卷中的信息,分析出了对学生体质影响的几个主要因素。
欢迎分享,转载请注明来源:夏雨云
评论列表(0条)