问卷调查中应怎样设置问题从而判断问卷是否有效? 第1页

xiong-xi-ling 网友的相关建议:

这个问题下查的森的回答^[1]已经将当前可用的办法总结得很清楚了，其中JESP那篇文章^[2]综述的检测被试不认真的十余种办法，我根据个人实际发问卷的体会做了简单的推荐指数，曾经在组会内部分享过，这里贴过来。

一句话概括：筛出不认真被试的办法建议是多种结合，使用顺序上可以自由搭配，作者推荐的一种是：先剔除Response time过短的被试、未通过陷阱题的被试，之后再分别利用Long-string analysis、Odd–even consistency等统计办法中的一种进行剔除。

P.S：作者特别指出，剔除不认真被试的使用方法和顺序必须是在剔除之前就计划好的，不要让剔除被试成了玩弄P值的手段

1.Response time，推荐指数 *

基本假设：答题速度太快的被试是不认真的

操作方案：针对答题时间做单尾检测，即只剔除答题时间过短的被试（比如答题时间小于1.5个标准差，但这样做之前需要先确认答题时间分布是否正态）；Huang et al. (2012)推荐按照2s/item来估算所需答题时间。但不同问卷每个item答题时间差异可能很大，还得根据具体问卷情况来判断。

优点：指标客观，记录方便。网上问卷一般都自带。

缺点：剔除被试的时间节点非常不好把握，作者实验表明有些答题速度确实很快的被试会被误删，也就是一类错误率高；但如果时间节点用太短的去卡，又容易犯二类错误。这个trade off涉及到不同问卷差异太大，作者也没能给出一个较好的参考标准。关于作者的实验结果可见原文图1.

2. Long-string analysis，推荐指数 *

基本假设：有很多个连续的items选了同一个选项的被试是不认真的

操作方案：比如有一个10道题的五点量表，被试回答如下【3; 3; 4; 4; 4; 3; 5; 3; 3; 4】，那么这里被试选择的最长连续items是【4，4，4】这一段，记录为3。作者推荐如果这个数值大于等于量表总长度的一半（比如这里是5），即可判断为不认真被试。但这个标准作者也认为是太严格了，因此只能剔除很少一部分不认真的被试。更好的标准有待今后进一步的常模探索。

优点：假设简单直接。

缺点：一方面跟Response time一样，标准设置并不好界定；另一方面这个剔除办法没有RT那么直接，我们习惯的SPSS等现成工具似乎无法计算每个被试选了多少个连续的item。可能需要一定的代码编写。

3. Mahalanobis distance，推荐指数：*

基本假设：Outlier是不认真的被试，但这里的Outlier并非单纯的答题结果高于或低于一定标准差，而是有一个多维度的Mahalanobis distance指标。

操作方案：我们比较熟悉的剔除outlier办法是单维的，即通过一个item或者一个均值的分布来计算出偏离较大的outlier。这里的Mahalanobis distance则是多维的，即综合计算多条items偏离平均水平的程度来跳出outlier。具体公式邮件无法放上，可见原文。

优点：计算方案较为周全，除了应用于剔除不认真被试，也可以用于剔除其他情形的Outlier。

缺点：计算较为复杂，且剔除标准存在争议，作者也并未给出一个明确的Outlier标准。

4. Odd–even consistency and Resampled Individual Reliability (RIR),推荐指数：*

基本假设：每个人填的答案中，同一个量表中的items随机拆成两部分算相关系数，应该是显著正相关的，相关系数过低的被试可认为是不认真的

操作方案：将每个子量表中的items按照奇偶拆开（也可以在子量表中再继续随机拆出多个子量表，以增加算相关系数的case），先计算出每个子量表奇、偶items的平均数结果，然后将每个人各个子量表的奇偶结果做相关；作者提出这种按照奇偶的伪随机不够好。

升级版的办法是RIR：每个子量表中随机拆成两组进行配对算相关即可，并且这样随机拆还可以进行有放回的重复抽样：比如一个20道题的量表，我们如果以每5题按奇偶配对，那么最多配成2对做相关，但如果是有放回的抽样，那就可以有足够多的配对做相关。

优点：计算方案周全且不算复杂。

缺点：跟量表本身的结构效度息息相关，受量表本身影响大，且没有相关低到多少可以算不认真的标准（个人认为可以用p值显著来判断），这个方法较新，尚未得到足够多的使用验证，仍在探索阶段，建议谨慎使用（with due caution）

特别注意：计算Odd–even consistency之前记得将需要反向计分的选项recoding.

5.Individual consistency: semantic and psychometric antonyms/synonyms，推荐指数：**

基本假设：语义或心理测量意义相近的items，结果应该是正相关的；相反的items，结果应该是负相关的。否则是不认真的被试。

操作方案：量表里设置一些测量意义或者语义相近或者完全相反的items，比如“我现在很快乐”和“我现在很悲伤”；注意将items混杂在量表中不要让被试产生警惕，比如要将(x1, x2), (y1, y2), (z1, z2)三对items掺入量表，可这样：【Item 1; Item 2; y1; Item 4; y2; x1; z1; z2; Item 9; x2】

优点：操作简单，计算容易，标准客观。

缺点：需要提前在量表里设置好，且需要掺入较多的题目，可能会对原量表测量产生影响。

特别注意：作者建议的保守做法是只剔除与假设相关方向相反的被试，低相关被试建议保留以减少一类错误

6.Individual consistency: inter-item standard deviation，推荐指数：*

基本假设：每个被试填的回答结果离散趋势不应该过大，如果分布的标准差太大，可被视为不认真被试。

操作方案：计算出每个被试回答结果的标准差A，然后将所有被试的A计算出z分数，剔除那些z分数过高或过低的被试。

优点：操作简单

缺点：没有统一剔除标准，建议谨慎使用。

7.Polytomous Guttman Errors，推荐指数：**

基本假设：起源于测试里如果有几道难的题，几道容易的题，那么做对难题的数目比简单题还多的，是不认真被试。这里做对的难题数减去做对的简单题数的结果称为Polytomous Guttman Errors。

操作方案：这里的“难题”“简单题”延伸为每道item都已经通过其他途径得到有一个常模，比如“我是个好人”大多数会倾向选agree（4），“我是个坏人”大多数会倾向选disagree(2)[随便举的一个例，误当真]。那么相应常模分数配对的一些题目相减，然后再求和的结果就会趋近于0。最终剔除被试的标准是：其结果大于现有研究里半数可能的Polytomous Guttman Errors，则可以剔除相应被试。

优点：算法简单，可操作性强。

缺点：需要提前有一个可信服的常模，比较难获取。

8.Individual consistency: person total correlation，推荐指数：**

基本假设：每个人答题的pattern与其他人是类似的。

操作方案：假设我们问卷有50个items，那么将所有人答题结果汇总，得到每个item的平均分[item1,item2,...item50]，相当于变量A；这时候，将被试B的50个items也作为一个变量B的50个cases。则可以算出变量A和变量B的相关系数，负相关的被试可以剔除。

优点：可操作性强。

缺点：基本假设“每个人答题的pattern与其他人是类似的”需要有明确的理论支撑。

9.Bogus/infrequency/attention check items/IMCs，推荐指数：****

基本假设：陷阱题没答对的被试是不认真的。

操作方案：在问卷里藏入“这道题请选3”，或者在前面的instruction设置与通常直接点下一步不一样的模式，需要被试仔细阅读Instruction才能察觉的说明。

优点：操作性强，效果得到反复验证成功。

缺点：对于“职业被试”，他们会已经有所防备，较难检测出，尤其是mturks的被试。

10.Self-report data，推荐指数：***

基本假设：有些被试尽管不认真，但在“诚实”这一点上还是会尽量遵守的。

操作方案：问卷最后放一个Meade and Craig (2012)开发的量表，大意是问被试你有没有认真做问卷。

优点：应用方便。

缺点：只能检测诚实的被试。

参考

^问卷调查中应怎样设置问题从而判断问卷是否有效? https://www.zhihu.com/question/28876133/answer/978220789
^ Curran, P. G. (2016). Methods for the detection of carelessly invalid responses in survey data. Journal of Experimental Social Psychology, 66, 4–19.

问卷调查中应怎样设置问题从而判断问卷是否有效? 的其他答案点击这里

问卷调查中应怎样设置问题从而判断问卷是否有效? 第1页

参考

相关话题

前一个讨论

下一个讨论

相关的话题