百科问答小站 logo
百科问答小站 font logo



问卷调查中应怎样设置问题从而判断问卷是否有效? 第1页

  

user avatar   xiong-xi-ling 网友的相关建议: 
      

这个问题下查的森的回答[1]已经将当前可用的办法总结得很清楚了,其中JESP那篇文章[2]综述的检测被试不认真的十余种办法,我根据个人实际发问卷的体会做了简单的推荐指数,曾经在组会内部分享过,这里贴过来。

一句话概括:筛出不认真被试的办法建议是多种结合,使用顺序上可以自由搭配,作者推荐的一种是:先剔除Response time过短的被试、未通过陷阱题的被试,之后再分别利用Long-string analysis、Odd–even consistency等统计办法中的一种进行剔除。

P.S:作者特别指出,剔除不认真被试的使用方法和顺序必须是在剔除之前就计划好的,不要让剔除被试成了玩弄P值的手段


1.Response time,推荐指数 *

基本假设:答题速度太快的被试是不认真的

操作方案:针对答题时间做单尾检测,即只剔除答题时间过短的被试(比如答题时间小于1.5个标准差,但这样做之前需要先确认答题时间分布是否正态);Huang et al. (2012)推荐按照2s/item来估算所需答题时间。但不同问卷每个item答题时间差异可能很大,还得根据具体问卷情况来判断。

优点:指标客观,记录方便。网上问卷一般都自带。

缺点:剔除被试的时间节点非常不好把握,作者实验表明有些答题速度确实很快的被试会被误删,也就是一类错误率高;但如果时间节点用太短的去卡,又容易犯二类错误。这个trade off涉及到不同问卷差异太大,作者也没能给出一个较好的参考标准。关于作者的实验结果可见原文图1.


2. Long-string analysis,推荐指数 *

基本假设:有很多个连续的items选了同一个选项的被试是不认真的

操作方案:比如有一个10道题的五点量表,被试回答如下【3; 3; 4; 4; 4; 3; 5; 3; 3; 4】,那么这里被试选择的最长连续items是【4,4,4】这一段,记录为3。作者推荐如果这个数值大于等于量表总长度的一半(比如这里是5),即可判断为不认真被试。但这个标准作者也认为是太严格了,因此只能剔除很少一部分不认真的被试。更好的标准有待今后进一步的常模探索。

优点:假设简单直接。

缺点:一方面跟Response time一样,标准设置并不好界定;另一方面这个剔除办法没有RT那么直接,我们习惯的SPSS等现成工具似乎无法计算每个被试选了多少个连续的item。可能需要一定的代码编写。


3. Mahalanobis distance,推荐指数:*

基本假设:Outlier是不认真的被试,但这里的Outlier并非单纯的答题结果高于或低于一定标准差,而是有一个多维度的Mahalanobis distance指标。

操作方案:我们比较熟悉的剔除outlier办法是单维的,即通过一个item或者一个均值的分布来计算出偏离较大的outlier。这里的Mahalanobis distance则是多维的,即综合计算多条items偏离平均水平的程度来跳出outlier。具体公式邮件无法放上,可见原文。

优点:计算方案较为周全,除了应用于剔除不认真被试,也可以用于剔除其他情形的Outlier。

缺点:计算较为复杂,且剔除标准存在争议,作者也并未给出一个明确的Outlier标准。


4. Odd–even consistency and Resampled Individual Reliability (RIR),推荐指数:*

基本假设:每个人填的答案中,同一个量表中的items随机拆成两部分算相关系数,应该是显著正相关的,相关系数过低的被试可认为是不认真的

操作方案:将每个子量表中的items按照奇偶拆开(也可以在子量表中再继续随机拆出多个子量表,以增加算相关系数的case),先计算出每个子量表奇、偶items的平均数结果,然后将每个人各个子量表的奇偶结果做相关;作者提出这种按照奇偶的伪随机不够好。

升级版的办法是RIR:每个子量表中随机拆成两组进行配对算相关即可,并且这样随机拆还可以进行有放回的重复抽样:比如一个20道题的量表,我们如果以每5题按奇偶配对,那么最多配成2对做相关,但如果是有放回的抽样,那就可以有足够多的配对做相关。

优点:计算方案周全且不算复杂。

缺点:跟量表本身的结构效度息息相关,受量表本身影响大,且没有相关低到多少可以算不认真的标准(个人认为可以用p值显著来判断),这个方法较新,尚未得到足够多的使用验证,仍在探索阶段,建议谨慎使用(with due caution)

特别注意:计算Odd–even consistency之前记得将需要反向计分的选项recoding.


5.Individual consistency: semantic and psychometric antonyms/synonyms,推荐指数:**

基本假设:语义或心理测量意义相近的items,结果应该是正相关的;相反的items,结果应该是负相关的。否则是不认真的被试。

操作方案:量表里设置一些测量意义或者语义相近或者完全相反的items,比如“我现在很快乐”和“我现在很悲伤”;注意将items混杂在量表中不要让被试产生警惕,比如要将(x1, x2), (y1, y2), (z1, z2)三对items掺入量表,可这样:【Item 1; Item 2; y1; Item 4; y2; x1; z1; z2; Item 9; x2】

优点:操作简单,计算容易,标准客观。

缺点:需要提前在量表里设置好,且需要掺入较多的题目,可能会对原量表测量产生影响。

特别注意:作者建议的保守做法是只剔除与假设相关方向相反的被试,低相关被试建议保留以减少一类错误


6.Individual consistency: inter-item standard deviation,推荐指数:*

基本假设:每个被试填的回答结果离散趋势不应该过大,如果分布的标准差太大,可被视为不认真被试。

操作方案:计算出每个被试回答结果的标准差A,然后将所有被试的A计算出z分数,剔除那些z分数过高或过低的被试。

优点:操作简单

缺点:没有统一剔除标准,建议谨慎使用。


7.Polytomous Guttman Errors,推荐指数:**

基本假设:起源于测试里如果有几道难的题,几道容易的题,那么做对难题的数目比简单题还多的,是不认真被试。这里做对的难题数减去做对的简单题数的结果称为Polytomous Guttman Errors。

操作方案:这里的“难题”“简单题”延伸为每道item都已经通过其他途径得到有一个常模,比如“我是个好人”大多数会倾向选agree(4),“我是个坏人”大多数会倾向选disagree(2)[随便举的一个例,误当真]。那么相应常模分数配对的一些题目相减,然后再求和的结果就会趋近于0。最终剔除被试的标准是:其结果大于现有研究里半数可能的Polytomous Guttman Errors,则可以剔除相应被试。

优点:算法简单,可操作性强。

缺点:需要提前有一个可信服的常模,比较难获取。


8.Individual consistency: person total correlation,推荐指数:**

基本假设:每个人答题的pattern与其他人是类似的。

操作方案:假设我们问卷有50个items,那么将所有人答题结果汇总,得到每个item的平均分[item1,item2,...item50],相当于变量A;这时候,将被试B的50个items也作为一个变量B的50个cases。则可以算出变量A和变量B的相关系数,负相关的被试可以剔除。

优点:可操作性强。

缺点:基本假设“每个人答题的pattern与其他人是类似的”需要有明确的理论支撑。


9.Bogus/infrequency/attention check items/IMCs,推荐指数:****

基本假设:陷阱题没答对的被试是不认真的。

操作方案:在问卷里藏入“这道题请选3”,或者在前面的instruction设置与通常直接点下一步不一样的模式,需要被试仔细阅读Instruction才能察觉的说明。

优点:操作性强,效果得到反复验证成功。

缺点:对于“职业被试”,他们会已经有所防备,较难检测出,尤其是mturks的被试。


10.Self-report data,推荐指数:***

基本假设:有些被试尽管不认真,但在“诚实”这一点上还是会尽量遵守的。

操作方案:问卷最后放一个Meade and Craig (2012)开发的量表,大意是问被试你有没有认真做问卷。

优点:应用方便。

缺点:只能检测诚实的被试。

参考

  1. ^问卷调查中应怎样设置问题从而判断问卷是否有效? https://www.zhihu.com/question/28876133/answer/978220789
  2. ^ Curran, P. G. (2016). Methods for the detection of carelessly invalid responses in survey data. Journal of Experimental Social Psychology, 66, 4–19.



  

相关话题

  设计调查乡村社会变迁的问卷,应该注意什么?有什么技巧? 
  如何看待上海长宁教育局回应中小学问卷涉自杀准备情况称「对问卷内容审核把关不严,将进一步调查处理」? 
  上海长宁区多所中小学的调查问卷中,包含诸多「自杀准备情况」相关题目,这一问法是否会对学生造成不良影响? 
  父亲节快到了,我应该送什么礼物? 
  对于国内人均工资水平,为什么大家都说自己被拖后腿了? 
  如何进行调研? 
  如何看待上海长宁教育局回应中小学问卷涉自杀准备情况称「对问卷内容审核把关不严,将进一步调查处理」? 
  Dematel-ANP法联用,问卷怎么设计? 
  上海涉事学校回应小学问卷涉大量自杀内容「审核不严,已停止调查」,关心青少年心理健康还需注意哪些方面? 
  如何看待上海长宁教育局回应中小学问卷涉自杀准备情况称「对问卷内容审核把关不严,将进一步调查处理」? 

前一个讨论
事业编真的很好吗?
下一个讨论
如何看待「 3 万在鹤岗买房的小哥最后赔 8 千将房子转卖,并直言可能以后不会再来鹤岗」?





© 2024-11-22 - tinynew.org. All Rights Reserved.
© 2024-11-22 - tinynew.org. 保留所有权利