问题

问卷调查中应怎样设置问题从而判断问卷是否有效?

回答
在问卷调查中,设置一些特定类型的问题是判断问卷是否有效、受访者是否认真作答的关键。有效的问卷能够收集到真实、可靠的数据,而无效的问卷则会污染分析结果,导致错误的结论。

下面将详细阐述如何在问卷中设置问题以判断问卷是否有效,并分为几个主要方面进行说明:

一、 关于受访者本身的问题 (基本信息及鉴别类)

这类问题旨在收集受访者的基本信息,同时也包含一些可以帮助鉴别受访者是否认真作答的元素。

1. 排除性问题 (Screening Questions)

目的: 确保受访者符合研究的特定标准。不符合标准的人员,其问卷可以直接视为无效。

设置技巧:

放在最前面: 尽早排除不合格的受访者,节省时间和资源。
明确、直接: 问题要清晰,没有歧义。
单一维度: 不要在一个问题中包含多个限定条件。

示例:

关于年龄: “请问您的年龄是?” (提供年龄段选项,如“1825岁”、“2635岁”等,并设置研究需要的年龄范围)
如果研究对象是大学生,询问“您的身份是?”并提供“在校大学生”、“已毕业”等选项。
关于地域: “您目前居住的城市是?” (提供选项或开放性填写,根据研究需求设定有效地域)
例如,如果研究仅针对某城市居民,则只接受该城市范围的回答。
关于经验/知识: “您对我们正在研究的[某个产品/服务/领域]了解多少?” (选项如:“非常了解”、“有所了解”、“不太了解”、“完全不了解”)
如果研究需要受访者对某个产品有一定的使用经验,则只纳入“非常了解”或“有所了解”的受访者。
关于关注度: “您是否关注过最近关于[某个社会事件/话题]的新闻报道?” (选项:“是”、“否”)
如果研究需要受访者对特定话题有感知,则只纳入回答“是”的受访者。

判断方式: 直接根据排除性问题的答案进行筛选。不符合研究要求的受访者直接标记为无效。

2. 行为/习惯性问题 (行为痕迹类)

目的: 通过询问受访者过去的行为或习惯,来判断其回答的真实性。如果受访者对过去的行为回答得含糊不清或前后矛盾,可能表明其并未认真回忆或作答。

设置技巧:

具体化: 询问具体的时间、频率、地点等。
避免过于敏感或隐私: 确保问题在可接受范围内。
结合研究目标: 行为问题应与研究主题相关。

示例:

频率类: “您平均每周使用[某个社交媒体平台]的次数是?” (提供选项,如“每天多次”、“每天一次”、“每周几次”、“每周一次”、“不使用”)
如果受访者在后续关于使用习惯的问题中回答“从未打开过”,但在此回答“每天多次”,则存在矛盾。
时间类: “您上次使用[某个产品/服务]是在什么时候?” (选项如:“今天”、“昨天”、“一周内”、“一个月内”、“更久以前”)
例如,如果有人在问卷中说自己是某产品的重度用户,但回答“更久以前”上次使用,则存在疑点。
地点类: “您通常在哪里购买[某个商品类别]?” (提供选项,如“超市”、“便利店”、“线上电商平台”、“专卖店”等)

判断方式: 将行为性问题与问卷中其他相关问题进行交叉比对,寻找矛盾之处。

二、 关于问卷本身的问题 (一致性与注意力检测类)

这类问题专门设计来检测受访者是否在认真阅读和回答问卷,以及是否保持了回答的一致性。

1. 防御性问题 / 潜在矛盾问题 (Attention/Consistency Checks)

目的: 通过设置看似相同但表述略有差异的问题,或者设置前后可能存在矛盾的问题,来检测受访者的注意力集中程度和回答的一致性。

设置技巧:

语意相同,表述不同: 用不同的词语或句式询问同一个概念。
反向提问: 例如,如果前面问“您是否喜欢X”,后面可以问“您是否不喜欢X”。
故意引入矛盾点: 在问卷中间故意加入一个与前面回答可能冲突的假设性问题。

示例:

正面与反面提问:
问题 A:“您对我们公司产品的整体满意度是?” (非常满意 非常不满意)
问题 B:“您认为我们公司产品的总体评价如何?” (极好 极差)
如果一个人在问题A中选择“非常不满意”,但在问题B中选择“极好”,则存在明显矛盾。
相似问题不同表述:
问题 C:“您认为[某个品牌]的产品质量如何?” (选项:优良、良好、一般、差)
问题 D:“就您使用经验而言,[某个品牌]的品质是?” (选项:非常出色、不错、尚可、有待提高)
如果对“优良”和“非常出色”的对应关系不明确,需要谨慎判断,但如果对“差”和“有待提高”的对应非常明确,且受访者回答差异巨大,则可疑。
极端选项检测:
问题 E:“您多久一次购买[某个类型的商品]?” (例如:每天、每周数次、每周一次、每月一次、很少购买)
问题 F:“您对[某个品牌]的忠诚度是?” (非常忠诚 完全不忠诚)
如果受访者在问题E中回答“很少购买”,但在问题F中选择“非常忠诚”,则存在矛盾。

判断方式: 识别回答不一致的受访者。通常,对于明显前后矛盾的回答,该受访者的问卷会被标记为无效。

2. “陷阱”问题 / 随机应答检测问题 (Straightlining / Patterned Response Detection)

目的: 检测受访者是否只是随机选择选项(例如,全部选择“3”或“中立”)或按照固定模式选择(例如,ABAB)。

设置技巧:

多项选择题中的特殊选项: 在有多个选项的量表题中,故意加入一些看似合理但实际上是“陷阱”的选项,或者让某些选项组合是不可能同时存在的。
故意打乱顺序的相似问题: 将相似的问题分散在问卷的不同位置,并且选项顺序也有所变化。
明确的指令性问题: 在问卷的中间或末尾插入一个简单直接的问题,要求受访者按照特定指示作答。

示例:

随机应答检测:
连续出现多个李克特量表题(如“非常同意”到“非常不同意”),如果受访者在这些题上全部选择了相同的选项(例如全部是“3”),则存在“随机应答”的嫌疑。
通过在这些量表题之间插入一些其他类型的问题,或者在量表题内部选项顺序上做一些微调,可以增加检测的准确性。
指令性问题 (Instructional Manipulation Checks IMCs):
“请在回答此问题时,选择选项‘非常不同意’。” (后面跟着一个评价性问题)
“请跳过此问题,直接回答下一个问题。”
“请在以下选项中选择‘其他’。” (即使其他选项都看起来很正常)

判断方式:
随机应答: 识别连续出现相同选项的模式。
指令性问题: 没有按照指示作答的受访者,其问卷直接无效。

3. 开放式问题的回答质量 (Openended Response Quality)

目的: 开放式问题虽然自由度高,但如果受访者回答得过于简短、敷衍,甚至乱码,也表明其作答质量不高。

设置技巧:

问题设置要有意义: 开放式问题最好能提供一些有价值的见解。
提供足够的空间: 确保受访者有足够的输入空间。

示例:

“您对我们此次调查有什么其他意见或建议?”
“请用您自己的话描述一下您对[某个主题]的看法。”

判断方式:
过于简短的回答: 例如,只回答“无”、“不知道”、“还可以”。
乱码或无意义的回答: 例如,一堆字母、符号或完全不相关的词语。
与封闭式问题答案矛盾的开放式回答: 例如,在封闭式问题中表示非常满意,但在开放式问题中写“产品很糟糕”。

三、 后期处理与综合判断

除了上述问题设置,问卷设计者还需要在后期处理中进行综合判断。

1. 问卷完成率 (Completion Rate)

目的: 了解有多少受访者完成了整个问卷。

判断方式: 如果问卷完成率极低,可能说明问卷本身存在问题(太长、太难、不吸引人),或者投放渠道有问题。但完成率高并不直接等于问卷有效,只是一个初步的指标。

2. 回答时间 (Response Time)

目的: 检测受访者是否在合理的时间内完成了问卷。

设置技巧: 在线问卷平台通常会自动记录每个受访者完成问卷的时间。

判断方式:
过短的回答时间: 如果完成问卷的时间远低于平均水平,可能表明受访者在快速浏览或随机选择。
过长的回答时间: 虽然有时可能是受访者认真思考,但如果远超平均水平太多,也可能存在受访者离开或注意力不集中的情况。

需要注意: 回答时间需要结合问卷的长度和复杂度来综合判断,并与平均回答时间进行对比。

3. 相似度/重复性检测 (Repetition Check)

目的: 在某些情况下,可以通过比对不同受访者的答案来发现异常。

设置技巧: 如果收集到大量同一来源或同一时间段的问卷,可以对问卷内容进行比对。

判断方式: 如果发现有多个问卷内容高度相似(例如,答案序列完全一致),则很可能存在数据造假或代答行为,这些问卷应视为无效。

四、 如何在问卷中巧妙地使用这些问题:

分散布置: 不要将所有检测性问题都集中在一起,否则容易引起受访者警觉。将它们分散布置在问卷的不同部分。
语言自然: 检测性问题要尽量用自然、流畅的语言表达,避免过于生硬或突兀。让它们看起来像是一系列正常的研究问题。
结合研究主题: 尽量让检测性问题与研究的主题和内容相关联,这样更不容易被受访者察觉,也更能反映受访者对研究内容的理解程度。
适度使用: 过多的检测性问题会增加问卷长度和复杂性,可能导致受访者反感而放弃作答。要根据问卷的整体长度和深度,合理设计检测性问题的数量。
明确无效标准: 在问卷设计之初,就要明确定义“无效问卷”的标准,例如:
未能通过排除性问题。
存在明显的、不可解释的矛盾性回答。
未能按照关键的指令性问题进行作答。
回答时间异常短。
开放式问题回答敷衍、无意义或乱码。
试点测试: 在正式投放问卷之前,进行小范围的试点测试,观察受访者的反应,并根据反馈调整问题设置。

总结:

通过在问卷中合理设置排除性问题、行为/习惯性问题、防御性问题、随机应答检测问题以及指令性问题,并结合问卷完成率和回答时间等后期分析方法,可以有效地判断问卷的有效性。核心在于通过各种方式来捕捉受访者的注意力、一致性、真实性以及对研究内容的理解程度,从而确保收集到的数据是可靠的,为后续的分析提供高质量的基础。

网友意见

user avatar

这个问题下查的森的回答[1]已经将当前可用的办法总结得很清楚了,其中JESP那篇文章[2]综述的检测被试不认真的十余种办法,我根据个人实际发问卷的体会做了简单的推荐指数,曾经在组会内部分享过,这里贴过来。

一句话概括:筛出不认真被试的办法建议是多种结合,使用顺序上可以自由搭配,作者推荐的一种是:先剔除Response time过短的被试、未通过陷阱题的被试,之后再分别利用Long-string analysis、Odd–even consistency等统计办法中的一种进行剔除。

P.S:作者特别指出,剔除不认真被试的使用方法和顺序必须是在剔除之前就计划好的,不要让剔除被试成了玩弄P值的手段


1.Response time,推荐指数 *

基本假设:答题速度太快的被试是不认真的

操作方案:针对答题时间做单尾检测,即只剔除答题时间过短的被试(比如答题时间小于1.5个标准差,但这样做之前需要先确认答题时间分布是否正态);Huang et al. (2012)推荐按照2s/item来估算所需答题时间。但不同问卷每个item答题时间差异可能很大,还得根据具体问卷情况来判断。

优点:指标客观,记录方便。网上问卷一般都自带。

缺点:剔除被试的时间节点非常不好把握,作者实验表明有些答题速度确实很快的被试会被误删,也就是一类错误率高;但如果时间节点用太短的去卡,又容易犯二类错误。这个trade off涉及到不同问卷差异太大,作者也没能给出一个较好的参考标准。关于作者的实验结果可见原文图1.


2. Long-string analysis,推荐指数 *

基本假设:有很多个连续的items选了同一个选项的被试是不认真的

操作方案:比如有一个10道题的五点量表,被试回答如下【3; 3; 4; 4; 4; 3; 5; 3; 3; 4】,那么这里被试选择的最长连续items是【4,4,4】这一段,记录为3。作者推荐如果这个数值大于等于量表总长度的一半(比如这里是5),即可判断为不认真被试。但这个标准作者也认为是太严格了,因此只能剔除很少一部分不认真的被试。更好的标准有待今后进一步的常模探索。

优点:假设简单直接。

缺点:一方面跟Response time一样,标准设置并不好界定;另一方面这个剔除办法没有RT那么直接,我们习惯的SPSS等现成工具似乎无法计算每个被试选了多少个连续的item。可能需要一定的代码编写。


3. Mahalanobis distance,推荐指数:*

基本假设:Outlier是不认真的被试,但这里的Outlier并非单纯的答题结果高于或低于一定标准差,而是有一个多维度的Mahalanobis distance指标。

操作方案:我们比较熟悉的剔除outlier办法是单维的,即通过一个item或者一个均值的分布来计算出偏离较大的outlier。这里的Mahalanobis distance则是多维的,即综合计算多条items偏离平均水平的程度来跳出outlier。具体公式邮件无法放上,可见原文。

优点:计算方案较为周全,除了应用于剔除不认真被试,也可以用于剔除其他情形的Outlier。

缺点:计算较为复杂,且剔除标准存在争议,作者也并未给出一个明确的Outlier标准。


4. Odd–even consistency and Resampled Individual Reliability (RIR),推荐指数:*

基本假设:每个人填的答案中,同一个量表中的items随机拆成两部分算相关系数,应该是显著正相关的,相关系数过低的被试可认为是不认真的

操作方案:将每个子量表中的items按照奇偶拆开(也可以在子量表中再继续随机拆出多个子量表,以增加算相关系数的case),先计算出每个子量表奇、偶items的平均数结果,然后将每个人各个子量表的奇偶结果做相关;作者提出这种按照奇偶的伪随机不够好。

升级版的办法是RIR:每个子量表中随机拆成两组进行配对算相关即可,并且这样随机拆还可以进行有放回的重复抽样:比如一个20道题的量表,我们如果以每5题按奇偶配对,那么最多配成2对做相关,但如果是有放回的抽样,那就可以有足够多的配对做相关。

优点:计算方案周全且不算复杂。

缺点:跟量表本身的结构效度息息相关,受量表本身影响大,且没有相关低到多少可以算不认真的标准(个人认为可以用p值显著来判断),这个方法较新,尚未得到足够多的使用验证,仍在探索阶段,建议谨慎使用(with due caution)

特别注意:计算Odd–even consistency之前记得将需要反向计分的选项recoding.


5.Individual consistency: semantic and psychometric antonyms/synonyms,推荐指数:**

基本假设:语义或心理测量意义相近的items,结果应该是正相关的;相反的items,结果应该是负相关的。否则是不认真的被试。

操作方案:量表里设置一些测量意义或者语义相近或者完全相反的items,比如“我现在很快乐”和“我现在很悲伤”;注意将items混杂在量表中不要让被试产生警惕,比如要将(x1, x2), (y1, y2), (z1, z2)三对items掺入量表,可这样:【Item 1; Item 2; y1; Item 4; y2; x1; z1; z2; Item 9; x2】

优点:操作简单,计算容易,标准客观。

缺点:需要提前在量表里设置好,且需要掺入较多的题目,可能会对原量表测量产生影响。

特别注意:作者建议的保守做法是只剔除与假设相关方向相反的被试,低相关被试建议保留以减少一类错误


6.Individual consistency: inter-item standard deviation,推荐指数:*

基本假设:每个被试填的回答结果离散趋势不应该过大,如果分布的标准差太大,可被视为不认真被试。

操作方案:计算出每个被试回答结果的标准差A,然后将所有被试的A计算出z分数,剔除那些z分数过高或过低的被试。

优点:操作简单

缺点:没有统一剔除标准,建议谨慎使用。


7.Polytomous Guttman Errors,推荐指数:**

基本假设:起源于测试里如果有几道难的题,几道容易的题,那么做对难题的数目比简单题还多的,是不认真被试。这里做对的难题数减去做对的简单题数的结果称为Polytomous Guttman Errors。

操作方案:这里的“难题”“简单题”延伸为每道item都已经通过其他途径得到有一个常模,比如“我是个好人”大多数会倾向选agree(4),“我是个坏人”大多数会倾向选disagree(2)[随便举的一个例,误当真]。那么相应常模分数配对的一些题目相减,然后再求和的结果就会趋近于0。最终剔除被试的标准是:其结果大于现有研究里半数可能的Polytomous Guttman Errors,则可以剔除相应被试。

优点:算法简单,可操作性强。

缺点:需要提前有一个可信服的常模,比较难获取。


8.Individual consistency: person total correlation,推荐指数:**

基本假设:每个人答题的pattern与其他人是类似的。

操作方案:假设我们问卷有50个items,那么将所有人答题结果汇总,得到每个item的平均分[item1,item2,...item50],相当于变量A;这时候,将被试B的50个items也作为一个变量B的50个cases。则可以算出变量A和变量B的相关系数,负相关的被试可以剔除。

优点:可操作性强。

缺点:基本假设“每个人答题的pattern与其他人是类似的”需要有明确的理论支撑。


9.Bogus/infrequency/attention check items/IMCs,推荐指数:****

基本假设:陷阱题没答对的被试是不认真的。

操作方案:在问卷里藏入“这道题请选3”,或者在前面的instruction设置与通常直接点下一步不一样的模式,需要被试仔细阅读Instruction才能察觉的说明。

优点:操作性强,效果得到反复验证成功。

缺点:对于“职业被试”,他们会已经有所防备,较难检测出,尤其是mturks的被试。


10.Self-report data,推荐指数:***

基本假设:有些被试尽管不认真,但在“诚实”这一点上还是会尽量遵守的。

操作方案:问卷最后放一个Meade and Craig (2012)开发的量表,大意是问被试你有没有认真做问卷。

优点:应用方便。

缺点:只能检测诚实的被试。

参考

  1. ^问卷调查中应怎样设置问题从而判断问卷是否有效? https://www.zhihu.com/question/28876133/answer/978220789
  2. ^ Curran, P. G. (2016). Methods for the detection of carelessly invalid responses in survey data. Journal of Experimental Social Psychology, 66, 4–19.

类似的话题

  • 回答
    在问卷调查中,设置一些特定类型的问题是判断问卷是否有效、受访者是否认真作答的关键。有效的问卷能够收集到真实、可靠的数据,而无效的问卷则会污染分析结果,导致错误的结论。下面将详细阐述如何在问卷中设置问题以判断问卷是否有效,并分为几个主要方面进行说明: 一、 关于受访者本身的问题 (基本信息及鉴别类)这.............
  • 回答
    上海长宁区部分中小学问卷中涉及“自杀准备情况”的题目,确实引发了一些关于其对学生潜在影响的讨论。要深入理解这个问题,我们需要从多个角度去审视,而不是简单地给出一个“是”或“否”的答案。首先,从问卷设计的初衷来看,学校或相关机构进行这类调查,通常是出于一种“关爱”和“预防”的目的。他们可能希望通过了解.............
  • 回答
    好的,我们来聊聊如何将问卷中对指标的相对重要性打分,转化为层次分析法(AHP)中构建判断矩阵的依据。这是一个很实际的操作问题,我们一步一步来捋清楚。首先,要明确一点:问卷中“010的相对重要性打分”和 AHP 的“两两比较矩阵”在表达形式上是不一样的,但它们的目标是一致的——量化指标之间的相对优劣关.............
  • 回答
    近日,国内多地出现由政府部门或企事业单位牵头,针对育龄妇女生育意愿展开的问卷调查,引发社会广泛关注。这种深入了解育龄妇女生育状况和意愿的做法,其背后有着复杂的社会背景和多重考量。背景:生育率持续低迷的挑战中国面临着长期、严峻的人口结构挑战,最突出的表现就是生育率的持续低迷。尽管国家已经放开了二孩、三.............
  • 回答
    好的,我们来聊聊DematelANP联用的时候,问卷该怎么设计。这可不是个简单的活儿,需要咱们细致地琢磨。我这就给你捋一捋,怎么把这个问题说透了,也尽量让它听起来像是咱们哥俩在那儿琢磨事儿呢。为啥要联用 Dematel 和 ANP?先理顺思路。咱们先别急着做问卷。你得明白,Dematel 和 ANP.............
  • 回答
    那天奥兰多城里,一个关于奥尼尔是不是值亿元合同的讨论,像一记响雷,炸开了锅。街头巷尾,咖啡馆里,甚至超市门口,人们都在议论纷纷。但出乎意料的是,绝大多数的声音都倾向于——不值。这让很多人感到困惑,毕竟沙奎尔·奥尼尔,那个在中锋位置上无人能挡的巨兽,在场上带来的震撼力,是实打实的。为什么会出现这样的“.............
  • 回答
    关于上海长宁区教育局就中小学问卷中涉及“自杀准备情况”一事的回应,这件事情确实牵动了很多人的心,也引发了广泛的讨论。教育局的回应——“对问卷内容审核把关不严,将进一步调查处理”——可以从几个层面来理解和看待。首先,我们必须承认,这次事件暴露了一个非常严峻的问题:教育系统内部在内容审查方面存在明显的疏.............
  • 回答
    多份问卷数据整合:从原始数据到最终判断矩阵的AHP处理流程在应用层次分析法(AHP)进行决策分析时,收集到的多份专家或评估者的问卷数据是至关重要的第一步。然而,原始的问卷数据往往是分散的、多角度的,需要经过一系列严谨的处理才能整合成最终的判断矩阵。本文将详细阐述这一转化过程,旨在为研究者提供清晰的指.............
  • 回答
    上海一小学问卷中出现大量自杀内容,学校回应称“审核不严,已停止调查”,此回应无疑引发了公众的强烈不满和担忧。这起事件不仅暴露了学校在未成年人保护和心理健康教育方面的严重疏忽,也触及了当前社会对青少年心理健康的普遍焦虑。事件的严重性与学校回应的不足首先,小学问卷中出现大量自杀内容是极其严重的。这不仅可.............
  • 回答
    设计一份扎实的乡村社会变迁调查问卷,绝非易事,它需要我们深入洞察乡村的脉络,理解变迁的复杂性,并运用一些巧妙的技巧来捕捉那些最真实的信息。以下是我在设计这类问卷时会格外留意的方面和一些实操经验,希望能帮您梳理思路。一、明确调查目标与研究问题:这是问卷设计的“定海神针”在动笔写第一个问题之前,最最重要.............
  • 回答
    .......
  • 回答
    武汉大学校园媒体爆出农民工调查问卷造假一事,引发了社会各界的广泛关注和讨论。看待此事,需要从多个层面进行深入分析,包括事件本身、涉及的各方、潜在的危害以及解决之道。一、 事件本身:学术诚信的底线被触碰 调查问卷造假的核心问题: 农民工调查问卷造假,意味着用于研究的原始数据存在虚假成分。这直接挑战.............
  • 回答
    想要让路人愿意停下脚步,拿起笔,认真回答你的调查问卷,这可不是件简单的事。这就像一场小小的“街头劝说”,你需要用你的真诚和策略,打动他们。首先,最重要的就是你的出场方式。想象一下,你站在人来人往的街头,手里拿着一叠问卷,面带微笑。你的表情至关重要,要显得友好、 approachable,而不是那种“.............
  • 回答
    在美国的种族调查问卷中,填写中国朝鲜族和马来西亚华人时,最准确和常见的做法是选择 “亚裔”(Asian) 这一大类。但这背后涉及一些细微的理解,需要详细解释:为什么选择“亚裔”(Asian)?美国的种族分类体系主要基于地理起源和自我认同。虽然“种族”在美国的语境下可能与“民族”的概念有所重叠,但官方.............
  • 回答
    管理学方向的毕业生,不想写严谨的实证论文,转而想写一份有深度的调研报告,这完全是可行的,而且在许多情况下,调研报告比单纯的实证论文更能体现你的观察力、分析能力和解决问题的思路。那么,调研报告该怎么写,才能既有学术价值,又能展现你的实践洞察力呢?我们一步步来拆解。首先,要明确“调研报告”与“实证论文”.............

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有