问题

「数据会说谎」的真实例子有哪些?

回答
“数据会说谎”这句话虽然听起来有些绝对,但它确实揭示了一个重要的事实:数据本身并不总是客观公正的,它可能因为各种原因被操纵、误读、或不恰当地解读,从而得出虚假或误导性的结论。以下是一些“数据会说谎”的真实例子,我会尽量详细地讲述:

1. 选择性报告(CherryPicking)

这是最常见的“数据会说谎”的方式之一。它指的是只选择性地展示支持自己观点的数据,而忽略或压制那些不利于自己观点的数据。

例子:一家制药公司宣称其新药“疗效显著”

详细描述: 一家制药公司在进行一项新药的临床试验时,可能会收集各种各样的数据,包括患者的血压变化、心率、体重、情绪、生活质量评分等等。然而,在发布宣传材料时,他们可能只强调在某个特定指标(例如,某个特定时间点的血压平均值)上,药物显示出了一点点统计学上的显著差异。他们可能会忽略那些显示药物副作用明显、对其他健康指标没有影响,或者在长期跟踪中疗效并不稳定的数据。甚至,他们可能会选择性地报告“成功”的病例,而隐藏那些病情没有改善甚至恶化的病例。
为什么会误导: 这种做法会给公众一种错觉,认为这种药物几乎对所有人都有效且副作用极小。但实际上,药物的整体疗效可能平平,或者存在不可忽视的风险,只是这些信息被刻意隐藏了。

例子:销售人员夸大某种投资产品的回报率

详细描述: 一位投资顾问向潜在客户推销一款理财产品。他会展示过去几年该产品非常亮眼的平均年化收益率,并声称“过去业绩不代表未来表现”,但话语中的潜台词是“我的产品很赚钱”。他可能不会提及的是,在展示的这几年中,有几年是市场极度繁荣的,而有些年份产品可能遭遇了大幅亏损,或者他只计算了最有利的那几年作为平均值。他也可能不会提及该产品的高风险性,或者隐藏了其他类似产品有更好表现的事实。
为什么会误导: 客户看到高收益率的数据,很容易被吸引,认为这是一个“稳赚不赔”的机会。但如果没有看到风险提示、市场波动数据以及与其他产品的比较,他们就无法做出全面的风险评估,最终可能因为高估回报而承担过高的风险。

2. 操纵统计图表(Misleading Graphs)

图表是可视化数据的强大工具,但也是操纵和误导的温床。通过不恰当地设计坐标轴、比例、颜色或数据点,可以扭曲数据的真实含义。

例子:某政治团体发布图表显示其支持率大幅上升

详细描述: 假设一个政治团体希望宣传其支持率正在迅速增长。他们在发布图表时,可能会将纵坐标(代表支持率)的起点设置为一个非常高的数值,例如 45% 或 50%。这样一来,即使实际支持率只从 50% 上涨到 55%,在图表中看起来也会像一个巨大的、陡峭的上升曲线,仿佛支持率翻了一番。反之,如果他们想说明对手的支持率在下降,可能会设置一个非常低的起点,即使下降幅度不大,看起来也会非常触目惊心。
为什么会误导: 这种“截断的 Y 轴”会夸大数据的变化幅度,让观众觉得事件的进展比实际情况更剧烈。人们习惯于关注曲线的坡度,而忽略了 Y 轴的起点,从而被误导。

例子:产品销量图表省略其他品牌数据

详细描述: 一家手机制造商发布了一张销量对比图,展示自家手机在过去一年的销量如何增长。这张图表上可能只有自家手机和“其他品牌”的柱状图,并且“其他品牌”可能还包含了很多不同的小品牌。如果这家制造商自己的销量增长缓慢,但“其他品牌”的整体销量(包含许多竞争对手)在萎缩,那么这张图表就可以制造出一种“我们市场份额在增长”的假象。如果再稍微调整一下柱状图的宽度(虽然不常见但可能发生),也可以制造视觉上的差异。
为什么会误导: 观众看到的是他们品牌销量增长,而“其他品牌”销量停滞或下降,会认为他们的品牌表现优于整个市场。但如果图表中包含所有主要竞争对手,并且显示他们的品牌仅仅是其中较弱的一个,那么结论就完全不同了。

3. 相关性不等于因果性(Correlation vs. Causation)

这是统计学中最常被滥用和误读的原则之一。两个事物之间存在统计学上的相关性,并不意味着一个事物直接导致了另一个事物发生。

例子:冰淇淋销量与溺水事故数量同时上升

详细描述: 一项研究发现,在夏季,冰淇淋的销量和发生溺水事故的数量之间存在很强的正相关性——当冰淇淋销量高的时候,溺水事故也多。有人可能会据此得出结论说:“吃冰淇淋会导致溺水。”
为什么会误导: 事实是,两者都可能由一个共同的第三方因素——“炎热的天气”——所驱动。天气炎热时,人们更喜欢吃冰淇淋,同时也会更多地去游泳,从而增加了溺水的可能性。冰淇淋和溺水之间没有直接的因果关系,仅仅是同时受到炎热天气的影响。

例子:教育水平与犯罪率的相关性

详细描述: 有些研究可能发现,一个地区平均教育水平较低,而犯罪率较高;反之,教育水平高的地区犯罪率较低。于是有人可能得出“提高教育水平能降低犯罪率”的结论。
为什么会误导: 虽然提高教育水平可能在长期内有助于降低犯罪率,但这个相关性背后可能还有其他复杂因素。例如,贫困、失业、社会歧视等都可能同时导致教育水平下降和犯罪率上升。如果忽视了这些混杂因素,直接将教育水平视为犯罪率的唯一或主要原因,就可能导致政策制定上的偏差,或者被用来简单粗暴地解释社会问题。

4. 平均值的误导(Misleading Averages)

平均数,尤其是算术平均数(均值),在数据分布不均匀的情况下,可能无法真实反映整体情况。

例子:一个拥有10个员工的公司,一个老板年薪百万,其他9个员工年薪3万

详细描述: 如果计算这家公司的平均年薪,将所有人的工资加起来除以人数,会得到一个相对较高的数字。比如:(1,000,000 + 9 30,000) / 10 = 1,270,000 / 10 = 127,000 元。
为什么会误导: 这个 12.7 万元的平均年薪,虽然在数学上是正确的,但它并不能代表绝大多数员工的实际收入水平。90% 的员工年薪只有 3 万元,他们并没有享受到平均数所暗示的“高收入”。这种平均数受到极端值(老板的百万年薪)的严重影响,无法反映工资分布的真实情况。用中位数(50% 的数据点在它一边,50% 在另一边)来衡量可能更准确,在这个例子中中位数就是 3 万元。

5. 数据集不具有代表性(NonRepresentative Data Sets)

如果收集的数据集不能真实地反映需要研究的总体特征,那么基于这些数据的结论就是无效的。

例子:一家市场调研公司只采访了在特定社交媒体平台活跃的用户

详细描述: 一家公司想了解某个新产品在年轻群体中的受欢迎程度。他们通过一个很受欢迎的社交媒体 APP,随机抽取用户进行在线问卷调查。然而,这个 APP 的用户群体可能并不代表所有年轻人的特征。例如,喜欢玩游戏、更外向的年轻人可能更活跃于这个 APP,而更喜欢阅读、更内向的年轻人可能不常用。
为什么会误导: 如果这个 APP 的用户对该产品表现出高度热情,那么调查结果就会显示产品非常受欢迎。但如果这个 APP 的用户本身就与普通年轻人群体存在显著差异,那么这个结论就无法推广到所有年轻人,可能高估了产品的整体市场接受度。

例子:历史数据的简单外推

详细描述: 基于过去 5 年某项技术销售量持续增长的数据,一家公司预测未来几年销量将以同样的速度增长。他们基于这些历史数据进行生产计划和投资决策。
为什么会误导: 过去的技术发展或市场趋势可能受到了特定条件的影响(例如,竞争对手的缺席、特殊的政策扶持)。当这些条件发生变化时(例如,新竞争者出现、政策调整),历史数据就不再能准确预测未来。如果公司只看到销量增长的数字,而没有分析增长背后的驱动因素及其可持续性,那么这种外推就可能导致严重的误判。

总结来说,“数据会说谎”并不意味着数据本身是坏的或不可信的,而是强调数据的使用方式、解读方式以及其背后的意图可能导致误导。 要避免被数据“欺骗”,我们需要:

质疑数据的来源和收集方法。
审视数据的呈现方式,特别是图表的细节。
区分相关性和因果性。
关注数据的分布情况,而不仅仅是平均值。
确保数据样本具有代表性。
了解数据的局限性和潜在的操纵动机。

只有保持批判性思维,才能更准确地理解数据所传达的信息。

网友意见

user avatar

当奥巴马说“我国经济 09 年以来增长 13%”的时候,他没有告诉你其实美国人只有最富的 1% 收入增长了——剩下 99% 的人收入反而比之前

略微下降

会出现这种情况是因为收入不是正态,而是

幂律

分布的(即大家常说的 “20% 拥有 80% 的财富”)。所以最富人群的收入变化对经济总量影响最大,而剩下大多数人的收入变化对总量几乎没有影响。

举个具体的例子。假设有两个人,一个人有 100 块钱,一个人有 2 块钱。如果前者财富增长 10%(来到 110 块),后者减少 50%(来到 1 块),整个经济还是增长了 8%。

美国现在的情况就是这样,“经济整体复苏”但“多数人可支配收入没涨”。奥巴马夸自己经济政策有效确实没错,但特朗普、桑德斯也靠“拯救经济”的口号吸引了大量选民。这两个看似矛盾的事实其实都是对的。

幂律分布的数据在很多地方都会误导人。比如一家“成功” VC 的业绩其实

完全由所投公司中表现最好的一家决定

。基金整体增长,只是因为投对了一家有 100 倍回报率的公司,而这家明星公司比该 VC 投的其他所有公司加起来都值钱。

--

另一种常见的“数据说谎”是调查问卷设计不合理。

英国政府 2015 年开始同意让父亲和母亲共休产假。但一年后的统计数据却显示,只有 1% 的父亲选择了休假。BBC、《卫报》等各大媒体报道之后

引发强烈社会反响

真的是这样吗?

原来,这个 “1%” 的分母不是“有资格休假的父亲”,

而是“所有男性”

。有人指出,如果这么算,即使当年所有新生父亲都选择休假,

调查得到的数字也只不过是 5%

可以从调查结果中获利的商业机构就更不可信了。

之前有新闻说,一项对 2,000 人的调查发现,16 到 25 岁女性每周花 5 小时自拍

——这听起来挺科学吧?但看过真正的调查报告之后你会发现,这个“5 小时”的数据没有涵盖“从不自拍”的女性。再仔细看,你会发现

这份调查是由一家美妆电商发布的

,其目的可想而知。

除了在“分母”上做手脚以外,改变调查结果的方法还有很多。例如,不给出“其他”或“不知道”这类选项,问题题干加入误导性语言,调查对象有针对性选择等等。

一个很有意思的例子是,如果在问题中提到“奥巴马”(民主党执政八年的总统),更少的民主党人会说贫富差距过去八年变大了,而更多的共和党人会说过去八年经济变差了。简单地在题干中加上一个人名就改变了调查的结果。

要说离我们更近的例子,可以参考

我之前写的这个回答

——为什么一家民调说 59% 的台湾民众认为自己“只是台湾人,不是中国人”,而另一家却说 57% 有“泛中国认同”?

--

我想说的第三种“数据说谎”是暗示因果关系。

2015 年开始,英国卫生大臣亨特频繁引用

《英国医学会期刊》的一项研究

,说周日住院的病人比周三住院的病人死亡率高 15%,每年英国有

6,000 到 11,000 人

因为医院周末人手不足而死亡。

这听起来既科学、又可怕,对吧?

但问题在这里:虽然确有此研究,虽然这个 15% 的数字也是准确的,可这并不代表死亡率高就一定是因为医院周末人手不足。有没有可能周末住院的病人本身病情就比周中住院的重呢?(英国很多人平时可以请带薪病假。)在控制病人病情等其他因素之前,我们无法确定周日住院的死亡率高就一定是因为医院人手少。

卫生大臣亨特暗示这个因果关系也有他自己的原因——他所在的保守党竞选时承诺会增加公立医院周末员工数量,但因为保守党同时也削减了公共医疗开支(他们承诺会削减政府开支),所以必须要求年轻医生工作更长时间、照顾更多病人且不领加班费。由此一来年轻医生非常不满,亨特和他所在的保守党便希望通过这些数据来增加舆论对医生的压力。

另一个类似的问题是同工不同酬。你可以经常在奥巴马、希拉里的演讲中听到“做同样的工作,女性工资是男性 77%”这个数字。但是,“同工不同酬”引用的美国劳动统计部

报告第一页

就写明他们“没有控制很多可能显著影响男女工资差异的因素”,比如工作时长,受教育程度,效率等。事实上,美国同种工作内的性别工资差异并不是因为雇主歧视,详细原因请看这里:

「男女同工不同酬」是事实,为什么公司不全部招聘女性,以获得同等的生产力并节约成本? - Yiqin Fu 的回答

--

政治新闻看多了,各类“误导”方法很容易就积累一打:

GDP 数字漂亮的时候强调 GDP,通货膨胀数字好看的时候强调通货膨胀。夸自己就说“失业率低”,批评对手就说“失业率低只是因为很多人都不找工作了,所以没算在经济活动人口里面”。

绝对数字漂亮的时候强调绝对数字,百分比好看的时候强调百分比。希望增长的数字和去年相比有下降,那就和过去五年相比。希望下降的数字还在不停增长,那就说

“增长率下降”

某地商品房连续四年的均价分别为 1 万、2 万、3.8 万、7 万。看到这组数据,你必定会大叫:天哪,房价真是涨得越来越厉害了!不过事实却恰恰相反:这四年的房价增长率竟在逐年降低。

不过也不仅是政客。只要是做 PPT 的行业,大家这种事都干过不少吧。

--

最后一类“数据说谎”我都不太好意思放在这里。如果前面只是误导的话,下面就是赤裸裸的谎言了。

例如特朗普转发的这张图片,信息来源“旧金山犯罪统计局”

根本不存在

,数据也每个都是错的。(但居然在他转发九小时后就有 5,800 个赞和 7,700 次转发!)

所以再一次提醒大家:

不是只要带图带数字的就是真相!请仔细核查信息来源!不谈解读,很多数据本身就是错的。

最后送上一个饼图:

其他数据话题下的回答:

为什么有时候我们以为有很多人追的女生实际上不仅单身还没人追? 如果「男女同工不同酬」是事实,为什么公司不全部招聘女性,以获得同等的生产力并节约成本?
user avatar

有好事同志专门搞了一个网站来收集“八杆子打不着但看着贼拉靠谱的相关关系”,几乎就是专门让大家来扯淡装叉用的。

几个例子:

尼古拉斯凯奇在电影中的出镜次数和淹死在游泳池里的人数:

肯塔基州的结婚率和从渔船里掉出来淹死的人数:

全美滑雪场的总收入与被床单缠住致死的人数:


所有例子图片都来自

20 Insane Things That Correlate With Each Other
user avatar

截图说话——哗众取宠的美国Fox news经常用的一些招数。

这些招数更多的是从视觉上给人一种“错觉”。比如说,本来不大的差异,截掉Y轴的一部分,瞬间差异就会让看的人觉得——差得这么多!!!

想象你明天要跟你的经理作报告,手里有一堆结果,但是显然这些结果对于之前的方法只有边际的增长——好消息是,你几乎一定可以找到一个方法,在数据变化不大的时候却给人造成视觉的冲击。

例子:

1)在趋势图中,为了说明增长趋势多明显,把Y调成不从0开始。这样差距会看起来很大,增长很大,但是如果把Y轴从0开始看的话,会显得基本没有差距。

差距够大吧!!!巨量增长啊!我们公司的财务情况这样的话,公司明年就得IPO啊!!

可惜Y从0开始的话,这图应该看起来的样子是:

p.s.刚发现在用Excel画这图的时候,excel都自动把Y轴的起始值调成比最小值多一点!这样看起来差距真是巨明显有没有!看来M$真是很懂画图的真正需求啊:D

2) 另外一个例子,作两两比较的时候把Y的值从高位开始,造成俩差距巨大的错觉

看啊,右边比左边高了4倍不止!!!咦,等等,不是就39.6%跟35%的差别吗....这...

3) 分数加起来不等于一,放大差距。

图上的数据normalize一下的话那么佩林是36.2%,32.6%,31.0%,直观差距不大。但是在这个饼型图里瞬间变成了10%的差距!这个比较明显的话那看下面

这里

一扫的话没发现这里百分数加起来不等于1了吧。


4) 挑取x轴的数据以捏造趋势

假设数据的波动性很大,比如说如下

10, 1, 20, 3, 30, 4, 50

看起来应该是

擦勒,公司的财务状况这么不稳定!!!怎么办!


没关系——如果我只抽取奇数项的话(挑取x轴,虽然挑得好像是很有系统地——奇数,但是你总能想到一个看着挑得系统的方法)

就会看着像

TMD明年又可以上市了。。。

等等等等...

部分图片来源于

simplystatistics.org/20

类似的话题

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有