首页/逻辑 · 数据的陷阱
逻辑 · 数据会骗人

数据的陷阱

数据不会自己说话,是人在替它说
这一节要解决的
看懂数据 = 先看它怎么来的

归纳靠数据。可数据从不"客观中立"——它怎么的、怎么的、被谁解读,每一步都能让同一堆数字,得出相反的结论。这一节,认几个最常见、也最致命的陷阱。

幸存者偏差:你只看见了活下来的

二战时,统计学家沃德接到任务:看返航轰炸机上的弹孔分布,决定给哪儿加装甲。军方说:哪儿弹孔密,加固哪儿。沃德却说——加固弹孔最少的地方

为什么反着来?因为他手里的数据,全部来自飞回来的飞机。这些飞机中弹还能返航,正说明那些位置不致命;而真正致命的部位一旦中弹,飞机根本飞不回来,也就不在数据里。

你看见的,是幸存者;你没看见的,恰恰藏着答案。——这就是幸存者偏差

"成功的人都很拼,所以拼就能成功"——同一个坑:你只看见了拼出来的,没看见同样拼、却倒下了的那一大片。

相关,不等于因果

两件事一起变化,叫相关;一件事导致另一件,叫因果。把相关当因果,是数据里最贵的错。

冰激凌卖得多的月份,溺水的人也多——能说吃冰激凌导致溺水吗?不能。背后是同一个第三因:夏天。天热,既让人吃冰激凌,也让人下水。

看见"X 和 Y 一起涨",先别喊因果,问两句:会不会是 Y 导致 X?会不会有个第三者,同时推动了两个?

这正是「论证有效性」里"不能从结论倒推原因",落在数据上的样子。

数据怎么采,决定它说什么

还有两道关,在数据进门之前就决定了它可不可信:

抽样
不可能普查,就抽样——但样本一旦不具代表性,结论就偏。只在某个圈子里发问卷,答案早被这个圈子框定了。
双盲
对人的实验里,被测者知道自己在被测、医生知道谁吃的是真药,都会不自觉地影响结果。所以"双盲":两边都不知道,把心理与情绪的干扰,关在门外
一个结论可不可信,常常不在它的数字多漂亮,而在它的数据——怎么来的

示范一条"数据支持"的结论,拆开看

"调查显示,用我们 App 的人,90% 都更自律。"——哪儿不对?

调查显示:使用本 App 的用户,90% 都比以前更自律。—— 一句"有数据支持"的广告
谁进了样本
坚持用这款 App 的,本就是自律的人(幸存者 + 抽样偏差)——不自律的早卸载了,根本不在这 90% 里。
相关还是因果
就算"用 App"和"自律"相关,多半是自律 → 坚持用,不是用 → 变自律。因果方向,被悄悄说反了。
数据不说谎,挑数据的人会

同一句"数据显示",拆开三道关——样本怎么选的、是相关还是因果、方向对不对——一条唬人的结论,就露了底。数据不会说谎,但挑数据、摆数据的人会。

怎么练

下次看到"研究表明""数据显示",别停在结论,往回追三步:① 数据是从身上采的(有没有只数了幸存者)?② 是相关还是因果,方向对不对?③ 有没有藏着的第三因?追完这三步还站得住的,才值得信。

为什么练这个

我们活在一个被数据包围的时代——广告、新闻、健康建议,张口就是"数据显示"。看得懂数据怎么来、会不会骗人,是这个时代的读写能力。它和前面所有逻辑是一回事:不被一个唬人的结论,绕过你自己的追问。归纳带你从数据里找规律,这一节,是给归纳配上一双不被数据骗的眼睛。

← 回到逻辑