数据的陷阱 · 数据怎么骗人

这一节要解决的

看懂数据 = 先看它怎么来的

归纳靠数据。可数据从不"客观中立"——它怎么采的、怎么比的、被谁解读，每一步都能让同一堆数字，得出相反的结论。这一节，认几个最常见、也最致命的陷阱。

一幸存者偏差：你只看见了活下来的

二战时，统计学家沃德接到任务：看返航轰炸机上的弹孔分布，决定给哪儿加装甲。军方说：哪儿弹孔密，加固哪儿。沃德却说——加固弹孔最少的地方。

为什么反着来？因为他手里的数据，全部来自飞回来的飞机。这些飞机中弹还能返航，正说明那些位置不致命；而真正致命的部位一旦中弹，飞机根本飞不回来，也就不在数据里。

你看见的，是幸存者；你没看见的，恰恰藏着答案。——这就是幸存者偏差。

"成功的人都很拼，所以拼就能成功"——同一个坑：你只看见了拼出来的，没看见同样拼、却倒下了的那一大片。

两件事一起变化，叫相关；一件事导致另一件，叫因果。把相关当因果，是数据里最贵的错。

冰激凌卖得多的月份，溺水的人也多——能说吃冰激凌导致溺水吗？不能。背后是同一个第三因：夏天。天热，既让人吃冰激凌，也让人下水。

看见"X 和 Y 一起涨"，先别喊因果，问两句：会不会是 Y 导致 X？会不会有个第三者，同时推动了两个？

这正是「论证有效性」里"不能从结论倒推原因"，落在数据上的样子。

还有两道关，在数据进门之前就决定了它可不可信：

抽样

不可能普查，就抽样——但样本一旦不具代表性，结论就偏。只在某个圈子里发问卷，答案早被这个圈子框定了。

双盲

对人的实验里，被测者知道自己在被测、医生知道谁吃的是真药，都会不自觉地影响结果。所以"双盲"：两边都不知道，把心理与情绪的干扰，关在门外。

一个结论可不可信，常常不在它的数字多漂亮，而在它的数据——怎么来的。

"调查显示，用我们 App 的人，90% 都更自律。"——哪儿不对？

调查显示：使用本 App 的用户，90% 都比以前更自律。—— 一句"有数据支持"的广告

谁进了样本

能坚持用这款 App 的，本就是自律的人（幸存者 + 抽样偏差）——不自律的早卸载了，根本不在这 90% 里。

下次看到"研究表明""数据显示"，别停在结论，往回追三步：① 数据是从谁身上采的（有没有只数了幸存者）？② 是相关还是因果，方向对不对？③ 有没有藏着的第三因？追完这三步还站得住的，才值得信。

为什么练这个

我们活在一个被数据包围的时代——广告、新闻、健康建议，张口就是"数据显示"。看得懂数据怎么来、会不会骗人，是这个时代的读写能力。它和前面所有逻辑是一回事：不被一个唬人的结论，绕过你自己的追问。归纳带你从数据里找规律，这一节，是给归纳配上一双不被数据骗的眼睛。