热门问题
时间线
聊天
视角

辛普森悖论

数据统计悖论 来自维基百科,自由的百科全书

辛普森悖论
Remove ads

辛普森悖论(英語:Simpson's paradox),是概率统计中的一种现象,其中趋势出现在几组数据中,但当这些组被合并后趋势消失或反转。 这个结果在社会科学和医学科学统计中经常遇到[1][2][3], 当频率数据被不恰当地给出因果解释时尤其成问题[4]。当干擾变量和因果关系在统计建模中得到适当处理时,这个悖论就可以得到解决[4][5]。 辛普森悖论已被用来说明統計誤用可能产生的误导性结果[6][7]

Thumb
定量数据的辛普森悖论:两个独立的小组出现正的趋势( ,  ),而当小组合并时出现负的趋势( )。
Thumb
辛普森悖论在类似于现实世界变异性的数据上的可视化表明,误判真实关系的风险可能难以发现。

该现象于20世纪初就有人讨论,但一直到1951年,爱德华·H·辛普森在他发表的论文中闡述此一現象後,该现象才算正式被描述解释。后来就以他的名字命名此悖论,即辛普森悖论。此悖論的最終原因和選擇偏差英语selection bias倖存者偏差、以及柏克森悖論英语Berkson's paradox一樣,是源自對撞因子(存疑!应为混淆变量(confounder))。

Remove ads

举例

一所美国高校的两个学院,分别是法学院和商学院。新学期招生,人们怀疑这两个学院有性别歧视。现作如下统计:

法学院

更多信息 录取, 拒收 ...

商学院

更多信息 录取, 拒收 ...

根据上面两个表格来看,女生在两个学院都被优先录取,即女生的录取比率较。现在将两学院的数据汇总:

更多信息 录取, 拒收 ...

在总评中,女生的录取比率反而比男生

Thumb
女生单独两个矢量斜率都比男生大,说明它们的比率都比较高。但最后男生总体向量斜率却大于女生

借助一幅向量图可以更好的了解情况(右图)

这个例子说明,简单的将分组数据相加汇总,是不能反映真实情况的。

就上述例子说,导致辛普森悖论有两个前提。

  1. 两个分组的录取率相差很大,就是说法学院录取率很低,而商学院却很高。而同时两种性别的申请者分布比重相反。女性申请者的大部分分布在法学院,相反,男性申请者大部分分布于商学院。结果在数量上来说,拒收率高的法学院拒收了很多的女生,男生虽然有更拒收率,但被拒收的数量却相对不算多。而录取率很高的商学院录取了很多男生,使得最后汇总的时候,男生在数量上反而占优。
  2. 潜在因素影响着录取情况。就是说,性别并非是录取率高低的唯一因素,甚至可能是毫无影响的。至于在学院中出现的比率差,可能是随机事件。又或者是其他因素作用,比如入学成绩,却刚好出现这种录取比例,使人误认为这是由性别差异而造成的。

为了避免辛普森悖论的出现,就需要斟酌各分组的权重,并乘以一定的系数去消除以分组数据基数差异而造成的影响。同时,我們必需清楚了解情况,以综合考虑是否存在造成此悖論的潜在因素。

Remove ads

相關條目

参考文献

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads