辛普森悖论
数据统计悖论 / 维基百科,自由的 encyclopedia
辛普森悖论(英语:Simpson's paradox),是概率和统计中的一种现象,其中趋势出现在几组数据中,但当这些组被合并后趋势消失或反转。 这个结果在社会科学和医学科学统计中经常遇到[1][2][3], 当频率数据被不恰当地给出因果解释时尤其成问题[4]。当干扰变量和因果关系在统计建模中得到适当处理时,这个悖论就可以得到解决[4][5]。 辛普森悖论已被用来说明统计误用可能产生的误导性结果[6][7]。
此条目可参照英语维基百科相应条目来扩充。 (2020年4月25日) |
该现象于20世纪初就有人讨论,但一直到1951年,爱德华·H·辛普森在他发表的论文中阐述此一现象后,该现象才算正式被描述解释。后来就以他的名字命名此悖论,即辛普森悖论。此悖论的最终原因和选择偏差(英语:selection bias)、幸存者偏差、以及柏克森悖论(英语:Berkson's paradox)一样,是源自对撞因子(存疑!应为混淆变量(confounder))。