伪关系
伪关系,又称为虚假关系(英语:Spurious relationship),指在两个没有因果关系的事件,可能基于其他未见的干扰因素(英语:confounding factor;或称潜在变数,英语:lurking variable),显示出统计学上的相关,让人很容易猜想“两个事件有所联系”,然而这种联系并不能通过更加精细的检验。
另外,伪相关现象出现的另一种情形是在变数个数很多但抽样样本量不大时,即使这些变量互相独立,也有很大可能得出变数之间高相关性的伪关系。
另一个造成伪关系的原因是对对撞因子进行控制,这包括选择偏误、幸存者偏差、使用了不当的回归模型等情况。
相关系数与伪关系
两个变量可能会受第三者影响,从而在其间得出误导性的相关系数。当变量 X 和 Y 有相关时,有几种常见的可能原因:
- X → Y
- X ← Y
- X ← C → Y(C 是干扰变量)
- C → X → Y(C是工具变量)
- X → C → Y(C 是中介变量)
- X → C ← Y(C 是对撞变量)
前两种情况是实际的关系,但必须透过控制实验或纵向研究才能确认孰因孰果。第三种情况是伪关系,如果能控制住C变数,X和Y就不再相关。然而在第四种及第五种情况中,在控制住 C 之后,也可能造成 X 和 Y 的关系消失,而误以为是伪关系。而第六种情况中,控制了C反而会产生原本不存在的关系。
示例
例一
- 统计研究发现,冰淇淋销量最高的时候,就是公共泳池的溺水事故发生得最多的时候。
然而,有可能热浪造成冰淇淋销量和公共泳池的溺水事故增多。若视冰淇淋的销量或遇溺事故为对方的成因,可能就被伪关系误导了。
例二
- 荷兰的统计数字显示,在一连串的春季中,鹳鸟巢的数目与人类婴儿出生数目之间呈现正相关。
两者之间未必有因果关系。事实上,它们都和数据观测之前9个月的天气相关[1]。
例三
- 高度民主、注重法治的国家大多富裕繁荣,可见制度对经济有决定性的影响。
然而,有可能是其他的因素,像是社会对工作伦理的信念等,同时导致了民主、法治和富裕。
例四
- “夏以妹喜,殷以妲己,周以褒姒,三代所由亡也。”(晋‧杜预《左传》注)
然而,有可能朝代灭亡和宠幸美女是因为别的因素,如君王本身的性格等所造成的。若将美女的出现与朝代的灭亡视为对方的成因,可能就被伪关系误导了。
例五
- 所有喝过水的人都会死。所以喝水会致死。
喝过水的人确实死了,但没有反向证明不喝水不会死,所以两者是种伪关系。
例六
- 日本人长寿,是因为他们常吃鱼所致。
然而传统上日本人也少吃肉,而比起吃鱼有益健康,有更多研究指出少吃肉或不吃肉有益健康,因此这说法忽略了日本人的长寿可能其实是因为少吃肉、饮食习惯更偏向素食所致。
实验
伪关系一词常用于统计学上,特别是在实验的测定结果上。实验一般用以检测如“X → Y”的因果关系。然而两者的共同因素(W → X & Y)可造成非因果关系的相关。另外,如“X → W → Y”形的中介变数若没有察觉出来的话,两者非直接的关系便会看似是直接的。因此,除非能排除伪关系的可能性,否则实验得出的相关并不代表因果关系。
实际上,下列三个条件都要成立,才可以得出X导致Y的结论:
- X发生在Y之前
- 若X不发生则Y也不发生
- 若X发生则Y一定发生
如果上面三项中任何一项不符合,就可以确认出伪关系。
参考文献
- ^ Roger Sapsford, Victor Jupp (编). Data Collection and Analysis. Sage. 2006. ISBN 0-7619-4362-5.
参见
外部链接
- (英文)Spurious Correlation Definition(页面存档备份,存于互联网档案馆)