统计误用

统计误用是指统计学的争论被断言为谬误。在一些情况,这些误用是意外发生的。可是,在其他情况,这都是有目的的,而且会令使用统计误用的人从中得到好处。当其统计原因涉及到错误或误用,便构成了统计谬误

错误的统计会对知识的追求甚至现实生活带来负面的影响。例如一个医学上的谬误会浪费人们数十年的时间,并会招致人命损失。

统计误用容易发生,即使数学家和专业统计学家在仔细小心的状况下也会被统计谬误给整到,哪怕这些专家再小心翼翼、整到他们的谬误再简单也一样;此外,已知有科学家因为缺乏对概率论的了解,对测试也没有标准化之故,而被统计谬误给整到的例子。

简单的成因

许多统计谬误因为以下原因而出现:

  • 资料来自相关专家,而非统计学家,[1]在这种状况下,资料来源可能会包含对数据错误的研究方法或解释。
  • 资料源自统计学家,而非相关专家[2]在这种状况下,相关专家应当要知道比较的数据描述的是不同的东西。在法律定义或政治边界变动时,数字会变,但事实不会变。
  • 研究的对象缺乏良好的定义,[3]或者研究对象的一些部分容易量化、另一些部分不容易量化,或者没有已知的量化方式(也就所谓的麦纳马拉谬误)。例子如下:
    • 尽管智商可测得且是量化数据,但因为智能是一个难以捉摸的概念之故,因此很难定义说智商到底测出了什么。
    • 出版影响也有类似的问题,[4]学术文章和期刊常以“影响力”来衡量,而影响力以后来文章的引用数来衡量。数学家和统计学家总结说尽管相对客观,但影响力不是一个非常有意义的量度。“仅仅依赖引用资料的做法,最好也只能对研究提供不完整且粗浅的了解─而这了解只能在其他的判断下变得有意义。数据不是生来就比良好判断还优越的。”
    • 诸如“英语有多少单词”这样看似简单的问题,马上就会碰到古语形、前后缀、多定义单词、不同的拼法、方言词、异想天开的造词[5]、技术用语等各种问题。
  • 资料来源品质不佳,[6]成衣在此给了一个例子。人有各种不同的体型和大小,这表示说衣服大小必然是多向度的;然而除此之外,这问题在一些想不到的地方变得复杂,一些衣服只以尺寸出售,而不特别考虑体型;不同国家和成衣商用的尺寸有差异,且一些服装的尺寸是刻意误导的英语Vanity sizing。因此尽管尺寸是数字化的,但只有在小心使用这些数字的状况下才能做出最粗浅的统计分析。
  • 大众向媒体专业不足且各有不同的动机,[7]如果事实不是那么地具有新闻价值(而这可能需要夸大),那就可能不会受到报导;至于广告的动机则更是各怀鬼胎。
    • 《对犯罪数据的使用和误用》(Uses and abuses of crime statistics)这篇来自澳洲的对犯罪统计的报告呈现了许多对统计数据的解读和误读:“媒体对取得犯罪资讯的能力的增加,与其对犯罪报导的品质并未成正比,媒体对犯罪数据的滥用,已阻碍了对法律和秩序的理性辩论”;而媒体的滥用如次:选择性引用资料、选择性报导事实、误导性评论、对事实的错误呈现与具误导性的标题等。警察和政治人物也滥用统计数据。[7]
  • “政治人物对统计数据的使用,就如醉鬼对路灯的使用一般,都是为了寻求支持而非光明。”(出自安德鲁·朗格)─“我们从看到同样数据的两种方式中学到了什么?我们学到了说左派或右派的宣传家几乎总是可以找到一个方法,使得经济成长的数据看似支持自己的论点;而我们也学到说要对任何来自高度政治化来源资料的统计分析抱持怀疑态度。”[8]英语“统计”一词statistics,源自为政府制造并为政府使用的数据,好的政府可能需要精确的数据,但民粹政府可能需要支持性的数据,而这两者未必相同,而“政府对统计的使用和滥用,是一门古老的艺术。”[9]

误用的类型

去除不利数据

一间公司若要推广中性(无用)或不良的产品,一个方法就是找到该产品有用或有益的“证据”,像例如说如果该产品真的是无用的,那么在置信等级有95%的状况下,40个产品相关的研究数据便有可能是由1份指出产品是好的、1份指出产品是不好的及38份不确定的研究(38是40的95%)所组成的。当研究报告越多时,这个策略便越有效。

组织是不会把他们的所有的研究都公开的,人们也常会引用与支持自身信念的数据,例如烟草公司会否认吸烟癌症之间的关联,而提倡禁烟组织和媒体则会尝试着证明吸烟和多种病症是有关联的,减肥药物制造商也常用这个策略;同理,推动废除死刑的个人或人权团体也会倾向采用死刑无助治安的数据,其他的个人或团体也常会倾向使用对自身论点有利的数据和研究。

另一个常见的技巧就是进行测试中有大量应变项(dependent variable)的研究。一个例子如次︰一个测试治疗方法的效果的研究可以存活率、在医院的平均日数、病人自报的疼痛程度等作为应变项,而在这种状况下,最少一个变项会刚好与自变项(independent variable)发生关连的可能性便会增加,研究人员也可借此得到想要的结果。

罗纳德·爱尔默·费希尔在他女士对茶的味觉的研究中提到了此问题(可见于他于1935年出版的《实验设计》一书中),对于这重复的实验,他说:“这明显是不合理的,且在不考虑不成功的结果下,这可能会将我们的运算从基础中夺走”

采樱桃谬误是与此相关的一个概念。

忽略重要特征

多变量资料会有超过两个向度,假若使用太少的向度(像例如只选取一个特征且只做简单线性回归,而非做多重线性回归)的话,就可能导致误导性的结果,而这使得分析师容易受统计悖论或下述的某种假关系影响。

不恰当的问题

问题的用字能引导受访者给予某一答案,问卷的结果因而能被操纵(参见观察者期望效应)。例如在有关战争的民意调查中,问题为︰

  • 你支持美国的企图能为其他国家带来自由和民主吗?
  • 你支持美国的无故军事行动吗?

以上两道问题虽然也有关战争的民意调查,但所得出的结果会有所不同。(参见预立论题

另一做法是在问题前加上支持“理想答案”的资料。例如︰

  • 已知税项会增加中产家庭的负担,你支持扣减所得税吗?
  • 在考虑国家的预算赤字和收入的迫切需求,你支持扣减所得税吗?

在前者,有较多人会倾向回答“支持”。(参见诱导性提问

轻率概化

轻率概化是当一个统计的的特定总体不能代表原本总体时发生的谬误。

例如,假设在夏天时的苹果100%也是红色的。那么,“所有苹果都是红色”的推断便是过度类化,因为原本的统计只对那些在夏天的苹果正确,而不能代表所有苹果;或者看到发达国家废除死刑后的治安数据,就断定死刑对治安没有影响,但发达国家废除死刑后的状况不能代表所有国家的状况。

在现实生活中,禁止通过电话的政治民意调查可见到过度类化的谬误。由于年青人只拥有一部手提电话,而非也拥有一部家用电话,这种年青人会被视为自由主意者,而没有家用电话的年青人很大机会会被当作整体,这些民意调查便有效地使很多自由的选民排除在外。[10]

因此,使用这种技巧的民意调查所检验的年青人的投票意愿,是不能在没有过度类化的情况下声称能代表所有年青人的真正投票意愿,这是因为其使用的样本不是整个总体的代表。

当资料在某个媒体经过非技术性的来源,过度类化便经常出现。[11]

以偏概全(抽样偏差, biased samples)

科学家在过去以巨大的代价学到搜集良好的实验数据以做统计分析是困难的,像例如说安慰者效应常常会非常强大,一个例子是在一个实验中,所有的受试者在接触被贴上“毒藤”标签的惰性物质之后,都起了皮疹,反倒那些接触被贴上“无害”标签的毒藤的人,只有少数人起来皮疹。[12]研究者现在借由双盲随机化比较实验来应对此现象。比起分析本身,统计学家通常更担心资料的真确性,而这反映在统计学当中一门被称为“实验设计”的研究当中。

做民调的人在过去也以巨大的代价学到搜集良好的调查资料以做统计分析是困难的。一个潜在的例子是在资料收集上手机所产生的选择效应(此事在本文“轻率概化”一节中也有谈及),如果拥有传统电话的年轻人并不能代表年轻人整体,那么电话抽样就会出现偏差。样本观察当中有许多陷阱,在实际执行时,要非常地小心[13];另外,在电话抽样时,往往要打将近3000通电话,才能得到一千个样本。因此对于总体的简单随机抽样“并不简单,也未必随机”。[14]

估计错误的误报或误解

如果一个研究小组希望知道300万人对指定题目的看法,一一询问是个不实际的做法。可是,如果这个小组随意抽出1000人作样本,这些人给予的回应便可代表那300万人的意愿。

这个置信区间可以被中心极限定理和其他数学的结果量化。它会被表达为一个在指定范围的估计值(较小组别的数字)的真实结果(较大组别)的概率。这是经常被统计调查引用的“正或负”数。这个置信区间的概率部分不是常常被提起,即使有被提起,它也会被假设为像95%的标准数。

这两个数字是有关的。如果一个问卷调查在95%的置信区间中,其估计误差为±5%;在99%的置信区间中,其估计误差为±6.6%。当置信区间为95%时是± %,那置信区间为99%时,就会变为± %。

当估计错误越少时,便需要越大的样本空间。像例如说置信区间为95.4%时,各种估计误差所需要的调查人数如下︰

  • ±1%需要10,000人。
  • ±2%需要2,500人。
  • ±3%需要1,111人。
  • ±4%需要625人。
  • ±5%需要400人。
  • ±10%需要100人。
  • ±20%需要25人。
  • ±25%需要16人。
  • ±50%需要4人。

很多人采用了这些数字,因为忽略了置信区间而以为这是100%肯定真实结果,忘了这是存有估计误差的,而这种看法在数学上是不正确的。

很多人可能不会发现说样本空间的随意性,是会造成十分重要的差异的。在日常的做法中,很多舆论调查也通过电话进行,而这种方法会在几方面歪曲样本空间,当中包括剔除了没有电话的人、重复计算了拥有多于一部电话的人等。非随机抽样会使估计误差变得不可靠。

非随机抽样使估计变得不可靠的一个例子是1936年美国总统选举前,《文学文摘》邮寄1,000万份问卷予其读者,回收230万份。他们预测共和党候选人阿尔夫·兰登会在531张选举人票中获得370张选票并胜过民主党候选人富兰克林·德拉诺·罗斯福

该次总统大选,阿尔夫·兰登实际上只获得8张选举人票,而富兰克林·德拉诺·罗斯福则在大选中大胜。一个说法认为,《文学文摘》的读者比美国人口拥有更多共和党人,故此他们更倾向于投票给阿尔夫·兰登。《文学文摘》的民调样本有明显的偏差。

在另一方面,由于不是所有人的意见也问到或他们从来亦未被访问,所以很多人都认为统计是不可靠的。不少人认为只透过调查数千人是不可能取得数百万人的意见,这也是不准确的。一个有完美公正的抽样和可信答案的调查在数学上被定义为误差范围,这是只取决于调查的人数。

可是,问卷调查通常只有一个误差范围。当一小群人的结果被报告时,误差范围便会较大,但这可能不太清楚,例如,一个1000人的问卷调查可能会包含100位来自指定种族或经济组别。聚焦组别得出的结果会比总体的不太可靠。如果整个样本空间的误差范围是4%,那么一个分组的误差范围便会是大约13%。

人口调查还会出现很多其他量度上的问题。以上提及的问题不只会发生在人口调查,还会发生在所有的统计实验。

更多资料︰舆论调查社会统计调查偏差样本

错误的因果关系

当一个统计测试展示A和B之间的关系时,通常也会有5种可能性︰

  1. A导致B。
  2. B导致A。
  3. A和B互相导致对方出现。
  4. A和B一起导致C。
  5. 观察得的关系纯属偶然。

第五个可能性可透过统计测试来量化,计算出来的概率与其可能发生的机会是一样大的。事实上,变量之间是没有关系的。可是,即使那个概率的可能性很少,其余四个可能性仍有机会发生。

以下以现实中可能会碰到的状况,来说明错误因果关系。如果今天有人说“在沙滩里购买雪糕的人越多,那么在沙滩里遇溺的人就越多,因此购买雪糕导致更多人溺水”,那也不会有多少人认真考虑这说法,因为显然地,就算在沙滩里购买雪糕的人数是与在沙滩里遇溺的人数有关的,也没有人会断言雪糕会导致遇溺,这是因为这两件事情明显地无关,而遇溺和购买雪糕清楚地与第三个因素,也就是沙滩上的人数有关;然而,这不表示类似的谬误就不会出现,这个谬误的一个例子,是证明接触化学品会导致癌症。很多时候人们会把“购买雪糕的人数”用“接触化学品X的人数”代替,以及把“溺水的人数”用“患上癌症的人数”代替。在这个情况,即使这样做没有真正的效果,那仍然有一个统计上的关联。

例如,如果某一地方对化学品站是“危险”(即使它不危险)的资产的看法减少,这会诱使更多低收入家庭搬到该地,即使那种化学品本身不危险亦然。如果低收入家庭较高收入家庭容易患上癌症(这可能是基于更差膳食和医疗技术欠佳等原因),然后患癌率上升的话,那这样就会导致错误的结论。在一些证明电源线的EMF(电磁场)和癌症的关联的研究中[15],这个情况真的发生了。[16]

其他的例子像是古人所谓的“贤士国之宝,美女国之咎:夏亡以妹喜,殷亡以妲己,周亡以褒姒。”《吴越春秋[note 1]这件事,但尽管可以观察到说“美女出现,之后朝代覆亡”,这不代表美女的出现,就是之后朝代覆亡的原因,要同时考虑“有其他的因素,如君王本身的人格特质,导致了美女的出现与之后朝代的覆亡”或者“美女的出现与之后朝代的覆亡之间的关系纯属偶然”等等各种可能性;还有一个例子就是看到死刑判决数越多的时候,谋杀犯罪率也越高,就断定死刑导致更多谋杀,但就算如此,有可能死刑和谋杀之间的关系,纯属偶然,或更可能地,谋杀增加导致更多死刑判决。

在构思甚佳的研究中,错误的因果关系的影响可透过随机分别分配一些人到“受试组”及“控制组”中来排除,研究人员可借由对受试组的人施加影响(例如进行治疗),不对控制组的人施加影响的方式,来得知真实的因果关系。在以上化学品X的例子中,研究人员应当要将受测者随机分成两组,让其中一组人暴露在化学品X中,并让另一组人不暴露在化学品X中,以将其他变因的可能性给降到最低。如果在这实验中,第一组人有较高的患癌率,由于研究员控制了实验对像有否暴露在化学品X中,他便知道没有第三个因素影响,进而可以断定化学品X会导致癌症;或在以上死刑的例子中,将国家随机分成两组,一组对谋杀有死刑,另一组对谋杀没有死刑,以查看死刑对谋杀的影响;可是,这样做实验是十分昂贵、不可行、不合法或完全不可能的。例如说机构审查委员会大多不会批准进行为了测试某物质的毒性而把人类暴露在危险物质当中的实验,这类实验明显的道德暗示会限制了研究员凭验经验地判断实验因果关系的能力。

零假设的证明

深挖数据

深挖数据是对数据挖掘的一种滥用。在深挖数据中,行为者在没有预先对需要检验的假设做出决定的状况下,检视大笔的资料,以寻找关联。由于在一般状况下,要建立两个变量间的关联所需的置信区间通常是95%(这表示观察到的关系,有95%的可能性不是随机的),因此在任意两组随机的变量间找到关联的概率依旧有5%。由于人们在深挖数据的时候,通常会检视大笔且有多个变量的资料,进而会检视更大量的变量对之故,因此在任何这类的研究中,几乎都一定能找到统计上看起来相关但可疑的结果。

当注意的是,深挖数据是找到可能假说的有效方法,但由此方法找到的假说,必须以其他的资料来检视,而不能用被用于深挖数据的原始资料来检视;而深挖数据所造成的误用,会在将发现的假说视为事实,而未做进一步确认的时候发生。

或曰:“你不能合理地用和指出某特定假说的资料相同的资料,来检验该项假说,对治此状况的方法很明确,就是一旦你有了一个假说,就要为你现在认为存在的效应,特别设计一项研究。一旦测试的结果是统计相关的,你就有了确实的证据。”[note 2][17]

数据操纵

数据操纵指的是选择性使用数据(可参见发表偏差)或甚至捏造数据的作为。

选择性使用数据的状况很多,最常见的例子就是选择那些模式符合研究者所偏好的假说的结果,而忽略掉其他那些和假说不合的结果。

一般而言,科学家会质疑不能被其他调查者重现的研究结果;然而,一些科学家会拒绝出版他们所用的数据和研究方法。[18]

数据操纵是统计分析诚实性上一个非常严重的问题;不过离群值、数据缺失和非正态性都会对统计分析的真确性,造成负面的影响,在分析开始前,研究数据本身并对其确实存在的问题进行修补是合理的。或曰:“在任何分散的图表上,都多少会有一些点,是偏离资料主体所形成的云的。这些点应当被剔除,以清楚呈现因果关系。”[note 3][19]

其他谬误

其他的谬误包括“拿苹果跟橘子比”[note 4]、误用平均数(像是例如说“男人和女人平均有一颗睾丸[note 5],前总统德怀特·艾森豪威尔对一半的美国人的智力不足平均水平的震惊)、“均值回归”(regression toward the mean)以及“垃圾进,垃圾出”等等;此外,一些统计数据就纯粹与议题无关

安斯库姆四重奏是一组虚构的数据,被用以显示简单描述统计(以及未经过数值分析的统计图的数值)的不足。

参见

注解

  1. ^ 白话翻译:“贤能的士人,是国家的珍宝,而美女则是国家的祸害。像例如说夏朝的灭亡,就是因为一个叫妹喜的美女造成的;商朝的灭亡,就是因为一个叫妲己的美女造成的;周朝的灭亡,就是因为一个叫褒姒的美女造成的。”
  2. ^ 原文:"You cannot legitimately test a hypothesis on the same data that first suggested that hypothesis. The remedy is clear. Once you have a hypothesis, design a study to search specifically for the effect you now think is there. If the result of this test is statistically significant, you have real evidence at last."
  3. ^ 原文:"[I]n any scatter diagram there will be some points more or less detached from the main part of the cloud: these points should be rejected only for cause."
  4. ^ 这是一个常见的比喻,用以指称拿两个顶多只是有点相关但本质不同、因而不应该相互比较的事物进行比较的行为。
  5. ^ 这是显而易见没有考虑总体分布特性所做出的平均值,经常被用以反讽无意义的统计数据,例如以平均收入、财富宣称人民生活富裕,却忽略贫富差距

参考资料

  1. ^ Spirer, Spirer & Jaffe 1998,chapters 7 & 8.
  2. ^ Spirer, Spirer & Jaffe 1998,chapter 3.
  3. ^ Spirer, Spirer & Jaffe 1998,chapter 4.
  4. ^ Adler, Robert; John Ewing; Peter Taylor. Citation statistics. Statistical Science. 2009, 24 (1): 1–14. doi:10.1214/09-STS285 . 
  5. ^ Spirer, Spirer & Jaffe 1998,chapter title.
  6. ^ Spirer, Spirer & Jaffe 1998,chapter 5.
  7. ^ 7.0 7.1 Weatherburn, Don, Uses and abuses of crime statistics (PDF), Crime and Justice Bulletin: Contemporary Issues in Crime and Justice (NSW Bureau of Crime Statistics and Research), November 2011, 153, ISBN 9781921824357, ISSN 1030-1046, 原始内容存档于June 21, 2014 
  8. ^ Krugman, Paul. Peddling prosperity: economic sense and nonsense in the age of diminished expectations . New York: W.W. Norton. 1994: 111. ISBN 0-393-03602-2. 
  9. ^ Spirer, Spirer & Jaffe 1998.
  10. ^ Silver, Nate. ‘Robopolls' Significantly More Favorable to Republicans Than Traditional Surveys. The New York Times. 28 October 2010 [2012-03-04]. (原始内容存档于2020-10-15). 
  11. ^ Lisa M. Schwartz, Steven Woloshin. On the prevention and treatment of exaggeration. Journal of General Internal Medicine. 2003-02-01, 18 (2): 153–154 [2018-04-02]. ISSN 0884-8734. doi:10.1046/j.1525-1497.2003.21216.x. (原始内容存档于2019-06-29) (英语). 
  12. ^ Moore & Notz 2006,第97页.
  13. ^ Moore & McCabe 2003,第252–254页.
  14. ^ Moore & Notz 2006,第53, Sample surveys in the real world页.
  15. ^ Gaia Vince. Large study links power lines to childhood cancer. New Scientist. 2005-06-03 [2017-06-16]. (原始内容存档于2014-08-16) (美国英语). 
  16. ^ John W. Farley. Power Lines and Cancer: Nothing to Fear. www.quackwatch.org. [2017-06-16]. (原始内容存档于2020-01-14). 
  17. ^ Moore & McCabe 2003,第466页.
  18. ^ Neylon, C. Scientists lead the push for open data sharing. Research Information (Europa Science). 2009, 41: 22–23. ISSN 1744-8026. 原始内容存档于December 3, 2013. 
  19. ^ Freedman, Pisani & Purves 1998,chapter 9: More about correlations, §3: Some exceptional cases