这张照片是我拍的
摘要:因果推断的基本问题在于无法将因果关系与相关性直接挂钩,换句话说:相关性并不证明因果关系。这个问题可以从实验和统计两个角度来理解。实验方法表明,问题在于我们无法同时观察到同一个事件在假设存在和不存在两种情况下的实际结果。统计方法则指出,这个问题部分源于将测试的假设视为彼此独立的错误。现代统计学更重视统计方法,不仅因为它揭示了问题的根源,还因为它提供了解决问题的潜在途径。确实,在测试多个假设时,我们通常会构建一个复合假设来覆盖整个解决方案空间。这种复合假设可以通过随机相关性适应任何数据集。此外,相关性完全是随机的可能性等于通过生成同样数量的随机假设来获得相同结果的概率。
前言:
因果推断的核心问题在于无法将因果关系等同于相关性;换句话说,相关性不能证明因果关系。这个问题可以从两个方面来看:实验和统计。实验方法表明,这个问题是因为我们无法同时观察到假设存在和不存在时的情况。从统计的角度来看,问题在于假设测试时错误地将它们视为互不相关的。
现代统计学更加注重统计方法,因为与实验方法不同,它还提供了一条解决问题的路径。确实,在测试许多假设时,会构建一个复合假设,该复合假设涵盖整个解决方案空间。因此,这种复合假设可以适应任何数据序列,从而产生一种并不意味着因果关系的相关性。
此外,这种相关性是随机的可能性等于从生成相同数量的随机假设中获得相同结果的概率。我们将看到,计算这个概率值的关键在于,将假设视为依赖于所有已测试过的假设。
假设为非独立性在统计分析中会有重要影响。
其实,我们每次随便采取的行动不仅毫无用处,反而增加了无意义关联出现的可能性。
因此,在这篇文章[1]中,我们强调了统计中有意识地行动的重要性。
此外,计算这种相关性是随机的可能性只有在知道所有先前的尝试时才有可能。实际上,计算这个概率是非常困难的,因为不仅要考虑我们自己的所有尝试,还要考虑所有其他人在这个任务上所做的尝试。确实,一个研究网络中的所有成员,他们都有相同的声誉,并且都在研究同一个问题,可以看作是一个人完成了所有这些尝试。
从实际角度来看,大多数时候这个参数往往被低估,因为要了解所有被测试的假设非常困难。
因此,计算相关性是偶然的概率变得相对,取决于我们所掌握的信息。
因果推断的根本问题
因果推断的基本问题指出,无法将因果关系与相关性直接挂钩,换句话说:相关性不能证明因果关系。从统计学角度讲,这种不确定性源于将被测试的假设当作彼此独立来看待的错误。当生成一系列假设时,形成了一个复合假设,这种复合假设倾向于适应任何数据序列,导致纯粹的随机关联。
比如,你可以在网上找到一些看似不相关的事件之间的有趣联系,这些联系显然是随机的。这些例子常常被用来展示因果推断中的基本问题。但在展示这些数据时,往往会忽略一个问题:在我找到一个相关性之前,我考虑了多少个假设。
这是一条至关重要的信息,因为如果我有一个包含大量事件的数据库,对于任何数据系列,总能找到一个与我的数据高度相关的假设。因此,如果我生成大量的随机假设,我几乎肯定会找到一个与我研究的数据相关的假设。因此,以大约100%的概率随机获得相同结果,大约100%的情况下,相关性并不意味着存在因果关系。
另一方面,如果我们生成一个与数据很好地匹配的假设,在这种情况下,几乎可以确定这种相关性也是因果关系。单凭一个随机假设就能得到良好相关性的概率几乎为零。因此,几乎可以确定在这个情况下,相关性也意味着因果关系。
这个结果同样直观,因为只有了解生成这些待分析数据的过程时,才有可能仅凭一次尝试就获得良好的相关性。而正是这种知识也设定了相关性之间的因果关系的限制。
下图总结了基本概念,正确的方法是将假设视为非独立。
计算这种相关性为随机的可能性
要正确计算随机获得同等或更好结果的概率,我们需要改变我们的统计方法。统计中常用的方法是假设一种方法产生的数据与其他方法产生的数据独立。这种处理方法看似唯一,但正如我们接下来要展示的悖论所示,它会导致一个不合逻辑的结果,而这个结果可以通过考虑数据之间的关联来解决。
我们认为设想拥有一台具有巨大计算能力的计算机,用于开发我们想要研究的现象的假设。计算机的工作原理如下:它生成一个随机生成的假设,然后进行一次统计检验。此时,我们问自己以下问题:是否有一种有用的统计检验方法来评估由计算机生成的假设结果?
如果我们回答“是”,我们会得到一个不合逻辑的结论,因为我们的计算机总能通过生成大量的随机假设,找到一个通过统计测试的假设。这样,我们得出了一个荒谬的结论,即可以通过随机的方式创造知识,只要有一台非常强大的计算机和一个统计测试,就能理解任何现象。
如果我们回答否,我们会得到一个逻辑上不一致的结果,这意味着所有的假设都无法被评估。在实际情况中,不同假设的结果彼此之间没有区别。
我们如何解决这个逻辑难题呢?唯一的方法是不导致不合逻辑的情况来回答这个问题。考虑不同方法之间相互依赖的结果,满足这一条件的函数是随机得到一个或更好结果的概率。确实,计算这种概率需要对所有相关动作进行随机模拟。随机尝试增加动作数量,从而提高随机得到更好结果的概率。
因此,这样做是无用的,因此当你使用此参数时,可以评估数据,而无法通过随机生成假设来创造任何新知识。
假设非独立性是正确计算相关性为随机的可能性之一。
随机得到一个或更好结果的概率满足这个条件。
假设之间的相互依赖在统计学领域有着深远的影响,我们将在下一节详细讨论这个话题。
假设不具备独立性会带来什么后果
在计算相关性是否为因果的概率时,假设这些测试假设相互依赖。这样做会导致统计学中的三个基本结果。
第一个基本后果是这一事实:假设的非独立性。我们每次随机的行为都会增加一些随机关联性发生的可能性。
我们需要分析一个代表只能有两种结果的事件的10个预测的数据。这10个预测分为8次成功和2次失败。为了计算随机获得同等或更好结果的概率,我们用二项式分布计算出5.5%的概率。如果我们之前测试了另一种假设,做了10个其他预测,其中分为5次成功和5次失败,那么我们的结果不确定性会改变。在这种情况下,我们需要计算通过进行两个由10次预测组成的随机尝试,至少得到8次成功的概率。在这种情况下,概率变成了10.6%,也就是说,首先测试一个随机假设几乎使第二个假设与随机相关性的概率翻了一番。因此,增加随机假设的数量会增加我们用真实假设进行的预测数量,以确保相关性不是巧合的概率更低。
第二个主要结果就是,我们每个人以及与我们相似的人的每一次随机行为,都会增加这种关联性是随机的几率。
通过“等效的人”我们指与我们名声相当的人,因此他们的数据会被同等看待。
示例:10人参与一个项目,该项目旨在开发能够预测只有两种结果的事件的算法。一个不参与项目但了解所有参与者尝试的外部人士评估获得的统计资料。所有参与者都做了100次预测,其中9个人的准确率为50%,有一个人的准确率为65%。65%的成功率是由于随机相关性的概率,是通过计算在进行10次随机尝试,每次尝试中做100次预测的情况下,获得至少65次成功的结果的概率来得出的。按这种方式计算出的概率是16%,如果他是唯一一个参与项目的人,概率将变为0.18%,比之前大约低了100倍。
假设的不独立性带来的第三个重要结果:计算相关性是随机的可能性会随我们所掌握的信息而有所不同。
示例:10位参与者开发一个项目,该项目旨在开发一种能够预测仅有两种可能结果(成功或失败)的事件的算法。在这种情况下,参与者互不认识,并认为自己是唯一参与该项目的人。所有参与者各做100次预测,其中9人有50%的成功率,1人有65%的成功率。获得65%成功率的参与者独立计算这种相关性纯粹是巧合的概率。由于不知道其他人也在参与项目,他们计算了仅进行一次随机尝试,即100次预测,就能获得不少于65次成功的概率,得出的概率为0.18%。一个知情的外部人士,了解所有参与者尝试的细节,计算了在10次随机尝试中,每次进行100次预测,某个参与者能获得至少65次成功是随机相关性的概率。利用更多信息计算出的概率(16%)比参与者计算出的概率(0.18%)更准确。因此,信息较少的参与者低估了这种随机相关性的概率。
假设的非独立性导致的第一个和第二个基本后果可以通过强调行动的非随机性来进行重新定义。
假设的非独立性带来了第一个基本后果:我们每次非随机的行为总是意味着相关性不太可能是随机的。
第二个基本后果是假设的非独立性:因此,我们以及其他与我们相同的人的每次非随机行为,总是会减少这种相关性是随机的可能性。
怎样正确地做统计假设检验
在即将正确执行统计假设检验时,值得注意的是,假设的非独立性既可以被视为极其显而易见,也可以被视为极其创新。确实,考虑所有已测试的假设,显而易见的原因是运行大量随机假设,最终总有一些假设会很好地拟合数据。另一方面,考虑之前的假设代表了评估假设的一场革命。事实上,从这个角度来看,仅仅知道预测假设的知识并不能定义它的实际复杂性。因此,在统计假设检验中,当 p 值 [3][4] 作为拒绝零假设的阈值时,仅根据参与预测的假设来计算,这意味着我们低估了假设的实际复杂性。因此,这样计算的 p 值是错误的,从而导致了假设的错误评估结果。因此,这种系统性错误,在执行假设检验过程中,被认为是导致大量无法再现结果 [5, 6] 的原因。
考虑到这些因素,可以理解评估一个统计结果可能非常困难,因为有些信息可能被隐藏。例如,我们必须报告用于预测的数学公式,但不必报告所有先前失败的尝试。不过,这些信息对于评估假设来说非常重要,因为它们是构成假设的一部分。确实,如果我们测试了10个假设,我们只需用这十个假设来插值数据,并选择通过选定评估测试的那个假设。
这个问题还取决于这种统计软件越来越普及的应用,这些软件能够快速运行大量的不同类型的数学模型。
因此,存在通过执行多种分析来“玩”此软件的风险,而这最终可能会导致偶然的相关性。因此,评估统计结果是科学研究中的一大挑战。
不幸的是,这是一个难以解决的问题,因为正如提到的,写文章时总有一些信息会被隐藏起来。最简单的解决方案是采用更选择性的评估参数,这意味着在实践中,通过开发随机假设来通过评估测试变得非常困难。然而,这种方法有一个大缺点:通过这种方式行动存在丢弃正确假设的风险,因此无法适用于所有研究领域。例如,在金融领域,由于市场可能存在的低效率[7]可以被观察到,而且这种低效率非常小,采用非常严格的评估方法意味着几乎所有的假设都将被抛弃。
结论
在这篇文章中,我们从统计的角度分析了因果关系推断的基本问题。从这个角度来看,问题在于将所有测试的假设彼此独立对待。这样做是不对的,因为在生成一系列假设时,我们实际上形成了一个复合假设,这个复合假设会趋向于适应,从而使我们的每组数据之间产生随机相关性。
人们认为这是导致科学结果无法重现的原因。
此外,计算能力的增强加速了假设的形成,无意中形成了复杂的假设组合,可能导致随机的联系。
相关性是随机的可能性是通过计算随机得到同样或更好结果的概率来获得的。只有全面了解所有测试的假设,才能正确计算,然而,获取这些信息通常很困难。
因此,在现代统计学中,认为重要的是培养这样的意识:冲动的、非理性的行为促使我们发展并测试大量假设,这会导致难以发现的随机关联的产生。
参考文献:
Berdondini, Andrea, “统计学:意识的科学”(2021年8月30日发布)。详见SSRN:https://ssrn.com/abstract=3914134。
[2] Holland, P. W. (1986) — 统计与因果推论。美国统计协会期刊,第81卷第396期,945–960。
[3] Hung, H.M.J., O’Neill, R.T., Bauer, P., & Kohne, K. (1997). “当备择假设为真时,p值的表现。”《生物统计学》,53(1),11–22。
[4] Harlow, L.L., Mulaik, S.A., & Steiger, J.H. (1997). “在没有显著性检验的情况下?”心理方法, 2(4), 315–328.
[5] Munafò, M., Nosek, B., Bishop, D. et al. “A manifesto for reproducible science”. Nat Hum Behav 1, 0021 (2017). https://doi.org/10.1038/s41562-016-0021.
[6] Ioannidis, J. P. A. “为什么大多数已发表的研究发现是错误的?” PLoS Med. 2, e124 (2005).
[7] Black, F. (1971) “随机游走与投资组合管理策略”,《Financial Analyst Journal》,27,1971,16–22