哲学（二）_数学联邦政治世界观

2.2.2 统计理论

对于目前的关注点来说，重要的一点是，概率演算的每一种认知解释都有其自己的一套统计基础程序。总体而言，认知概率与贝叶斯统计最自然地相关，贝叶斯统计是统计方法的第二大理论（Press 2002，Berger 2006，Gelman et al 2013）。贝叶斯统计的关键特征直接源于认知解释：在这种解释下，可以将概率分配给统计假设，并将该概率（理解为我们对假设的相信程度的表达）与事件的概率相关联。贝叶斯统计使我们能够表达我们对统计假设的认知态度，无论是逻辑假设、决策理论还是信念，在数据的影响下如何变化。

为了说明贝叶斯统计中概率的认知概念，我们简单地回到品茶女士的例子。

认知概率

和之前一样，我们将零假设表示为女士随机猜测

小时

，使得分布

磷

小时

给出女士做出的任何猜测的概率为 1/2。另一种选择

小时

′

是这位女士的表现比一枚公平的硬币还要好。更准确地说，我们可以规定分布

磷

小时

′

给出正确猜测的概率为 3/4。乍一看，我们可能会觉得这位品茶女士不太可能有特殊的品茶能力。为了表达这一点，我们假设她拥有这些能力的概率只有她不具备这些能力的一半：

磷

（

小时

′

）

和

磷

（

小时

）

。现在，将数学细节留给第 4.1 节，在收到她正确猜出所有五个杯子的数据后，我们对这位女士特殊能力的新信念已经完全扭转了。我们现在认为这位女士拥有特殊能力的可能性大约是她只是随机猜测者的四倍：

磷

（

小时

′

）

243

307

≈

和

磷

（

小时

）

≈

。

最重要的信息是，贝叶斯方法允许我们以概率分配的方式表达我们对统计假设的认知态度，并且数据以受监管的方式影响这种认知态度。

应该强调的是，贝叶斯统计并不是概率认知概念的唯一使用者。事实上，频率论者对统计假设概率的理解似乎是荒谬的。但完全有可能将事件的概率或样本空间中的元素视为认知性的，完全独立于所使用的统计方法。正如下一节中进一步解释的，经典统计学的一些哲学发展采用了认知概率，最显着的是基准概率（Fisher 1955 和 1956；另见 Seidenfeld 1992 和 Zabell 1992）、似然论（Hacking 1965、Edwards 1972、Royall 1997）和证据概率（Kyburg 1961），或以其他方式将经典统计程序与推理和支持联系起来。在所有这些发展中，样本空间上的概率和函数都是从认知角度来解读的，即作为证据强度、支持程度或类似的表达。

3. 经典统计

可以归入经典统计学的程序集合是巨大且多方面的。总的来说，经典统计过程的共同特征是它们仅依赖于样本空间上的概率分配。如前所述，这样做的一个重要动机是这些概率可以解释为频率，频率统计术语就源于此。经典统计过程通常由样本空间上的某个函数来定义，其中该函数通常完全依赖于所考虑的假设分配给样本空间的分布。对于可能获得的样本范围，该函数然后指向一个假设，或者可能指向一组假设，因为在某种意义上最适合该样本。或者，相反，它会丢弃使样本变得不太可能的候选假设。

总之，经典程序利用数据来缩小一组假设的范围。用这样的一般术语来说，很明显经典程序提供了对归纳问题的回应。这些数据用于从关于目标系统的弱一般陈述到更强的陈述，即从一组候选假设到其中的一个子集。统计学哲学的核心关注点是我们如何理解这些程序，以及我们如何证明它们的合理性。请注意，经典统计的模式类似于消除归纳法：根据数据，我们丢弃一些候选假设。事实上，经典统计经常被认为与波普尔的证伪主义有松散的联系，但这种联系有些误导。在经典程序中，当统计假设使观察到的样本变得太不可能时，统计假设就会被丢弃，这当然不同于丢弃认为观察到的样本不可能的假设。

3.1 经典统计基础知识

前面已经提供了一个简短的例子和经典统计过程的粗略概述。现在以 Barnett (1999) 作为主要来源，对这些内容进行了更详细的说明。以下重点关注两个非常核心的过程：假设检验和估计。第一个与两个统计假设的比较有关，并引用了内曼和皮尔逊提出的理论。第二个涉及从一组假设中选择一个假设，并采用费舍尔设计的程序。虽然这些数字与经典统计数据正确相关，但它们的哲学观点却存在分歧。我们下面再回到这一点。

3.1.1 假设检验

前面已经简要讨论了费舍尔原假设检验的程序。让

小时

是感兴趣的假设，为了简单起见，让

是有限样本空间。假设

小时

在样本空间上施加分布，表示为

磷

小时

。每一点

空间中代表可能的数据样本。我们现在定义一个函数

在样本空间上，通过标记样本来确定何时拒绝原假设

导致拒绝

（

）

，如下：

（

）

{

如果

磷

小时

（

）

＜

否则。

请注意拒绝区域的定义，

右

{

：

（

）

}

，取决于假设假设下数据的概率，

磷

小时

（

）

。该表达式通常称为样本假设的可能性

。我们可以设置阈值

为合适值的可能性，使得拒绝区域的总概率

右

低于给定的误差水平，例如，

磷

小时

（

右

）

＜

0.05

。

很快就发现，两个竞争假设之间的比较信息量要大得多，特别是因为如果零假设实际上是错误的，那么错误率就很难说。 Neyman 和 Pearson（1928、1933 和 1967）设计了所谓的似然比检验，该检验比较两个相互竞争的假设的可能性。让

小时

和

小时

′

分别为原假设和备择假设。我们可以通过以下测试函数来比较这些假设

在样本空间上：

（

）

{

如果

磷

小时

′

（

）

磷

小时

（

）

否则，

在哪里

磷

小时

和

磷

小时

′

是由统计假设确定的样本空间上的概率分布

小时

和

小时

′

分别。如果

（

）

我们决定拒绝原假设

小时

，否则我们接受

小时

暂时忽略

小时

′

。

接受或拒绝假设的决定与所谓的检验的重要性和功效有关。根据原假设，显着性是概率

小时

，获得导致我们错误地拒绝这一假设的数据

小时

：

意义

磷

小时

（

右

）

（

）

磷

小时

（

）

概率

也称为 I 型错误，通常表示为显着性或 p 值。根据备择假设，功效就是概率

小时

′

，获取使我们正确拒绝零假设的数据

小时

：

力量

磷

小时

′

（

）

（

）

磷

小时

′

（

）

。

概率

称为错误地接受原假设的 II 类错误。最佳测试是最小化两种错误的测试

和

。在他们的基本引理中，内曼和皮尔逊证明了该决策对于且仅对于似然比检验函数具有最佳意义和功效

。也就是说，最佳测试仅取决于比率的阈值

磷

小时

′

（

）

磷

小时

（

）

。

品茶女士的例子可以轻松说明似然比检验。

内曼-皮尔逊检验

在原假设旁边

小时

这位女士是随机猜测的，我们现在考虑替代假设

小时

′

她有机会

正确猜测茶和牛奶的顺序。样品

是记录正确和错误猜测的二元五元组。为了确定两个假设的可能性，从而确定每个样本的检验函数的值，我们只需要知道所谓的充分统计量，在这种情况下是正确猜测的数量

独立于顺序。表示女士所进行的特定猜测序列

正确的猜测出

和

，我们有

磷

小时

（

）

和

磷

小时

′

（

）

，使得似然比变为

。如果我们要求显着性低于5%，那么可以计算出只有具有显着性的样本

可以包含在拒绝区域中。据此我们可以设定截止点

这样

≥

和

，例如，

。

5% 显着性阈值是统计惯例的一部分，并且通常在考虑功效之前就已确定。请注意，统计过程将预期错误率与拒绝或接受的决定相关联。尤其是内曼以严格的行为主义方式解释这一点而闻名。关于这一点的进一步讨论，请参见第 3.2.2 节。

（本章完）

哲学（二）

相关推荐

缪斯乐园

陶者碎文录

异兽笔记

久柉神识述世间百态

翔霖：旧爱拾起

余妄—春篇