3.1.2 估算
在本节中,我们简要考虑由 Fisher(1956)首先设计的最大似然参数估计。虽然在前面我们使用了有限的样本空间,但现在我们使用具有无限多个可能样本的空间。因此,样本空间上的概率分布可以用所谓的密度函数来表示,表示为
磷
(
s
)
d
s
,从技术上讲,它表示分配给无限小补丁的无限小概率
d
s
围绕点
s
。该概率密度的工作原理与普通概率函数非常相似。
最大似然估计(简称 MLE)是一种用于确定一组假设中最佳假设的工具,通常称为统计模型。让
中号
=
{
小时
θ
:
θ
ε
θ
}
是模型,由参数标记
θ
, 让
S
是样本空间,并且
磷
θ
相关的分布
小时
θ
。然后定义最大似然估计器
^
θ
作为样本空间上的函数:
^
θ
(
s
)
=
{
θ
:
∀
小时
θ
′
(
磷
θ
′
(
s
)
d
s
≤
磷
θ
(
s
)
d
s
)
}
。
因此,估计器是一组值(通常是单个值)
θ
其中的可能性
小时
θ
关于数据
s
是最大的。我们用以下表示的相关最佳假设
小时
^
θ
。这又可以用品茶女士来说明。
最大似然估计
品茶女士案例的自然统计模型由假设组成
小时
θ
对于这位女士可能具有的所有可能的准确性水平,
θ
ε
[
0
,
1
]
。现在猜对的数量
n
以及猜测的总数
t
是足够的统计数据:样本的概率仅取决于这些数字。对于任何特定的序列
s
n
/
t
的
t
猜测与
n
成功,相关的可能性
小时
θ
是
磷
θ
(
s
n
/
t
)
=
θ
n
(
1
-
θ
)
t
-
n
。
对于任意次数的试验
t
最大似然估计器则变为
^
θ
=
n
/
t
。
我们假设为这位女士提供的杯子数量固定为
t
这样样本空间又是有限的。最后请注意,
^
θ
是使数据最可能的假设,而不是根据数据最可能的假设。
我们可能会对估计函数提出几个要求。一是估计量必须一致。这意味着对于较大的样本,估计函数
^
θ
收敛到与分布相关的参数值
θ
⋆
数据生成系统的参数,或简称为真实参数值。另一个要求是估计器必须是无偏的,这意味着估计器的期望值与真实参数值之间没有差异。 MLE 过程当然不是唯一用于根据统计数据估计感兴趣参数值的过程。一种更简单的技术是特定目标函数的最小化,例如最小化统计假设的预测与数据点之间的距离的平方和,也称为最小二乘法。 Wald (1950) 首先提出了一个更普遍的观点,通过用损失函数来衡量假设的预测与实际数据之间的差异。平方和和似然度可以作为该损失的表达式。
通常,估计与所谓的置信区间相关(参见 Cumming 2012)。为了便于说明,假设
θ
由实数组成并且每个样本
s
被贴上独特的标签
^
θ
(
s
)
。我们定义集合
右
τ
=
{
s
:
^
θ
(
s
)
=
τ
}
,估计函数具有值的样本集
τ
。我们现在可以整理样本空间中的一个区域,其中估计函数
^
θ
离目标不太远,即离真实值不太远
θ
⋆
的参数。例如,
C
⋆
Δ
=
{
右
τ
:
τ
ε
[
θ
⋆
-
Δ
,
θ
⋆
+
Δ
]
}
。
所以这个集合是所有集合的并集
右
τ
为此
τ
ε
[
θ
⋆
-
Δ
,
θ
⋆
+
Δ
]
。现在我们可以设置这个区域,使其覆盖样本空间的很大一部分,比如说
1
-
α
,通过真实分布测量
磷
θ
⋆
。我们选择
Δ
这样
磷
θ
⋆
(
C
⋆
Δ
)
=
∫
θ
⋆
+
Δ
θ
⋆
-
Δ
磷
θ
⋆
(
右
τ
)
d
τ
=
1
-
α
。
统计民间传说通常设定
α
值 5%。相对于这个数字,大小
Δ
说明了估计的质量。如果我们一遍又一遍地重复样本的收集,我们会找到估计器
^
θ
在一个范围内
Δ
真实价值
θ
⋆
在所有样品中的95%中。这使我们定义了对称的95%置信区间:
C
我
95
=
[
^
θ
-
Δ
,
^
θ
+
Δ
]
解释与上述中的解释相同:通过重复抽样,我们在内部找到真实值
Δ
所有样品中有95%的估计值。
至关重要的是,我们可以对事件提供无问题的经常主义解释
^
θ
ε
[
θ
⋆
-
Δ
,
θ
⋆
+
Δ
]
,在真实分布的假设下。在一系列估计中,估计器的时间比例
^
θ
距离更远
θ
⋆
比
Δ
因此,在此间隔之外,将倾向于5%。该区域越小,估计值越可靠。请注意,此间隔是根据未知的真实值定义的
θ
⋆
。但是,特别是如果间隔的大小
2
Δ
独立于真实参数
θ
⋆
,很容易将95%的置信区间与真实值所在范围内的频率相关联
Δ
在估计周围
^
θ
。在下面,我们回到这种解释。
当然,还有更多估计各种统计目标的程序,并且估计质量还有更多表达式(例如,引导,请参见Efron和Tibshirani 1993)。估算理论通常配备了估计器特定情况标准的丰富目录,这反映了估计器有助于实现的认知和务实目标。但是,估计函数本身并不列出信念的准则,重要的是,置信区间也不是。
3.2 经典统计问题
经典统计在统计哲学中广泛讨论。概述了经典方法的两个问题,它与信念的问题构成了问题,以及它违反了所谓的可能性原则的事实。可以看到许多更具体的问题是从这些一般问题中得出的。
3.2.1 与信念的接口
考虑Neyman和Pearson的似然比测试。如前所述,假设零假设实际上是正确的,则测试的显着性或p值是一个错误率,如果重复数据收集和测试,则会显示出错误率。值得注意的是,p值没有告诉我们关于零假设的真相的可能性。但是,许多科学家确实以这种方式使用了假设检验,并且关于什么可以和不能源自p值得出的辩论(参见Berger and Sellke 1987,Casella and Casella and Berger 1987,Cohen 1994; Wagenmakers 2007,Ziliak和McCloskey 2008,Spanos 2007,Greco 2011,Sprenger即将出版-A)。毕竟,测试导致建议要么拒绝假设或接受它,而且从概念上讲,这似乎非常接近对真理或虚假的判决。
尽管P值的证据价值是有争议的,但许多人承认,根据假设的数据概率不能直接使用,以表明该假设是多么可信(参见Gillies 1971,Spielman 1974和1978)。这种用法陷入了所谓的基本谬误。茶品尝女士的例子再次具有启发性。
基本谬误
想象一下,我们旅行该国与大量女士一起进行茶品尝测试,并且我们找到了一个特定的女士,他猜想了所有五个杯子。我们应该得出结论,那位女士有品尝茶的特殊才能?问题在于,这取决于测试人员中有多少女士实际上具有特殊的才能。如果能力非常罕见,那么将五个正确的猜测归结为偶然的情况更具吸引力。相比之下,想象所有女士都进入了彩票。就像一位女士正确地猜测所有杯子一样,请考虑一位赢得彩票奖品之一的女士。当然,赢得奖品是非常不可能的,除非一个与博彩公司的Cahoots一起,即具有特殊的茶品尝能力的类似物。但是,可以肯定的是,如果一位女士赢得了彩票,这不是一个充分的理由来得出结论,她一定犯了欺诈并呼吁被捕。同样,如果一位女士正确地猜到了所有杯子,我们不能简单地得出她的特殊能力。
如果我们将参数的估计视为关于相信什么的直接建议,那么就会发生同样的问题,正如Good的一个例子(1983年,第57页)所表明的那样,这在茶品尝环境中在这里提出。观察了五个正确的猜测之后,我们有
^
θ
=
1
作为最大似然估计器。但是,从长远来看,这位女士将100%准确。在讨论林德利的悖论(Lindley 1957,Spanos 2013,Sprenger即将来临的B)中,估计和信念保持复杂关系的观点也提出了。简而言之,将经典统计程序的结果转变为信念似乎是错误的。
这是一个争论的问题,是否可以归咎于古典统计数据。最初,尼曼(Neyman)强调,他们的程序不能被视为推论,或者像其他与假设的认知状况有关的方式。他们自己的统计哲学是严格的行为主义者(参见Neyman 1957),可以说,只有科学家放弃了他们对经典统计的缺点使用错误的使用,问题就会消失。正如前述所述,我们可以无争议地将错误率与经典程序相关联,因此可以与这些程序进行的决策相关联。因此,对经典统计的基于行为和错误的理解似乎还不错。然而,统计学家和哲学家都认为,对古典统计的认识论是可能的,实际上是可取的(例如,Fisher 1955,Royall 1997)。因此,许多人试图重新解释或发展理论,以使其与科学家的认识论统计实践保持一致(参见Mayo 1996,Mayo和Spanos 2011,Spanos 2013b)。
3.2.2 证据的性质
有时会批评假设检验和估计,因为它们的结果通常取决于整个样本空间中的概率函数,而不仅仅取决于观察到的样品的概率。也就是说,接受或拒绝零假设的决定不仅取决于根据各种假设实际观察到的概率,而且还取决于可能观察到的事件的概率分配,但没有观察到。这个问题的众所周知的例证涉及所谓的可选停止(Robbins 1952,Roberts 1967,Kadane等,1996,Mayo 1996,Howson and Urbach 2006)。
此处为Neyman和Pearson的似然比测试提供了可选的停止,但是对于Fisher的零假设检验以及确定估计器和置信区间,可以运行类似的故事。
可选停止
想象一下,两位研究人员都在测试同一位女士的能力,可以确定牛奶和茶中杯中倒入杯子的顺序。他们俩都享有无效的假设,即她是随机猜测的,有可能
1
/
2
,反对她正确猜测的选择
3
/
4
。两者中更勤奋的研究人员决定记录六项试验。另一方面,研究人员最多记录了最多六次试验,但决定停止记录该女士错误地猜测的第一次试验。现在,想象一下,实际上,这位女士正确地猜到了除最后一个杯子以外的所有杯子。然后,两位研究人员都具有五个成功和一个失败的完全相同的数据,而这些数据的可能性也相同。但是,尽管勤奋的研究人员不能拒绝零假设,但不耐烦的研究人员可以。
这可能使我们成为特殊的:统计数据应该告诉我们数据对假设的客观影响,但是在这里,影响似乎取决于研究人员的抽样计划,而不仅仅是数据本身。正如第3.2.3节中进一步解释的那样,两个研究人员的结果因未观察到的样本的差异而有所不同。
有些人会发现这种依赖性是不可接受的:研究人员的意图和计划与数据的证据价值无关。但是其他人认为这是正确的。他们坚持认为,数据对假设的影响应取决于获得的停止规则或协议,而不仅仅是假设对这些数据的可能性(例如Mayo 1996)。激励的直觉是,维护停止规则的无关紧要使得不可能在数据收集中禁止机会主义选择。实际上,古典统计的捍卫者将表现为那些保持可选停止的人无关紧要。他们认为,通过例如持续的实验,它为已定局结论的可能性打开了可能性:我们只有在达到首选结果时才决定停止实验。但是,如Kadane等人所示。 (1996年)并在Steele(2012)中进一步讨论了,只要我们确保使用正确的贝叶斯程序,就不能保证持久实验是有效的。
关于可选停止的辩论最终与数据的适当证据影响有关。在这场更广泛的辩论中的一个核心关注点是所谓的似然原则(参见《 1965年黑客》和《爱德华兹》,1972年)。该原则认为,观察到的数据的假设的可能性完全固定了这些数据对假设的证据影响。在Berger and Wolpert(1984)的配方中,可能性原理指出了两个样本
s
和
s
′
明显相当于何时
磷
我
(
s
)
=
k
磷
我
(
s
′
)
对于所有假设
小时
我
考虑到一定的不变
k
。著名的是,Birnbaum(1962)提供了更基本假设的原则的证明。此证明依赖于条件性的假设。假设我们首先扔硬币,发现它降落在头上,然后进行与此结果相关的实验,以记录样本
s
。将此与我们进行实验并找到的情况进行比较
s
直接,无需随机选择它。条件性原则指出,第二个样本与第一个样本具有相同的证据影响:我们可以发现但没有发现的东西对样本的证据价值没有影响。最近,Mayo(2010)对Birnbaum的可能性原则引发了问题。
上面概述的经典观点需要违反这一点:根据其他样本的可能性,观察到的数据的影响可能不同,因为在确定接受和拒绝区域时,其他样本在确定其他样本时会发挥作用。另一方面,第4节中讨论的贝叶斯程序坚持了可能性原则:在确定假设的后验分布时,只有先验和观察到的数据问题的可能性。在有关可选停止的辩论以及在古典统计和贝叶斯统计之间的许多其他辩论中,可能性原则是焦点。
数学联邦政治世界观提示您:看后求收藏(笔尖小说网http://www.bjxsw.cc),接着再看更方便。