4.2.2先验的确定
目前,假设我们可以将假设的概率解释为认知不确定性的表达。那么我们如何确定先验概率呢?也许我们已经对模型中的假设有了直观的判断,从而可以在此基础上确定先验概率。否则我们可能会有额外的标准来选择先验。然而,确定先验的程序存在几个严重的问题。
首先考虑进行贝叶斯分析的科学家自己提供先验概率的想法。这一想法的一个明显问题是,科学家的意见可能不够精确,无法确定完整的先验分布。假设科学家可以将她的观点转化为模型上的单个实值函数似乎并不现实,尤其是当模型本身由假设的连续体组成时。但更紧迫的问题是,不同的科学家会提供不同的先验分布,而这些不同的先验分布会导致不同的统计结果。换句话说,贝叶斯统计推断将不可避免的主观成分引入科学方法中。
统计结果取决于科学家的初步意见是一回事。但科学家可能对这些假设没有任何意见。那么她应该如何为假设分配先验概率呢?院长必须表达她对这些假设的无知。表达这种无知的主要思想通常是冷漠原则:无知意味着我们对任何一对假设都漠不关心。对于有限数量的假设,无差异意味着每个假设得到相同的概率。对于假设的连续体,无差异意味着概率密度函数必须是均匀的。
然而,应用冷漠原则有不同的方法,因此可以视为无知表现的假设有不同的概率分布。伯特兰悖论很好地说明了这一见解。
伯特兰悖论
考虑围绕等边三角形画一个圆,现在想象将一根长度超过圆直径的织针扔到圆上。针位于圆内的截面比等边三角形的边长的概率是多少?为了确定答案,我们需要参数化针的投掷方式,确定参数值的子集,其中包含的部分确实比三角形的边长,并表达我们对针的准确投掷的无知参数的概率分布,以便可以导出所述事件的概率。问题是我们可以提供多种方法来参数化针如何落在圆圈中。如果我们使用针与圆在交点处的切线形成的角度,那么如果角度介于
60
∘
和
120
∘
如果我们假设我们的无知是通过这些角度上的均匀分布来表示的,其范围为
0
∘
到
180
∘
,那么事件发生的概率为
1
/
3
然而,我们也可以参数化不同的针着陆方式,即针到圆心的最短距离。距离上的均匀概率将导致概率
1
/
2
。
Jaynes(1973和2003)对这个谜题进行了非常有洞察力的讨论,并认为可以通过依赖问题在某些变换下的不变性来解决它。但目前的普遍信息是,冷漠原则不会导致先验的独特选择。问题不在于对参数的无知很难用这些值的概率分布来表达。而是在某些情况下,我们甚至不知道该用什么参数来表达我们的无知。
在某种程度上,贝叶斯分析的主观性问题可以通过对科学理论采取不同的态度并放弃绝对客观性的理想来解决。事实上,有些人会认为统计方法适应科学家之间的意见差异是正确的。然而,如果先验分布表达的是无知而不是意见,那么这种回答就没有切中要害:似乎更难捍卫源于不同表达无知方式的意见分歧的合理性。现在,基于所谓的收敛结果,对于客观性的担忧也有了更积极的答案(例如 Blackwell 和 Dubins 1962 以及 Gaifman 和 Snir 1982)。事实证明,先验选择的影响随着数据的积累而减弱,并且在极限情况下,后验分布将收敛到一组(可能是单个)最佳假设,由采样数据确定,因此完全独立于先验分布然而,在短期和中期,主观优先选择的影响仍然存在。
总而言之,贝叶斯统计对主观输入敏感仍然存在问题。经典统计程序不可否认的优点是它们不需要任何此类输入,尽管可以说经典程序反过来对样本空间的选择很敏感(Lindley 2000)。对此,贝叶斯统计学家指出了能够将初步意见纳入统计分析的优势。
4.3 对批评的回应
贝叶斯统计哲学为上述问题提供了广泛的答案。一些贝叶斯主义者硬着头皮捍卫贝叶斯方法本质上的主观特征。其他人试图通过提供确定先验概率的客观动机手段或通过强调贝叶斯形式主义本身的客观特征来补救或补偿主观性。
4.3.1 严格但基于经验的优势主义
关于贝叶斯统计的一种非常有影响力的观点认可分析的主观性(例如,Goldstein 2006,Kadane 2011)。所谓的个人主义者或严格的主观主义者认为,统计方法不提供任何客观指导,指出任何形式的知识的根本主观来源,这是正确的。因此,关于先验分布的解释和选择的问题至少部分地得到了解决:贝叶斯统计学家可以随意选择她的先验,并且它们是她信念的表达。然而,值得强调的是,贝叶斯统计的主观主义观点并不意味着来自经验事实的所有约束都可以被忽视。没有人否认,如果您有更多的知识对模型或先验施加约束,那么必须适应这些约束。例如,在下一次统计推断中,今天的后验概率可以用作明天的先验概率。关键在于,这种约束关系到信念的合理性,而不是统计推断本身的一致性。
主观主义观点在那些以务实的方式解释概率分配的人中最为突出,并通过上述荷兰书的论点激发了用概率分配来表达信念的观点。这种方法的核心是 Savage 和 De Finetti 的工作。 Savage (1962) 提出将统计与决策理论(一种关于实践理性的数学理论)结合起来公理化。他认为,概率分配本身没有任何意义,它们只能在代理人面临行动之间的选择(即一组赌注中的选择)的背景下进行解释。同样,德菲内蒂(De Finetti,例如,1974)提出了一种统计观点,其中只有概率信念的经验结果(以赌注意愿表示)才重要,但他并没有使统计推论完全依赖于决策理论。值得注意的是,贝叶斯统计的主观主义观点似乎是基于同样的行为主义和经验主义,而正是这些行为主义和经验主义促使内曼和皮尔逊发展了经典统计。
请注意,所有这些都使第 4.2.1 节的解释问题的一个方面再次出现:假设的先验分布如何在行为中表现出来,以便可以正确地用信念来解释它,这里理解为行动的意愿对这个问题的一个回答是转向通过概率分配来表示信念程度的不同动机。在 De Finetti 的工作之后,一些作者提出了对信念的概率表达的辩护,这些信念不是基于行为目标,而是基于持有准确代表世界的信念的认知目标,例如 Rosenkrantz (1981)、Joyce (2001) 、Leitgeb 和 Pettigrew (2010)、Easwaran (2013)。 Schervish、Seidenfeld 和 Kadane (2009) 对这一想法进行了强有力的概括,它建立在使用评分规则来实现统计目标的悠久传统之上。另一种方法是,任何形式的信念表示都必须尊重某些逻辑约束,例如,考克斯根据部分信念本身的性质,以概率分配的形式提供了信念表达的论证。
然而,对于先验优于假设难以解释这一问题,最初的主观主义回应来自德菲内蒂所谓的表示定理,该定理表明,每个先验分布都可以与其自己的一组预测相关联,从而与其自己的行为相关联。换句话说,德菲内蒂展示了先验确实如何与可以进行投注解释的信念相关联。
4.3.2 偏差:表示定理
De Finetti 的表示定理将预测规则(作为给定样本数据的函数)与统计模型背景下这些数据的贝叶斯统计分析联系起来。有关有用的介绍,请参见 Festa (1996) 和 Suppes (2001)。 De Finetti 考虑了一个生成一系列时间索引观测值的过程,然后他研究了将这些有限片段作为输入并返回未来事件概率的预测规则,使用可以分析此类样本并提供预测的统计模型。 De Finetti 的关键结果是,一个特定的统计模型,即观测值独立同分布的所有分布的集合,可以等同于可交换预测规则的类别,即预测不依赖于观察结果出现的顺序。
让我们更正式地考虑表示定理。为简单起见,假设该过程生成时间索引的二进制观测值,即 0 和 1。预测规则采用这样长度的位串
t
,表示为
S
t
,作为输入,并返回字符串中下一位为 1 的事件的概率,表示为
问
1
t
+
1
。所以我们把预测规则写成部分概率分配
磷
(
问
1
t
+
1
∣
S
t
)
可交换预测规则是独立于字符串中位的顺序提供相同预测的规则
S
t
。如果我们写事件字符串
S
t
总共有
n
1 的观察结果为
S
n
/
t
,则可交换预测规则写为
磷
(
问
1
t
+
1
∣
S
n
/
t
)
。 关键的属性是预测的值不受字符串中 0 和 1 出现顺序的影响
S
t
。
De Finetti 将这组特定的可交换预测规则与特定类型的统计模型的贝叶斯推理联系起来。德菲内蒂考虑的模型包含所谓的伯努利假设
小时
θ
,即假设
磷
(
问
1
t
+
1
∣
小时
θ
∩
S
t
)
=
θ
。
这种可能性不依赖于字符串
S
t
那已经过去了。最好将假设视为确定固定偏差
θ
对于二元过程,其中
θ
ε
θ
=
[
0
,
1
]
表示定理指出,伯努利假设和可交换的预测规则之间存在先验的一对一映射。也就是说,每个先验分布
磷
(
小时
θ
)
可以与一个可交换的预测规则相关联
磷
(
问
1
t
+
1
∣
S
n
/
t
)
除了 De Finetti 导出的原始表示定理之外,还证明了其他几个更一般的表示定理,例如,对于部分可交换序列和马尔可夫过程的假设(Diaconis and Freedman 1980,Skyrms 1991),对于聚类预测和划分过程(Kingman 1975 和 1978),甚至图序列及其生成过程(Aldous 1981)。
表示定理将统计假设的先验分布等同于预测规则,从而等同于可以给出主观和行为解释的概率分配。这消除了上面表达的担忧,即假设的先验分布不能被主观地解释,因为它不能与作为行动意愿的信念相关:先验与特定的预测唯一相关。然而,对于德菲内蒂来说,表示定理提供了一个理由,可以完全废除统计假设,从而消除除主观意见之外的概率概念(参见 Hintikka 1970):其概率主张可以被视为是的假设。指无形的偶然过程是多余的形而上学包袱。
并非所有主观主义者都同样不屑于使用统计假设。 Jeffrey (1992) 提出了所谓的混合贝叶斯主义,其中对假设的主观解释分布与假设在样本空间上定义的分布的物理解释相结合。 Romeijn (2003, 2005, 2006) 认为,与直接指定预测系统的属性相比,假设的先验是确定归纳预测的一种有效且更直观的方法。使用假设的这种优势似乎与科学实践相一致,在科学实践中,假设是常规使用的,并且通常受到数据生成过程的机械知识的推动。严格来说,统计假设可以被消除,这一事实并不能消除它们在预测中的效用。
4.3.3 作为逻辑的贝叶斯统计
尽管贝叶斯统计似乎不可避免地具有主观性,但从某种意义上说,贝叶斯统计可能声称具有客观性。可以证明贝叶斯形式主义满足一定的合理性、连贯性和校准性的客观标准。因此,贝叶斯统计在元层面上满足了客观性的要求:虽然它所处理的观点保留了主观方面,但它处理这些观点的方式,特别是数据对其影响的方式,是客观的。正确的,或者说是这样认为的。支持贝叶斯容纳数据的方式(即通过条件化)的论点,已由动态的荷兰书籍论点在务实的背景下提供,其中概率被解释为愿意下注(参见 Maher 1993,van Fraassen 1989)。类似的论点也被提出,理由是我们的信仰必须按照 De Finetti (1974) 的思路准确地代表世界,例如 Greaves 和 Wallace (2006) 以及 Leitgeb 和 Pettigrew (2010)。
在支持贝叶斯容纳证据的方式的论据中必须做出重要的区分:作为数学给定的贝叶斯定理与作为随时间的一致性原则的贝叶斯规则之间的区别。该定理只是概率分配之间的数学关系,
磷
(
小时
∣
s
)
=
磷
(
小时
)
磷
(
s
∣
小时
)
磷
(
s
)
,
因此没有争议。支持通过概率分配表示主体认知状态的论证也为贝叶斯定理作为信念度的约束提供了支持。条件概率
磷
(
小时
∣
s
)
可以解释为对假设的置信程度
小时
条件是样品
s
获得,作为概率分配捕获的认知状态的组成部分。相比之下,贝叶斯规则对表示代理在不同时间点的认知状态的概率分配提出了约束。
磷
s
(
小时
)
=
磷
(
小时
∣
s
)
,
它确定了新的概率分配(表示获得样本后主体的认知状态)与旧分配(表示样本进入之前的认知状态)系统相关。在统计学哲学中,许多贝叶斯主义者采用贝叶斯' 隐含地规则,但在下文中我将仅假设贝叶斯统计推断依赖于贝叶斯定理。
无论关注的是贝叶斯规则还是贝叶斯定理,上述论点的共同主题是从逻辑角度来看待贝叶斯统计推断,并关注其内在的连贯性或一致性(参见Howson 2003)。虽然贝叶斯推理在统计中的使用无可否认是归纳性的,但贝叶斯推理因此获得了演绎性或至少是非放大性的特征:推理中得出的所有结论在某种程度上已经存在于前提中。在贝叶斯统计推断中,这些前提是由假设的先验给出的,
磷
(
小时
θ
)
为了
θ
ε
θ
和似然函数,
磷
(
s
∣
小时
θ
)
,根据每个假设确定
小时
θ
这些前提固定了空间上的单个概率分配
中号
×
S
在推论一开始。反过来,结论是这种概率分配的直接结果。它们可以通过应用概率论定理(尤其是贝叶斯定理)来推导。因此,贝叶斯统计推断成为概率逻辑的一个实例(参见 Hailperin 1986、Halpern 2003、Haenni 等人 2011)。
总而言之,有几个论点表明贝叶斯定理或贝叶斯规则的统计推断在客观上是正确的。这些论点邀请我们将贝叶斯统计视为概率逻辑的一个实例。这种对贝叶斯统计推断逻辑性的诉求可能为其主观特征提供部分补救。此外,统计推论的逻辑方法避免了形式主义对代理人提出不切实际的要求以及假定代理人具有一定知识的问题。就像演绎逻辑一样,我们不需要假设推论在心理上是现实的,也不需要代理人实际上相信论证的前提。相反,这些论证为主体提供了一个规范的理想,并采用一致性约束的条件形式:如果你接受前提,那么这些就是结论。
4.3.4 拓展:归纳逻辑和统计
如Carnap,Hintikka等人设计的概率逻辑的一个重要实例(Carnap 1950和1952,Hintikka and Suppes 1966,Carnap和Jeffrey 1970,Hintikka和Hintikka和Niiniluoto 1980,Kuipers 1980,Kuipers 1978,以及Paris 1994,Nix,Nix巴黎2006,巴黎和沃特豪斯2009年)。从历史上看,卡尔纳平的归纳逻辑在上面引用的概率逻辑之前开发了,或多或少与统计哲学的辩论分开。但是,Carnap的逻辑系统很容易被放置在贝叶斯推论的逻辑方法的背景下,而这样做实际上是非常有见地的。
为简单起见,我们选择了一种类似于表示定理中使用的设置,即二进制数据生成过程,即0和1的字符串。预测规则确定事件的概率,表示
问
1
t
+
1
,字符串中的下一点是1,根据给定长度的给定字符串
t
,表示为
S
t
。carnap和追随者设计了特定的可交换预测规则,主要是直统治的变体(Reichenbach 1938),
磷
(
问
1
t
+
1
∣
S
n
/
t
)
=
n
+
1
t
+
2
,
在哪里
S
n
/
t
表示一串长度
t
其中
n
条目是1。 Carnap从样本上的概率分配的约束中得出了此类规则。其中一些约束归结为概率的公理。通过诉诸所谓的概率逻辑解释,其他限制(它们之间的交换性)是独立动机。在这种逻辑解释下,概率分配必须尊重样本空间转换下的某些不态度,类似于逻辑原理,这些原则以特定方式将真理估值限制在语言上。
数学联邦政治世界观提示您:看后求收藏(笔尖小说网http://www.bjxsw.cc),接着再看更方便。