carnapian感应逻辑是概率逻辑的一个实例,因为其顺序预测全部基于一开始的单个概率分配,并且因为它依赖贝叶斯定理以使预测适应样本数据(参见Romeijn 2011)。贝叶斯统计推断的一个重要区别是,对于CarNAP,一开始时指定的概率分配仅在样本上而不是假设。但是,根据De Finetti的代表,定理Carnap的可交换规则可以等同于特定的贝叶斯统计推断。另一个区别是,carnapian归纳逻辑为特定可交换规则提供了首选状态。鉴于De Finetti的代表定理,这取决于特定的一组首选先生的选择。正如下面进一步开发的那样,Carnapian归纳逻辑与客观贝叶斯统计有关。是否可以将对概率分配的进一步限制视为逻辑,这是一个有争议的点,就像Carnap和追随者所拥有的那样,或者逻辑的标题是孤立的概率形式主义的最佳保留,就像De Finetti和追随者所说的那样。
4.3.5客观先验
对贝叶斯统计推断的主观性的进一步响应直接将先验分布的目标直接定为:我们可以提供进一步的理性原则,可以客观地选择先验的先验原则。文献提出了几个客观标准,用于填写先前的模型。这些都声称是有关模型参数值的完全无知的正确表达,或者是有关参数的最小信息。这里讨论了三个这样的标准。
在贝特兰的悖论的背景下,我们已经讨论了冷漠的原则,据此,应在可用可能性上均匀分配概率。通过要求分布应具有最大熵的要求提出了这一想法的进一步发展。值得注意的是,使用熵最大化来确定信念程度的应用比仅在统计数据中更广泛的应用:在认识论等各种领域都采用了类似的思想(例如Shore and Johnson 1980,Williams 1980,Williams 1980,Uffink 1996,以及Williamson 2010) ,归纳逻辑(Paris and Vencovska 1989),统计力学(Jaynes 2003)和决策理论(Seidenfeld 1986,Grunwald and Halpern 2004)。在客观的贝叶斯统计中,该想法应用于模型的先前分布(参见Berger 2006)。对于有限数量的假设,分布的熵
磷
(
小时
θ
)
定义为
乙
[
磷
]
=
Σ
θ
ε
θ
磷
(
小时
θ
)
日志
磷
(
小时
θ
)
。
这项要求明确地导致了巧妙的假设。但是,对于连续模型,最大熵分布在模型中的参数上至关重要。因此,主观性的负担转移到了参数化中,但是当然,我们有很大的理由比其他参数更喜欢特定的参数化(参见Jaynes 1973)。
先验的客观确定还有其他方法。鉴于上述问题,杰弗里斯(Jeffreys,1961)提出了一种特别有吸引力的方法,用于选择先前的连续模型。所谓的Jeffreys先验的一般思想是,在参数空间中分配给一个小贴片的先验概率与该补丁中分布的密度成正比。直观地,如果很多分布(即之间有很大差异的分布)在参数空间的一个小补丁上包装在一起,则该补丁的先前概率应比几乎没有变化的类似补丁更大在分布中(参见Balasubramanian 2005)。从技术上讲,这种密度是通过与Fisher信息成正比的先前分布表示的。这些先验的一个关键优势是它们在参数空间的重新聚体下是不变的:一个新的参数化自然会导致调整后的分布密度。
定义先验的最终方法以参考先验的名义进行(Berger等,2009)。该提案始于观察结果,即我们应该最大程度地减少统计分析结果的主观性,因此我们应最大程度地减少先前概率对后部的影响。参考先验的想法正是它将允许样本数据在后验分布中最大值。但是,由于一开始我们不知道将获得哪些样本,因此选择了先验,以最大程度地提高数据的预期影响。在样本空间上的某些分布方面,必须对期望进行期望,但是同样,我们有很大的理由是后者分布。
4.3.6规避先验
对先生的主观性的不同反应是扩展贝叶斯形式主义,以便在一定程度上放开选择。先验的主观选择是在这种情况下进行的。两个这样的回答将在某些详细范围内考虑。
回想一下,对统计假设的先前概率分布表达了我们对哪个假设的不确定意见。等级贝叶斯模型(Gelman et al 2013)背后的核心思想是,可以在先验的先验假设上重复先前的先验假设的模式。更确切地说,我们可能不确定假设的先前概率分布是正确的。如果我们通过一组参数来表征可能的先验,则可以在表征表征先前形状的参数上以概率分布中的先前选择表达这种不确定性。换句话说,我们将不确定性在层次结构中提高一个水平:我们考虑了多个先验对统计假设的研究,并比较这些先验在示例数据上的性能,就好像先生本身就是假设。
分层贝叶斯建模的想法(Gelman等,2013)自然与carnapian预测规则的贝叶斯比较(例如Skyrms 1993和1996,Festa 1996),也与最佳归纳方法的估计(Kuipers 1986,Festa 1993,Festa 1993) 。等级贝叶斯建模也可能与选择假设的特定先验分布的另一个工具有关,即经验贝叶斯的方法,该方法估计了导致模型最大边缘可能性的先验。在《科学哲学》中,分层贝叶斯建模因Henderson等人(2010年)而首次出现。
还有一个响应可以避免完全选择先前的选择。该响应以与层次模型相同的想法开始:我们没有考虑模型中的假设上的一个先前,而是考虑其中的参数化集合。但是,与其确定或不确定概率的支持者,不如说我们对先验的认知状态更好地表达了我们的认知状态,而不是定义该集合的分布,而是通过这组分布来表达,因此,必须将尖锐的概率分配替换为下层和上限,作业。现在,最好由一组概率作业或简称信用序列捕获的不确定意见的想法具有悠久的历史,并且得到了广泛的文学作品的支持(例如,De Finetti 1974,Levi 1980,Dempster 1967和1968,Shafer,Shafer 1976年,Walley 1991)。鉴于统计学哲学的主要辩论,使用间隔价值的先验的使用确实形成了贝叶斯统计的有吸引力的扩展:它使我们能够避免选择特定的先验,从而对统计数据的经典观点提出了和解。 。
这些理论上的发展可能看起来很有吸引力,但事实是,它们主要享有统计哲学家的邪教地位,并且他们没有在街上移动统计学家。另一方面,由于良好的软件和数值近似方法的可用性,在过去十年左右的时间里,标准的贝叶斯统计数据在过去十年左右的时间里急剧上升。而且,贝叶斯统计数据的大部分实际使用或多或少对统计结果的潜在主观方面不敏感,采用统一的先验作为分析的中性起点,并依靠上述提及的收敛结果来消除其余的主体性(参见Gelman and Shalizi 2013)。但是,科学家对建模的这种实践态度不应被误解为统计哲学中提出的问题的原则答案(参见Morey等人,2013年)。
5
在上述过程中,我们已经看到了古典和贝叶斯统计数据的不同。但是,统计数据的两种主要方法也有很多共同点。最重要的是,所有统计程序都依赖于统计模型的假设,在这里指的是任何受限制的统计假设集。此外,它们均旨在对这些假设作出判决。例如,经典的似然比测试考虑了两个假设,
小时
和
小时
′
,然后提供拒绝和接受的判决,而贝叶斯比较对这两个假设产生了后验概率。尽管在贝叶斯统计中,该模型提出了一个非常有力的假设,但经典的统计数据并未赋予该模型具有特殊的认知状态:它们只是科学家目前所接受的假设。但是总体而言,采用模型绝对是任何统计程序的核心。
一个自然的问题是,是否可以说统计模型的质量以及对此起点的任何统计程序的判决。当然,某些模型将带来更好的预测,或者比其他模型更好地指导真理。对模型的评估涉及科学哲学中的深层问题,因为统计模型通常确定如何概念化和接近正在研究的数据生成系统(Kiesepeppa 2001)。因此,模型选择类似于理论的选择,概念方案甚至整个范式,因此似乎超越了研究理论合理性的正式框架(参见Carnap 1950,Jeffrey,1980年)。尽管事实上,从模型选择上进行了一些考虑似乎是超统计的,因为它们属于统计处理范围,但统计数据提供了几种接近统计模型选择的方法。
5.1模型比较
实际上,有很多用于评估统计模型的方法(Claeskens和Hjort 2008,Wagenmakers and Waldorp 2006)。首先,这些方法是统计模型的比较,但通常它们用于选择一个模型而不是另一个模型。在接下来的内容中,我们仅审查导致哲学辩论的突出技术:Akaike的信息标准,贝叶斯信息标准,以及对边际可能性和后验模型概率的计算,都与贝叶斯模型选择有关。我们将使用交叉验证的方法抛开,因为它们在哲学文献中没有得到太多的关注。
5.1.1赤池信息准则
Akaike的信息标准适度地称为信息标准或简称AIC,是基于经典的估计统计程序(参见Burnham和Anderson 2002,Kiesepepa,1997)。它始于一个模型的想法
中号
可以根据估计来判断
^
θ
它可以提供,更具体地说,是由于此估计与实际生成的分布(即真实分布)的分布的距离。这种接近度通常等于估计值的预期预测准确性,因为如果估计和真实分布彼此接近,则它们的预测也将更好地彼此保持一致。在AIC的推导中,将两个分布的所谓相对熵或Kullback-Leibler差异用作量度的量度,因此用作估计估计值的预期预测准确性的量度。
自然地,评估模型的统计学家不知道真实的分布。如果是这样,那么整个统计分析将是没有用的。但是,事实证明,我们可以公正地估计真实分布与从特定模型估计的分布之间的差异,
航空工业协会
[
中号
]
=
-
2
日志
磷
(
s
∣
小时
^
θ
(
s
)
)
+
2
d
,
其中
s
是样本数据,
^
θ
(
s
)
是模型的最大似然估计(MLE)
中号
,和
d
=
d
我
米
(
θ
)
是模型的参数空间的尺寸。该模型的MLE因此在模型质量的表达中特征,即在概念上与估计函数不同的角色。
从上面的表达式可以看出,具有较小AIC的模型是可取的:我们希望合适的成本在复杂性上几乎没有成本。请注意,模型中的尺寸数量或独立参数的数量会增加AIC,从而降低了模型的资格:如果两个模型获得样品的最大可能性相同,则首选具有较少参数的模型。因此,通过AIC选择的统计模型可以被视为一种独立的动机,而不是更复杂的模型(Sober and Forster 1994)。但是这个结果也引起了一些关键评论。首先,我们可能会强加其他标准,而不是仅根据对真理的距离的估计的无偏见,这将导致近似值的不同表达方式。此外,并不总是清楚地划出审查模型的尺寸。对于曲线拟合,这似乎很简单,但是对于模型空间的更复杂的模型或不同的概念化,事物看起来并不容易(参见Myung等,2001,Kiesepepa,2001)。
曲线拟合中显示了模型选择的主要示例。给定样品
s
由飞机中的一组点组成
(
x
,
y
)
,我们被要求选择最适合这些数据的曲线。我们假设所考虑的模型是形式
y
=
f
(
x
)
+
ε
,在哪里
ε
是平均0和固定标准偏差的正态分布,以及
f
是多项式函数。不同的模型的特征是不同程度的多项式具有不同的参数。估计修复了这些多项式的参数。例如,对于0度多项式
f
(
x
)
=
c
0
我们估计常数
^
c
0
对于数据的概率是最大的,对于1度多项式
f
(
x
)
=
c
0
+
c
1
x
我们估计坡度
^
c
1
和偏移
^
c
0
。现在注意,总共
n
要点,我们总是可以找到一个程度的多项式
n
这完全与所有点相交,导致最大可能性相对较高
磷
(
s
∣
{
^
c
0
,
……
^
c
n
}
)
。应用AIC,但是,我们通常会发现某些具有多项性的模型
k
<
n
是可取的
磷
(
s
∣
{
^
c
0
,
……
^
c
k
}
)
将较低,这在AIC中通过较小的参数补偿。
5.1.2模型的贝叶斯评估
其他各种突出的模型选择工具基于贝叶斯统计的方法。它们都始于以下想法:模型的质量在模型的性能中表达在示例数据上:总体上使采样数据最有可能的模型是首选。因此,与前面提到的层次贝叶斯建模有着密切的联系(Gelman 2013)。因此,贝叶斯模型选择工具中的中心概念是模型的边际可能性,即模型上可能的加权平均值,使用先前的分布作为称重函数:
磷
(
s
∣
中号
我
)
=
∫
θ
ε
θ
我
磷
(
小时
θ
)
磷
(
s
∣
小时
θ
)
d
θ
。
这里
θ
我
是属于模型的参数空间
中号
我
。边际可能性可以与模型的先前概率相结合,
磷
(
中号
我
)
,使用贝叶斯定理得出所谓的后验模型概率。评估模型(称为贝叶斯模型选择)的一种方法是比较其边际可能性的模型,否则在其后代上进行了比较(参见Kass and Raftery 1995)。
通常无法通过分析计算边际可能性。通常可以获得数值近似值,但是出于实际目的,它已经非常有用,并且足够了,可以使用边缘可能性的近似值。这种近似已被称为贝叶斯信息标准,即短暂的(Schwarz 1978,Raftery 1995)。事实证明,这种近似与AIC显示出显着的相似之处:
商业银行
[
中号
]
=
-
2
日志
磷
(
s
∣
小时
^
θ
(
s
)
)
+
d
日志
n
。
这里
^
θ
(
s
)
再次是模型的最大似然估计,
d
=
d
我
米
(
中号
)
独立参数的数量,以及
n
是样本中数据点的数量。后一个依赖性是与AIC的唯一区别,但是模型评估可能会出现的主要区别。
AIC和BIC的同意似乎为我们直观地偏爱简单模型而不是更复杂的模型提供了进一步的动力。实际上,其他模型选择工具,例如偏差信息标准(Spiegelhalter等,2002)和基于最小描述长度的方法(Grunwald 2007),也导致表达式具有表达式,该表达式具有惩罚复杂模型的术语。但是,这并不是说我们从信息标准中知道的维度术语耗尽了模型复杂性的概念。在科学哲学哲学上,关于模型选择的优点的辩论正在进行中,以说明简单,信息性等概念(例如,请参见Sober 2004,Romeijn和Van de Schoot 2008,Romeijn 2008; Romeijn等,2012,Sprenger,Sprenger 2013年)。
5.2没有模型的统计
还有一些统计方法,可以通过专门关注数据或通过对所有可能的模型进行推广来避免使用特定模型的使用。其中一些技术适当地定位在描述性统计中:它们不关心数据的推断,而只是用特定方式来描述数据。不幸的是,不依赖明确模型选择的统计方法并没有在统计哲学上引起太多关注,但是为了完整的缘故,他们将在此处简要讨论。
5.2.1数据缩减技术
一组方法,对于许多执业统计学家来说,这是一个非常重要的方法,旨在减少数据。通常,样本数据非常丰富,例如,由一组在非常多维的空间中的点组成。然后,统计分析的第一步可能是挑选数据中的显着变异性,以减少分析本身的计算负担。
主要成分分析技术(PCA)是为此目的而设计的(Jolliffe 2002)。鉴于空间中的一组点,它可以找到一组向量,这些向量沿着点的变化很大。例如,考虑平面中的两个点参数为(
x
,
y
)
:点
(
0
,
0
)
和
(
1
,
1
)
。在
x
- 方向和
y
- 方向变化是
1
,但是在对角线上,变化是最大的,即
√
2
。对角上的向量称为数据的主要成分。在更丰富的数据结构,并使用点之间更一般的变化度量中,我们可以以类似的方式找到第一个组件。此外,通过将数据投影到垂直于该组件的平面上,我们可以在沿最后发现的组件中减去变化后重复该过程。这使我们能够建立一组重要性减少的主要组成部分。
数学联邦政治世界观提示您:看后求收藏(笔尖小说网http://www.bjxsw.cc),接着再看更方便。