统计哲学(六)
事实证明,这种近似显示了与AIC的显着相似性:
比克[是] = - 2logp(s|h
θ
(s))+ dlogn。
这里
θ
(s)再次是模型的最大可能性估计,d = dim(m)独立参数的数量,n是样本中的数据点数。 后一种依赖性是与AIC的唯一区别,但模型评估可能结果的主要区别。
AIC和BIC的同意似乎为我们的直观偏好对更复杂的模型提供了进一步的动机。 实际上,其他模型选择工具,如偏差信息标准(SPIEGELHALTER等人2002)和基于最小描述长度的方法(GRUNWALD 2007),也导致表达式,该表达式是惩罚复杂模型的术语。 然而,这并不是说我们从信息标准中知道的维度术语排除了模型复杂性的概念。 关于模型选择的哲学在简单,信息性等的概念中的优点,有持续的辩论(参见,例如,2004年清醒,romeijn和van de schoot 2008,romeijn等2012年,春天2013年)。
5.2没有模型的统计信息
还有统计方法避免使用特定模型,通过专注于数据或通过所有可能的模型概括来侧重于。 其中一些技术在描述性统计中正确本地化:它们不涉及来自数据的推断,而仅用于以特定方式描述数据。 不依赖明确的模型选择的统计方法尚不遗憾地在统计哲学中没有引起大量关注,但是为了完整性,他们将在这里简要讨论。
5.2.1数据减少技术
对于许多练习统计人员来说,一组方法和一个非常重要的方法旨在减少数据。 通常,样品数据非常丰富,例如,由一组非常多尺寸的空间中的一组点组成。 然后,统计分析中的第一步可以是挑选数据中的突出变异性,以便缩小分析本身的计算负担。
主要成分分析技术(PCA)为此目的而设计(Jolliffe 2002)。 给定了一组空间中的点,它试图阐明了一组载体,其中点的变化很大。 作为示例,将平面中的两个点视为参数化为(x,y):点(0,0)和(1,1)。 在X方向和y方向上,变化为1,但在对角线上的变化是最大的,即
√
2
。 对角线上的向量被称为数据的主成分。 在更丰富的数据结构中,并且在点之间使用更一般的变化度量,我们可以以类似的方式找到第一个组件。 此外,通过将数据投影到垂直于该组件的平面上,我们可以在减去上次找到的组件中减去变化后重复该过程。 这使我们能够建立一组重要的重要组成部分。
PCA只是来自大量技术的一项旨在保持数据管理和发现模式的大量技术,该集合还包括内核方法和支持向量机(例如,VAPNIK和KOTZ 2006)。 出于目的,重要的是强调这些工具不应与统计分析混淆:它们不涉及对样本空间的分布的测试或评估,即使它们积累并评估数据的型号。 这使它们除以,例如,确认和探索性因子分析(Bartholomew 2008),有时被认为是PCA的紧密相对,因为两组技术都允许我们识别样本空间内的突出尺寸,数据显示数据显示大变化。
练习统计学家经常采用数据减少工具,以得出关于数据被取样的分布的结论。 在科学中已经有广泛的机器学习和数据挖掘技术,我们可能期望将来甚至可以使用这些技术的模式,因为现在已经提供了如此大的数据来进行科学分析。 然而,在统计的哲学中,通过这些技术达到的结论的认识地位,迄今为止,还有很少的辩论。 统计的哲学家将在这里引导一些注意力。
5.2.2正式学习理论
正式学习理论提出了一种完全不同的统计方法。 这再次成为广阔的研究领域,主要位于计算机科学和人工智能。 本学科在这里简要提到,作为统计方法的另一个例子,避免了统计模型的选择,并仅仅识别数据中的模式。 我们抛开了神经网络的理论,这也涉及不依赖统计模型的预测系统,并专注于学习算法的理论,因为他们看到了最哲学的所有方法。
Solomonoff(1964年)完成了正式学习的开拓性工作。 如前所述,该设置是其中的数据由0和1的字符串组成,并且代理正在尝试识别这些数据中的模式。 因此,例如,数据可以是表单0101010101的串,并且挑战是将该字符串识别为交替序列。 Solomonoff的中心思想是,代理必须考虑所有可能的可计算模式,因此不需要对统计假设的限制性选择。 Solomonoff然后定义了一个正式的系统,其中实际上可以考虑所有模式,有效地使用贝叶斯分析,在所有可计算假设之前巧妙地构造。
也可以在贝叶斯统计和机器学习的交叉点,贝叶斯非参数学(例如,Orbanz和Teh 2010)中的一个相当新的领域中确定了这一总体的想法。 而不是在开始时指定一组统计分析应该基于数据选择的狭窄的分布集,而是该想法是数据面对可能的分布的潜在无限尺寸空间。 然后,相对于所获得的数据进行考虑的一组分布:模型的复杂性随着样品而增长。 结果是一种预测系统,可以在线模型选择,与模型后后叶片的住宿一起。
当前的正式学习理论是一种热闹的领域,统计的哲学家也有贡献(例如,凯利1996,Kelly等1997)。 对于目前的担忧特别突出的是,正式学习系统被设置为实现足够的普遍预测的一些概念,而不将自己限制在特定的假设集合中,因此通过对数据中的可能模式的集合施加最小的约束来实现。 这是一个辩论是否有可能,以及正式学习理论的预测,从而依赖于,例如,隐含关于样本空间结构的隐含假设。 哲学思考这只是在其婴儿期间。
6.相关主题
科学哲学中有许多主题与这种引理的主题有直接相关。 这里提到了一些中央主题,以将读者指示在百科全书中的相关lemmas。
一个非常重要的话题,立即与统计学哲学相邻是确认理论,描述并证明了科学理论与经验证据之间的关系的哲学理论。 可以说,统计理论是确认理论的适当部分,因为它描述并证明了以样本形式获得统计理论和证据之间的关系。 在证据和理论之间的更广泛的关系框架中放置统计程序可能会有富有洞察力。 进一步缩小,统计的哲学是方法论的哲学课题的一部分,即科学是否如何以及科学获取知识的一般理论。 因此,统计数据是大量科学方法中的一个组成部分,包括概念形成,实验设计,操纵和观察,确认,修订和理论。
来自科学哲学的特定主题也有相当多的特定主题,这些主题在统计数据方面阐述或靠近它。 这些主题之一是测量过程,特别是基于关于清单变量的统计事实来测量潜变量。 所谓的计量理论(Kranz等人1971)依赖于统计数据,特别是对因子分析,提供了概念澄清数学结构如何代表经验现象。 另一个重要的主题形成科学哲学是因果关系(见概率导致的条目和Reichenbach的常见原因原则)。 哲学家已经雇用了概率理论以来雷克纳巴赫(1956年)以来捕获因果关系,但最近的因果关系和统计工作(例如,SPIRTERS等人2001)已经赋予了概率因果关系的理论巨大的冲动。 统计数据再次为因果关系的概念分析提供了基础。
还有更多。 几种特定的统计技术,类似因素分析和贝叶斯网络理论,邀请自己协议的概念讨论。 科学哲学中的众多主题赋予统计阐明,例如,一致,信息性和证据的惊喜。 反过来,在科学哲学方面存在广泛的讨论,以了解对统计数据的正确理解。 其中是通过实验和干预,机会概念,科学模式的概念以及理论术语的辩论。 邀请读者查阅这些主题的条目,以查找与统计哲学相关的进一步迹象。