形式学习理论（五）

好书推荐：数学联邦政治世界观、万人迷她又被强取豪夺了、浮生若梦云生惊蛰、惊世狂妃：皇叔一宠到底、恋与伤、天天暴富APP、冷宫九公主要翻身、我在泰娱哦！、清冷钓系美人每天都在修罗场、喜美：朦胧梦境、

5.4 回归思维变化和简单性：另一个奥卡姆定理

前一小节为所研究的每个假设定义了完整的简单性排名。这意味着任何假设都可以与另一个更简单或同样简单的假设进行比较。一个要求不高的概念是偏序，它允许某些假设根本不具有可比性，例如苹果和橙子。 Genin 和 Kelly [2015] 表明，以下偏序导致了避免回归思维变化的奥卡姆原则（参见第 4.3 节）。

观察序列分离假设

假设的 H1

H2 如果观察结果与

H1 和伪造

H2（给定背景知识）。

比喻

H1离不开

H2，书面

＜

H1＜H2，如果观察序列没有分离

H1 来自

H2。等价地，

＜

H1＜H2 当且仅当有证据符合

H1 也符合

。

H2。

分离术语由 Smets 等人提出，他们将其与点集拓扑中的分离原理联系起来。根据 3.2 节中点集拓扑的认识论解释，我们有

＜

H1＜H2 当且仅当每个完整的数据序列

H1 是数据序列的边界点

。

H2。在一个认识论上引起共鸣的短语中，Genin 和 Kelly 说假设

H1“面临归纳问题”

H2 每当

＜

H1＜H2。这是因为每当

H1是正确的，可靠的学习者必须进行“归纳飞跃”和猜想

H1 尽管任何有限数量的证据也与

H2。

效果

在乌鸦问题中，

H1=“所有乌鸦都是黑色的”

＜H2=＜H2=“有些乌鸦不是黑色的”。但事实并非如此“有些乌鸦不是黑色的”

＜

＜“所有乌鸦都是黑色的”，因为对白乌鸦的观察是分开的

H2 来自

。

H1。

在因果图学习中，如果图

G1 包含替代图中边的子集（直接因果链接）

G2，那么

＜

G1＜G2。这是因为任何相关性都可以解释为

G1也可以用更大的图来解释

G2。

在曲线拟合中，

＜

问

L＜Q 其中

L 是线性函数的集合，并且

问

Q 是二次函数的集合。这是因为任何可以用线性函数拟合的点集也可以用二次函数拟合。

这些例子表明

＜

＜偏序对应于我们对经验假设的直觉简单判断； Genin 和 Kelly [2019] 为这一主张提供了广泛的辩护。可以证明，

＜

＜排序与上一小节中定义的简单排名一致，从某种意义上说，如果

＜

H1＜H2 但不是

＜

H2＜H1，则简单性等级为

H1 小于等级

H2。这些观察激发了奥卡姆原理：如果归纳方法总是推测出一个最大简单假设，则它满足关于可分离性的奥卡姆原理

H 与证据一致。在我们的符号中，如果奥卡姆方法采用假设

H 给定有限观测序列，则不存在替代更简单的假设

′

H′ 使得

H′＜HH′＜H。也就是说，每个备择假设

′

H′最终将与

H 根据证据如果

′

H′为真。在乌鸦的例子中，泛化方法满足奥卡姆原理，但相反的方法则不满足，因为它采用

H2=“有些乌鸦不是黑色的”。以下定理表明，奥卡姆原理与回归心理变化之间的联系是普遍的。

如果归纳方法避免了猜想循环（从而避免了思想的回归变化），它就满足了关于可分离性的奥卡姆原理。

证明参见 Genin 和 Kelly [2015；定理10]。 Genin 和 Kelly 也为避免猜想循环提供了充分的条件。

虽然本节的结果在简单性和思想改变最优性之间建立了富有成效的联系，但该方法的局限性在于，它要求某些假设必须被某些证据序列最终推论或证伪。对于统计模型来说，情况通常并非如此，其中假设的概率可能会变得任意小，但通常不为 0。例如，考虑抛硬币问题，假设“正面的概率为 90%”。如果我们观察一百万个反面，假设的概率确实很小，但它不是0，因为任何数量的反面在逻辑上都与高概率的正面一致。下一节讨论如何使可靠性方法适应统计假设。

6. 统计假设的可靠学习

统计假设在实际的数据驱动决策中最常见，例如在科学和工程领域。因此，归纳推理的哲学框架包含统计假设非常重要。统计假设和我们迄今为止考虑的假设集之间有两个关键区别 [Sober 2015]。

观察结果和假设之间的关系是概率性的，而不是演绎性的：统计假设为观察序列分配一个概率，通常在 0 到 1 之间。演绎假设要么与观察序列一致，要么是伪造的。

统计假设的分析通常假设观察结果是随机样本：连续的观察结果彼此独立并遵循相同的分布。可以分析统计方法，其中后来的观察结果取决于当前的观察结果，但归纳方法的数学复杂性比独立数据大得多。

由于这些特性，对于认识论、归纳推理和科学哲学中的传统哲学讨论来说，非统计方法的学习理论是比统计更直接的框架。例如，关于合理的真实信念的认识论讨论涉及信念的演绎概念，其中询问者接受一个命题，而不是为数据分配一个概率。科学理论通常根据过去的观察（初始条件）对未来数据做出确定性预测，因此独立性要求使得应用方法论框架来理解科学探究变得更加困难（参见我们的案例研究）。

规范的手段-目的认识论可以应用于统计假设和演绎假设。特别是，我们将讨论如何将可靠地收敛到事实和最小化回归性思维变化的思想适应统计环境。关键思想是改变分析单位：之前我们考虑了归纳方法对特定数据序列的行为，而在统计分析中，我们考虑了它在一组相同长度的数据序列上的聚合行为。特别是，我们考虑一种方法针对给定数量的观测值推测假设 H 的概率

。

名词

统计假设的预备知识

我们将用一个经典的简单例子来说明主要思想，观察抛硬币，并指出如何将它们推广到更复杂的假设。欲了解更多详细信息，请参阅[Genin 和 Kelly 2017，Genin 2018]。假设调查员对未知偏见有疑问

一枚硬币的 p，其中

p 代表单次翻转出现“正面”的机会。不同的可能假设对应不同的偏差范围

p，即[0,1]的一个分区，即偏差的范围。假设调查员提出一个简单的点假设：硬币公平吗？然后我们有

H1=“

0.5

p=0.5”

H2=“事实并非如此

0.5

p=0.5”。也就是说，要么

p＜0.5

p＜0.5 或

p＞0.5。

扩展我们之前的术语，我们可以说真正的偏差值

p 代表假设 H，如果它位于由下式指定的集合内

H. 在我们的例子中，偏差值 p 是正确的

H1 当且仅当

0.5

p=0.5；否则

p 正确的是

H2。给定一个真实的偏差值

p，并假设独立性，我们可以计算任何有限观察序列的概率。该概率称为样本分布。例如，对于一枚公平的硬币

0.5

p=0.5，观察到 3 个正面的概率为

0.5

0.125。

0.5×0.5×0.5=0.125。如果正面朝上的概率为 0.7，则观察到 3 个正面朝上的概率为

0.7

0.343。

0.7×0.7×0.7=0.343。请注意独立性假设如何使我们能够将一系列观测值的概率计算为单个观测值概率的乘积。如果没有独立性假设，我们就无法从单个观测值的概率推断出多个观测值的概率，并且样本分布也无法定义。

与本条目中的惯例一样，归纳法在观察有限的观察序列后推测假设。推测统计假设的方法称为统计检验（请参阅下面“其他互联网资源”部分中的链接）。统计文献为不同类型的统计假设提供了大量计算有效的统计检验。在下面的讨论中，我们考虑此类方法的一般学习性能，即可靠地收敛到真实假设并避免思想变化。考虑固定的观察长度

n，称为样本量。对于样本大小

n，有一组长度为

n 使得该方法推测假设

H给出样本。例如，对于

n=3，该方法可能推测

H2= 观察到 3 个正面后“硬币不公平”。该方法输出假设的总概率

H 给出一些长度样本

n 是样本的样本概率之和，使得该方法推测

H给出了样本。在补充中，我们给出了总概率的计算示例。因为这个总概率是统计假设方法的关键量，所以我们为其引入以下符号。

磷

（

）

Pn，p(H)=给定归纳法推测假设的概率

后H

n 个观测值，假设单个观测值的真实概率为

在非统计学习中，我们需要一种可靠的方法来在足够多的观察后最终确定真实的假设。该标准的统计版本是，经过足够多的观察后，推测出真实假设的机会应该接近 100%。更技术地说，假设一种方法对于每个偏差值都可以偶然识别出真实的统计假设

p，对于每个阈值

＜

10＜t＜1，有样本量

n 对于所有较大的样本量，该方法推测假设

H 是这样的

p 至少有概率

t。在符号中，我们有

磷

′

（

）

＞

对于所有样本量，Pn′,p(H)＞t

n′＞n

n′＞n，其中

H 是正确的假设

下图说明了推测正确假设的机会如何随着样本大小而增加，而推测错误假设的机会如何随着样本大小而减少。通过替换真实偏差值，该定义可以推广到更复杂的统计假设

p 带有参数列表。

限制机会识别的概念类似于赖兴巴赫实用主义辩护中限制收敛到概率估计的概念。转化为我们的示例，赖兴巴赫考虑了输出真实偏差值估计的归纳规则

p，并要求这样的规则收敛于真实值，即对于每个偏差值

p，对于每个阈值

＜

0＜t＜1，有样本量

n 使得对于所有较大的样本量，该规则以概率 1 输出与真实值不同的估计值

至多p

t。在统计学中，如果随着样本量的增加，该方法推测正确答案的机会收敛到 100%（请参阅下面的“其他互联网资源”部分中的链接），则该方法被称为一致。这个术语很不幸，因为它向哲学读者暗示了与形式证明系统的一致性的联系。事实上，一致性的统计概念与演绎逻辑无关；相反，它是本条目主要主题的探究范围内的识别概念的概率类比。

Genin 和 Kelly 提供了一个表征定理，该定理为一组统计假设在机会中可识别提供了必要和充分的条件，类似于我们在第 3.3 节中讨论的结构条件 [2017 年；定理4.3]。 Genin [2018] 讨论了最小化思想变化要求的统计模拟。回想一下，当探究者放弃正确的假设而支持错误的假设（第 4.3 节）时，就会发生回归性思维变化。概率类比是机会逆转，当推测真实假设的机会随着样本量的增加而减少时，就会发生这种情况。例如，考虑疫苗对传染病是否有效的问题。假设疫苗制造商对 1000 名患者进行了试验，并设计了一种统计方法，当情况确实如此时，该方法有 90% 的机会正确表明疫苗有效。现在，使用相同的统计方法对 1500 名患者进行了另一项试验。如果该方法正确表明疫苗有效的机会下降到 80%，就会发生机会逆转。正如本例所示，机会逆转对应于未能复制真实结果。上图展示了机会反转，其中 2 个样本推测出真实假设的机会小于 3 个样本。虽然机会反转显然是不可取的，但它们很难避免，而且事实上常用的统计方法很容易导致错误。这种逆转 [Genin 2018]。更可行的目标是将反转限制在阈值内

t，如果推测真相的机会确实随着样本量的增加而减少，那么它最多会减少

。

t。（在符号中，

磷

（

）

磷

（

）

＜

对于所有样本量，Pn,p(H)−Pn+1,p(H)＜t

n 和真实偏差值