1.条件概率和贝叶斯定理
2. 贝叶斯定理的特殊形式
3. 贝叶斯定理在主观主义证据解释中的作用
4. 贝叶斯定理在主观主义学习模型中的作用
参考书目
学术工具
其他互联网资源
相关条目
1.条件概率和贝叶斯定理
以给定数据体 E 为条件的假设 H 的概率是假设与数据结合的无条件概率与单独数据的无条件概率的比率。
(1.1)定义。
H 以 E 为条件的概率定义为 PE(H) = P(H & E)/P(E),前提是该比率的两项均存在且 P(E) > 0。[1]
为了说明这一点,假设 J. Doe 是一位随机选择的美国人,他在 2000 年 1 月 1 日还活着。根据美国疾病控制中心的数据,在这一天活着的 2.75 亿美国人中,大约有 240 万人在 2000 日历年死亡。在约 1660 万老年人(75 岁或以上)中,约 136 万人死亡。我们的 J. Doe 于 2000 年死亡这一假设的无条件概率 H 就是人口死亡率 P(H) = 2.4M/275M = 0.00873。为了根据 J. Doe 是老年人的信息 E 确定他或她的死亡概率,我们将他或她是死亡老年人的概率除以 P(H & E) = 1.36M/275M = 0.00495,根据他或她是老年人的概率,P(E) = 16.6M/275M = 0.06036。因此,假设 J. Doe 是一名高年级学生,其死亡概率为 PE(H) = P(H & E)/P(E) = 0.00495/0.06036 = 0.082。请注意总人口规模是如何从这个方程中剔除的,因此 PE(H) 只是死亡老年人的比例。人们应该将这一给出老年人死亡率的数量与以 H 为条件的 E 的“逆”概率进行对比,PH(E) = P(H & E)/P(H) = 0.00495/0.00873 = 0.57,这是老年人死亡占总人口的比例。
以下是 (1.1) 的一些直接结果:
可能性。 PE是一个概率函数。[2]
逻辑后果。如果 E 蕴含 H,则 PE(H) = 1。
保持确定性。如果 P(H) = 1,则 PE(H) = 1。
混合。 P(H) = P(E)PE(H) + P(~E)P~E(H).[3]
关于条件概率最重要的事实无疑是贝叶斯定理,其重要性首先由英国神职人员托马斯·贝叶斯在他死后出版的杰作《机会论中解决问题的论文》(Bayes 1764)中首次认识到其重要性。贝叶斯定理将基于给定数据体 PE(H) 的假设的“正”概率与基于假设 PH(E) 的数据的“逆”概率联系起来。
(1.2)贝叶斯定理。
PE(H) = [P(H)/P(E)] PH(E)
在一个不幸但现在不可避免的术语选择中,统计学家将逆概率 PH(E) 称为 H 对 E 的“可能性”。它表示假设在给定背景信息的情况下预测数据的程度。概率 P。
在上面讨论的例子中,J. Doe 于 2000 年去世的情况是老年公民身份的一个相当强的预测指标。事实上,方程 PH(E) = 0.57 告诉我们,当年总死亡人数的 57% 发生在老年人中。贝叶斯定理让我们利用这些信息来计算 J. Doe 死亡的“直接”概率,因为他或她是一名老年人。我们通过将“预测项”PH(E) 乘以人口中死亡总数与人口中老年人数的比率来实现这一点,P(H)/P(E) = 2.4M/16.6 M = 0.144。结果是 PE(H) = 0.57 × 0.144 = 0.082,正如预期的那样。
虽然贝叶斯定理在数学上很琐碎,但它在计算条件概率时具有很大的价值,因为逆概率通常比直接概率更容易确定,而且主观性更小。对 E 和 H 的无条件概率持不同看法的人们通常不同意 E 作为 H 指标的价值。即便如此,如果他们知道以下任何一个主观间可用的事实,他们也可以就假设预测数据的程度达成一致: (a) E 在给定 H 的情况下的客观概率,(b) 如果 H 为真,则 E 等事件发生的频率,或者 (c) H 在逻辑上蕴含 E 的事实。科学家经常设计实验,以便可以在一个实验中了解可能性这些“客观”的方式。贝叶斯定理确保任何关于实验结果重要性的争议都可以追溯到关于 H 和 E 无条件概率的“主观”分歧。
当 PH(E) 和 P~H(E) 都已知时,实验者甚至不需要知道 E 的概率即可使用贝叶斯定理确定 PE(H) 的值。
(1.3) 贝叶斯定理(第二式)。[4]
PE(H) = P(H)PH(E) / [P(H)PH(E) + P(~H)P~H(E)]
在这种情况下,贝叶斯定理对于从结果推断原因特别有用,因为在假定原因存在或不存在的情况下,通常很容易辨别结果的概率。例如,医生经常使用具有公认的敏感性和特异性的诊断测试来筛查已知流行的疾病。测试的敏感性,即“真阳性”率,是疾病患者测试呈阳性的次数的比例。该测试的特异性,即“真阴性”率,是指测试结果呈阴性的健康患者的比例。如果我们让 H 为给定患者患有该疾病的事件,E 为其检测呈阳性的事件,则测试的敏感性和特异性由可能性 PH(E) 和 P~H(~E) 给出分别为,人群中该疾病的“基线”患病率是 P(H)。考虑到有关疾病对测试结果影响的这些输入,我们可以使用(1.3)来确定给定阳性测试的疾病概率。有关此过程的更详细说明,请参阅补充文档“示例、表格和证明草图”中的示例 1。
2. 贝叶斯定理的特殊形式
贝叶斯定理可以以多种可用于不同目的的形式来表达。一种版本采用鲁道夫·卡尔纳普 (Rudolf Carnap) 所说的相关商或概率比 (Carnap 1962, 466)。这是因子 PR(H, E) = PE(H)/P(H),H 的无条件概率必须乘以该因子才能得到其以 E 为条件的概率。贝叶斯定理相当于概率比的简单对称原理。
(1.4) 概率比规则。
PR(H,E) = PR(E,H)
右边的术语提供了 H 预测 E 程度的一种度量。如果我们将 P(E) 视为在给定 P 中编码的背景信息的情况下表达 E 的“基线”可预测性,并将 PH(E) 视为 E 的当 H 添加到该背景时的可预测性,则 PR(E, H) 捕获知道 H 使 E 相对于基线或多或少可预测的程度:PR(E, H) = 0 意味着 H 明确预测 ~E; PR(E, H) = 1 意味着添加 H 根本不会改变基线预测; PR(E, H) = 1/P(E) 意味着 H 明确预测 E。由于 P(E)) = PT(E)) 其中 T 是任何逻辑真值,我们可以认为 (1.4) 告诉我们那
以数据体为条件的假设的概率等于假设的无条件概率乘以假设作为数据预测值超越同义反复的程度。
在我们的 J. Doe 示例中,PR(H, E) 是通过将 J. Doe 于 2000 年去世的情况下的高级地位的可预测性与在没有任何关于他或她的死亡率的信息的情况下的可预测性进行比较来获得的。将前一个“预测项”除以后者,得出 PR(H, E) = PH(E)/P(E) = 0.57/0.06036 = 9.44。因此,作为 2000 年高级地位的预测指标,知道 J. Doe 去世比不知道她是否活着要好九倍多。
贝叶斯定理的另一种有用形式是赔率规则。用博彩公司的行话来说,假设的“赔率”是其概率除以其否定概率:O(H) = P(H)/P(~H)。例如,一匹赛马在某场比赛中获胜的几率为 7 比 5,则获胜的几率为 7/12,失败的几率为 5/12。要理解赔率和概率之间的差异,可以将概率视为矛盾概率与同义反复概率之间距离的分数,因此 P(H) = p 意味着 H 为真的可能性是 p 倍作为同义反复。相反,写 O(H) = [P(H) − P(F)]/[P(T) − P(H)] (其中 F 是某种逻辑矛盾)可以清楚地表明 O(H) 表达了这一点与 H 的概率超过矛盾概率的量与同义反复超过 H 的概率的量之比相同的量。因此,“概率论”和“赔率论”之间的区别相当于说“我们已经完成了三分之二的路程”和“我们已经走了两倍远”之间的区别。
概率比的类似物是优势比 OR(H, E) = OE(H)/O(H),H 的无条件优势必须乘以该因子才能获得以 E 为条件的优势。贝叶斯定理是等效的以下关于优势比的事实:
(1.5) 优势比规则。
OR(H, E) = PH(E)/P~H(E)
请注意(1.4)和(1.5)之间的相似之处。虽然每种方法都采用不同的概率表达方式,但每种方法都显示了如何通过将 H 无条件概率的表达式乘以涉及逆概率的因子来获得以 E 为条件的 H 概率表达式。
(1.5) 中出现的量 LR(H, E) = PH(E)/P~H(E) 是给定 E 时 H 的似然比。在例 1 中描述的测试情况下,似然比为测试的真阳性率除以假阳性率:LR = 敏感性/(1 − 特异性)。与概率比一样,我们可以将似然比解释为 H 预测 E 的程度的度量。然而,我们现在不是将给定 H 的 E 概率与其无条件概率进行比较,而是将其与其以 ~H 为条件的概率进行比较。因此,LR(H, E) 是假设作为数据预测因子超越其否定的程度。贝叶斯定理再次告诉我们如何将条件概率分解为无条件概率和预测能力的度量。
以数据体为条件的假设的几率等于假设的无条件几率乘以它作为数据预测因子超过其否定的程度。
在我们运行的 J. Doe 示例中,LR(H, E) 是通过比较考虑到 J. Doe 于 2000 年去世的高级地位的可预测性和考虑到他或她活过这一年的可预测性而获得的。将前者“预测项”除以后者,得到 LR(H, E) = PH(E)/P~H(E) = 0.57/0.056 = 10.12。因此,作为 2000 年高级地位的预测指标,知道 J. Doe 去世比知道他或她还活着要好十倍以上。
如果我们使用相对概率函数 B(H, H* 将 H 的概率表示为其他假设 H* 的概率的倍数,则可以进一步发展贝叶斯定理的“概率比”和“优势比”版本之间的相似性) = P(H)/P(H*)。应该清楚的是,B 概括了 P 和 O,因为 P(H) = B(H, T) 且 O(H) = B(H, ~H)。通过比较 B 的条件值和无条件值,我们得到贝叶斯因子:
BR(H, H*; E) = BE(H, H*)/B(H, H*) = [PE(H)/PE(H*)]/ [P(H)/P(H*) ]。
我们还可以通过设置 LR(H, H*; E) = PH(E)/PH*(E) 来概括似然比。这比较了 E 基于 H 的可预测性和基于 H* 的可预测性。我们可以使用这两个量来制定贝叶斯定理的更一般形式。
(1.6) 贝叶斯定理(一般形式)
BR(H, H*; E) = LR(H, H*; E)
(1.6)的信息是这样的:
以数据体为条件的两个假设的概率之比等于它们的无条件概率之比乘以第一个假设作为数据预测值超过第二个假设的程度。
贝叶斯定理的不同版本仅在用于表达无条件概率的函数(P(H)、O(H)、B(H))和用于表示预测能力的似然项(PR(E, H)、LR(H、E)、LR(H、H*;E))。但在每种情况下,基本信息都是相同的:
条件概率 = 无条件概率 × 预测能力
(1.2) – (1.6) 是贝叶斯定理的乘法形式,它使用除法来比较无条件概率和条件概率之间的差异。有时,这些比较最好通过用差异替换比率来附加地表达。下表给出了每个比率测量的加法模拟。
表1
比率差异
概率比
PR(H, E) = PE(H)/P(H) 概率差
PD(H, E) = PE(H) − P(H)
优势比
OR(H, E) = OE(H)/O(H) 赔率差
OD(H, E) = OE(H) − O(H)
贝叶斯因子
BR(H, H*; E) = BE(H, H*)/B(H, H*) 贝叶斯差
BD(H, H*; E) = BE(H, H*) − B(H, H*)
我们可以使用贝叶斯定理来获得 (1.4) – (1.6) 的加法类似物,此处将其与其乘法对应物一起显示:
表2
比率差异
(1.4) PR(H, E) = PR(E, H) = PH(E)/P(E) PD(H, E) = P(H) [PR(E, H) − 1]
(1.5) OR(H, E) = LR(H, E) = PH(E)/P~H(E) OD(H, E) = O(H) [OR(H, E) − 1]
(1.6) BR(H, H*; E) = LR(H, H*; E) = PH(E)/PH*(E) BD(H, H*; E) = B(H, H*) [BR(H, H*;E) − 1]
请注意如何通过将 H 的无条件概率(以相关标度 P、O 或 B 表示)乘以相关乘法测度减去 1 来获得每个加性测度。
虽然本节的结果对任何使用概率演算的人都有用,但它们与统计、认识论和归纳推理的主观主义或“贝叶斯”方法具有特殊的相关性。 [5]主观主义者在他们的证据支持理论和经验学习的解释中严重依赖条件概率。鉴于贝叶斯定理是关于条件概率的最重要的事实,因此它在主观主义方法论中占据突出地位也就不足为奇了。
3. 贝叶斯定理在主观主义证据解释中的作用
主观主义者认为,信念有不同的强度等级,理想理性人的等级信念可以用主观概率函数 P 表示。对于该人有坚定意见的每个假设 H,P(H) 衡量她的信念水平对 H 真理的信心(或“相信程度”)。[6]条件信念用条件概率来表示,因此PE(H)在假设E是事实的情况下衡量人对H的信心。 [7]
主观主义纲领最有影响力的特征之一是它对证据支持的描述。贝叶斯确认理论的指导思想是:
证实相对论。证据关系必须与个人及其信仰程度相关。
证据比例主义。[8]理性的信徒会将她对假设 H 的置信度与 H 的总证据成比例,以便她对 H 的主观概率反映了她支持或反对其真理的理由的总体平衡。
增量确认。[9]大量数据为 H 提供了增量证据,只要对数据进行调节就可以提高 H 的概率。
第一个原则说,关于证据关系的陈述总是隐含地提及人们及其信仰程度,因此,例如,“E 是 H 的证据”实际上应该被理解为“E 是 H 相对于编码信息的证据”。主观概率P”。
根据证据比例论,受试者对 H 的置信度应该直接随着她支持 H 真相的证据强度而变化。同样,当 E 的假设增强了她对 H 的可信度时,她对 H 的信心水平应该直接随她证明 H 真理的证据的强度而变化。准确地说出一个人的证据的构成是一个微妙的问题, [10] 并解释她的信仰应该如何与之“相称”。然而,只有当主观概率的差异反映了总证据的差异时,增量证据反映在条件概率和无条件概率之间的差异中的想法才有意义。
一项数据为受试者提供了支持或反对假设的增量证据,接收数据会增加或减少其关于假设真实性的总证据。当概率衡量总证据时,E 为 H 提供的证据增量取决于 PE(H) 和 P(H) 之间的差异。当使用赔率时,它是 OE(H) 和 O(H) 之间的差异问题。请参阅补充文件“示例、表格和证明草图”中的示例 2,该示例说明了总体证据和增量证据之间的差异,并解释了因未能正确区分两者而可能导致的“基础率谬误”。
区分与总证据相关的两个辅助概念将很有用。
支持 H 的净证据是指受试者支持 H 的总证据超过其支持 ~H 的总证据的程度。
H 与 H* 的总证据平衡是指受试者支持 H 的总证据超过其支持 H* 的总证据的程度。
这些概念的确切内容将取决于如何理解和衡量总体证据,以及如何表征总体证据中的差异。例如,如果总证据以概率形式给出,并且差异被视为比率,则 H 的净证据为 P(H)/P(~H)。如果总证据用几率来表示,并且用差异来表示差异,那么 H 的净证据将是 O(H) − O(~H)。读者可以查阅表 3(在补充文件中)以获得完整的可能性列表。
正如这些评论所表明的,人们可以将 O(H) 解释为净证据的衡量标准或总证据的衡量标准。为了看出差异,想象一下随机抽取 750 个红球和 250 个黑球,并从已知包含 10,000 个红球或黑球的瓮中进行替换。假设这是我们关于瓮内容物的唯一证据,则设置 P(Red) = 0.75 和 P(~Red) = 0.25 是合理的。在概率作为总证据的解读中,这些分配既反映了我们有大量有利于红色的证据(即 1,000 次抽奖中有 750 次是红色)的事实,也反映了我们也有一些证据的事实反对(即 250 次抽牌是黑色)。那么,红色的净证据就是我们支持红色的总证据与反对红色的总证据之间的差异。这可以用乘法来表示,即我们看到的红色抽奖次数是黑色抽奖次数的三倍,也就是说 O(Red) = 3。或者,我们可以使用 O(Red) 作为总证据的度量通过将红色的证据作为红球与黑球的比值,而不是红球的总数,并且将 ~Red 的证据作为黑球与红球的比率,而不是黑球的总数。虽然使用 O 作为衡量总证据还是净证据的决定对于有关假设的总证据的绝对量的问题几乎没有什么影响(因为 O(H) 是 P(H) 的增函数),但它可以使当人们考虑新信息带来的总证据的增量变化时,存在重大差异。
对描述归纳推理的正确模式和提供科学方法论的“理性重建”感兴趣的哲学家倾向于关注对他们的事业至关重要的增量证据。当科学家(或普通民众)说 E 支持或证实 H 时,他们通常的意思是,了解 E 的真理将增加 H 真理的证据总量。由于主观主义者用主观概率或几率来描述总体证据,因此他们根据这些数量的变化来分析增量证据。根据这种观点,描述增量证据强度的最简单方法是对条件和无条件概率或赔率进行顺序比较。
数学联邦政治世界观提示您:看后求收藏(笔尖小说网http://www.bjxsw.cc),接着再看更方便。