决策理论(五)

Stefánsson和布拉德利(2019)建议又在杰弗里决策理论延伸方面考虑了Allais'偏好的方式; 这次扩展到机会命题,即描述客观概率分布的命题。 一般思想是,特定增加或减少某些结果的可能性 - 例如,在allais案例中,0.01美元增加0.01美元 - 可能取决于在增加或减少之前的机会。 Stefánsson和Bradley的杰弗里理论延伸到机会主张也是为了使标准决策理论不区分对一些良好的良好和态度的风险厌恶(例如,由例如,发现有问题的态度)Hansson 1988,Rabin 2000和Buchak 2013)。

5.2完整性:模糊的信仰和欲望

如第4节所述,欧盟对完整偏好排序的要求的批评是由认知和欲望/价值考虑的激励。 在价值方面,许多符合理性剂可能只是由于其不可递送的品质而无与伦比的两种选择。 (这里将遵循对这些术语的突出用途,从而可以将特定选项描述为价值无与伦比的,而值的一般性质或尺寸可以被描述为不可允许的。)如,代理商的评估可能不可取的选择可能不可颂扬任何精确的效用功能。 同样,在信仰方面,一些竞争(特别是乔伊斯2010和Bradley 2017),证据可能是它不致力于通过独特的概率函数可测量的精确信仰程度。

有各种各样的“模糊”表示可能被视为更合适的欲望和信念。 例如,一旦我们离开概率,Halpern(2003)调查了概念化和代表性不确定性的不同方式。 据推测,还有各种方式来代表不确定的愿望。 这里的重点将只是一个哲学家中流行的一个提议:使用概率和效用函数的使用分别代表信仰和欲望的不确定性。 这是标准欧盟模型的最小概括,意义于概率和实用措施仍然存在。 粗略地,认知不确定性越严重,可能需要更加符合代理人的信仰所需的可能性空间所需的概率措施。 理性信念的这种概念被称为不精确的概率(参见不精确概率的条目)。 同样,评估不确定性越严重,在结合代表代理人的欲望所需的空间内更具效用措施。 严格来说,我们不应分开对待信仰和欲望,而是谈论代理的不完整偏好由一组概率和公用事业对代表。 回想一下,要求不完全偏好是连贯伸展的(参阅第1节); 在此表示中,所有概率 - 实用程序对不完全偏好的候选扩展。

然后出现问题:欧盟决策规则是否有保守概括,可以处理概率和公用设施对的组? 竞争者决策规则是在选择函数方面的标准帧,该函数作为输入某些可行选项并返回为输出作为可行选项的子集的非空允许选择。 对这些选择函数的基本约束是它们在选项实际上可比的情况下尊重代理的偏好。 也就是说,如果特征在于代理态度的所有概率和效用函数对进行两种选择的排名,那么这些特定选项应相应地进行排名。 选择函数的相关约束是“欧盟主导选项”不可允许的选择,即,如果根据所有概率和实用程序函数,那么选项比另一种选择较低的预期效用,那么前一个主导的选项不是允许的选择。 请注意,Levi(1986)对可否受理具有稍微限制的条件:如果至少有一对概率和公用事业功能的选项没有最大欧盟,则不可允许。 然而,在普通情况下,概率和公用事业函数被封闭凸起集合,Levi的条件相当于上述规定欧盟主导选项的情况(Schervish等,2003)。

治疗真正无与伦比的选择(那些幸存的那些受理测试,而且不是这样的代理人是无动于衷的)是真正的争议开始的地方。 查看布拉德利(2017),广泛地讨论各种方式进行。 经常被呼吁以歧视无与伦比的选择的考虑因素谨慎。 例如,MaxMin-eu规则建议在最大的最低预期实用程序中选择采取的操作(请参阅Gilboa和1989; Walley 1991)。 这些规则易于使用,但可以说太谨慎,根本没有注意到预期公用事业的全部传播。 相比之下,α-Maxmin规则建议使用与其相关联的最小值和最大预期实用程序的最大α加权之金的动作。 最小和最大预期公用事业公司的相对权重可以被认为是反映出决策者在不确定的情况下反映出决策者的悲观主义,否则她的谨慎程度(参见Binmore 2009)。

有更复杂的选择规则,依赖于富裕的不确定性表示涉及信心概念的不确定性。 例如,Klibanoff等人。 (2005)提出了规则,在基于信心加权预期效用的基础上,在另外无与伦比的选择之间进行选择。 它假设可以将权重分配给与行为相关的各种预期实用程序,反映了代理对相应概率和公用事业对的置信度。 即使在没有精确的主要重量的情况下,也有替代规则吸引着自信。 例如,Gärdenfors和Sahlin(1982)建议仅从考虑到置信阈值以下的任何概率(和效用)函数,然后根据剩余部分应用MaxMin-欧盟规则。 Hill's(2013)选择理论有点相似,尽管允许对概率和公用事业对的置信阈值取决于选择问题(并且术语“信心”本身以不同方式使用)。 还有进一步的提案,即在他们可以忍受的不确定性(再次取决于置信水平),并且仍然是令人满意的选择(参见,例如,参见,例如,参见,例如,参见,例如,参见,例如,参见,例如,参见,例如,参见Ben-Haim 2001)。 这些规则是引人注目的,但他们确实提出了一些关于如何解释和衡量发挥作用的额外主观态度的艰难问题,比如“信仰/欲望的信心数量”和“令人满意的可取性水平”。

5.3不明确

近期对预期效用理论的进一步挑战,即令人兴趣,即来自毫无意义的挑战。 事实上,对所有现存规范理论的选择呈现出挑战。 为了保持简单,我们将关注野蛮的预期效用理论,以说明因不明确提出的挑战。

随着读者将回忆中,野蛮人认为一系列可能的结果O,以及世界上另一组可能的状态,并定义了该组的行为F,因为从S到O的所有功能集。此外,他的代表定理被解释为证明理性人员始终在F中最大化预期效用的F的行为以及O的概率测量和O.上的概率测量,证明理性人员始终证明了最大限度的人的行为。

现在,萨维奇的理论是如何解释S中的州和O中的结果的中立。例如,该理论与分别的逻辑上可能的状态和结果的集合相一致,但它也分别与解释S和O相一致一些莫制家承认的国家和成果的组织和结果决策者自己承认的州和结果。

如果理论意味着描述决策者的推理,则前两个解释似乎逊色于第三个解释。 前两种解释的问题是决策者可能不知道逻辑上可能的国家和结果,以及莫德勒所知道的一些州和结果。 (已经说过,人们可以识别代理人通过引用莫德勒所知的那些而不知道的国家和结果。)

当涉及(部分)不知不行决策者时,可以在一方面拨打“不明确”的一方面,这是一个重要的区别 - 这是一个决策者没有意识到可能存在一些结果或国家的情况他们没有意识到 - 另一方面,“对无意识的意识” - 这是一个决策者至少怀疑的情况,其中有一些结果或状态是不知道的。

从决策的角度来看,对不知意的不明确并不有多兴趣。 毕竟,如果一个人甚至没有意识到一个人没有意识到某种州或结果,那么这种不明显不能在一个人的推理中发挥任何作用。 然而,已经提出了理性人员如何响应意识的增长的决定性模型(即使是以前没有意识到他们不明确的人)。 特别是,经济学家Karni和Vierø(2013年,2015年)最近将标准贝叶斯的条件扩展到了这种学习活动。 他们的理论,反向贝叶斯主义,非正式地说,意识增长不应影响代理人在增长之前所知的国家/结果的概率比例。 Richard Bradley(2017)在更普通的Jeffrey风格框架的背景下捍卫类似的原则,而Roussos(2020)也是如此; 但该观点由Steele和Stefánsson(即将到来的-A,即将到来的-B)和Mahtani(即将到来)的批评。

相比之下,从决策的角度来看,对无意识的意识似乎是极大的兴趣。 如果您怀疑有一些可能的状态,例如,您还没有娱乐,以及一些相应的结果,您不知道的内容,那么您可能希望至少来到您预期这种状态的可能性,以及您期望相应的结果有多好或坏的观点在你做出决定之前。

许多人建议模型代表意识到他们不明确的代理(例如,Walker&Dietz 2013,Piermont 2017,Karni&Vierø2017)。 Steele和Stefánsson(即将到来的斯蒂芬森(即将举行的斯蒂芬森(即将举行)认为,在她意识到她意识到的国家/结果的决策者的原因,在她在判决中的信心以及她如何管理风险方面,这有什么特别鲜明的。 也就是说,她到达这种概率和可取性等判断的方式值得进一步探索。 例如,赠款和Quiggin(2013A,2013B)建议,这些判决是基于从过去的情况的诱导而制定的,其中一个经历了认识增长。

一般来说,对无意识的文献一直在迅速增长。 布拉德利(2017年)和Steele和Stefánsson(即将到来的-B)是在哲学中的这个话题的新深入治疗。 Schipper在毫无意识的情况下维护了一本参考书目,主要是在经济学和计算机科学中的论文,\ url {http://faculty.econ.ucdavis.edu/faculty/schipper/unaw.htm}。

6.顺序决策

萨维奇和杰弗里的决定理论以及批评者的决定,显然关注单身或“只有”决定; 在问题上是代理人的偏好订购,最终在特定时间点处选择行动。 可以将其称为静态决策问题。 问题出现了本框架是否足以处理更复杂的情景,特别是那些涉及系列或决策顺序的方案; 这些被称为顺序决策问题。

在纸上,至少,静态和顺序决策模型看起来非常不同。 静态模型具有熟悉的表格或正常形式,每行代表可用的行为/选项,以及表示世界各行为的给定结果的世界各种的列。 另一方面,顺序决策模型具有树木或广泛的形式(例如图1中)。 它描绘了一系列预期的选择点,其中从选择点延伸的分支代表该选择点的选项。 其中一些分支导致进一步的选择点,通常在解决由于新证据引起的一些不确定性之后。

静态和顺序决策模型之间的这些基本差异提出了关于如何彼此相关的问题:

静态和顺序决策模型描绘了相同的决策问题吗? 如果是这样,则序列决策模型的静态对应物是什么?

顺序决策设置是否会揭示欧盟理论的任何进一步(DIS)的优势? 更一般地在选择的规范理论上阐明了闪光吗?

这些问题结果是相当争议的。 在现场与关于尤利西斯的旧故事设置之后,他们将被解决。

6.1尤利西斯理性吗?

一个众所周知的连续决策问题是他在荷马的古代故事中对伊萨卡的旅程中的尤利西斯的一个面向尤利西斯。 尤利西斯必须选择他将在甜蜜的警报器居住的岛屿上驶过的方式。 他可以选择无拘无束的帆船束缚或绑在桅杆上。 在前一种情况下,尤利西斯将在听到警笛后,尤利西斯将选择,以便继续举办伊萨卡或无限期地留在岛上。 在后一种情况下,他不会自由地进一步选择,船舶将向伊萨卡航行过去甜美的警报器。 最终结果取决于尤利西斯的选择序列。 尤利西斯的决策问题在图1中的树(或广泛)形式中表示(两个盒子代表尤利索的选择点)。

图1.尤利西斯的决策问题

我们被告知,在开始之前,尤利西斯最喜欢自由地听到警报器并回到伊萨卡的家园。 问题是尤利西斯预测他未来的自我不会遵守:如果他不受约束,他将稍后会被警笛诱惑,实际上不会在伊萨卡继续回家,但宁愿宁愿留在岛上。 因此,尤利西斯将被绑在桅杆上更好的原因,因为他更喜欢被绑在桅杆上的耻辱和不适,并使它永远留在警笛岛上。

难以否认尤利西斯在与桅杆上有明智的选择。 然而,有些人仍然存在,尤利西斯不是一个示范性代理人,因为他现在的自我必须与他未来的自我扮演那些将不知不觉地被警报器诱惑的自我。 虽然尤利西斯在静态决策标准的第一选择节点是合理的,但我们可能通过顺序决策标准整体而言,在选择的选择的相对价值方面可以理解他。 毕竟,尤利西斯不可避免地追求的选择顺序是次优。 他能够更好地驾驶无约束并继续在伊萨卡的家中。 如果尤利索在延长的时间段内连续合理,则可以实现该序列; 说,如果at曾经是欧盟最大化者,并且只按照贝叶斯规范(标准条件的变种),改变他的信仰和欲望。 在这种阅读中,顺序决策模型引入了合理性的考虑因素。

虽然合理性过度时间可能导入评估代理人的偏好和用于改变这些偏好的规范(以这种方式可以阅读以下下面的第6.2节中的讨论),但仍然是代理人如何根据她的偏好在任何给定的时间点起作用的重要问题。 为此,可以效果地将顺序决策模型作为帮助在特定时间内确定理性选择的工具,就像静态决策模型一样。 顺序决策树是有效的一种可视化代理人认为将在未来面临的选择和学习活动的方式,这取决于她会发现自己的决策树的哪个部分。 那么,关键问题是:代理应该如何根据她预定的决策树在她的初始选项中选择? 这个问题产生了令人惊讶的争议。 在文献中出现了谈判连续决策树的三种主要方法。 这些是天真或近视的方法,复杂的方法和坚决的方法。 这些将依次讨论; 建议争议可能不是很大的,而是表示序贯决策模型的解释中的微妙差异。

所谓的谈判顺序决定的天真方法用作与其他两种方法的有用对比。 Naïve代理假设通过决策树的任何路径都是可能的,因此在鉴于他/她存在的态度时,无论哪个路径都是最佳的。 例如,一个天真的尤利西斯将简单地假设他有三种整体策略可供选择:要么订购船员将他绑在桅杆上,或者没有这样的命令,然后在警笛岛上停下来,或者没有发出这样的命令,或者没有签发到他的课程。 尤利西斯更喜欢与后者组合有关的结果,因此他不会通过命令船员来抑制他来启动这一战略。 表5显示了天真ulysses的决策问题的静态对应。 实际上,该决策模式并没有考虑到尤利西斯对他未来的偏好的了解,因此建议他追求预计是不可能的选择。

法案结果

订单绑在桅杆上。到家,一些羞辱

无约束风帆然后留在警报器。生活与警报器

帆船不受约束然后回到伊萨卡。到家,没有羞辱

表5.天真的尤利西斯的决策问题

没有必要劳动,即赤字对顺序选择的方法恰当地命名。 相比之下,复杂方法的标志是重点落后计划:复杂的选择器并不假设通过决策树或换句话说,可以实现各种选择节点的所有可能的选择组合。 代理人认为,当他/她到达问题的时间位置时,他/她将倾向于选择稍后的选择节点。 复杂的尤利西斯将注意到,如果他到达国旗的岛屿无拘无束,他将希望无限期地阻止,由于警笛歌曲对他的喜好的变革效果。 然后,这反映在决策问题的静态表示中,如下表6.这里的州关注尤利的未来偏好,一旦他到达岛屿。 由于第二个状态具有(通过假设)概率为零,因此根据第一个状态决定该行为,因此尤利西斯明智地选择与桅杆捆绑在一起。

行为。后来选择警报(P = 1)后来选择ithaca(p = 0)

订单绑在桅杆上。家,一些羞辱。家,一些羞辱

帆无约束。生活与警报器。家,没有羞辱

表6.复杂的尤利西斯的决策问题

鉴于他对态度的莫名其妙的变化,尤其是在尤利西斯的某些条件下偏离复杂的选择。 坚决选择的捍卫者通常捍卫违反独立公理/肯定原则的决策理论和相关偏好(特别是McClennen 1990和Machina 1989;另见Rabinowicz 1995和Buchak 2013进行讨论),并吸引坚决的选择使这些偏好在顺序决定上下文中更加适得(在下文第6.2节中进一步讨论)。 根据坚决的选择,在适当的背景下,代理人应在所有选择点粘贴到最初认为最佳的策略。 鉴于顺序决策模型的标准解释,此问题是否有意义。 代理人选择对她的偏好来说是什么意思,以满足以前选择的计划? 这似乎似乎违背了偏好的概念。 当然,代理人可能会对纪念以前的承诺来说。 然而,任何这样的诚信担忧都应该可以可以在结果的规范中反映,因此在讨论的时候在代理商的偏好中反映出来。 这与一个人在一个人的所有事情中选择了一步的偏好是完全不同的。

坚决选择的捍卫者可能会考虑到对顺序决策模型的不同解释,由此未来的“选择点”并不是真正的指向,代理人当时是根据她的喜好选择的。 如果是这样,这将适用于兴趣的问题或问题的微妙转变。 在下文中,将假设顺序决策模型的标准解释,因此,将假设理性代理追求复杂的选择方法(根据Levi 1991,Maidenfeld 1994,Seidenfeld 1994,其中)。

6.2重新审视欧盟公理

我们已经看到,连续的决策树可以帮助像尤利西斯这样的代理人对他目前的选择的后果库存,这样他就可以更好地反思现在该做什么。 然而,顺序选择的文献主要有关,有更多雄心勃勃的问题。 顺序决策设定有效地提供了“测试”理性偏好和偏好(或信仰和欲望)变化的理性优先之处理论的新方法。 问题是代理人的决策理论是否被认为是动态不一致的或彻靠的。

Skyrms'(1993)“Diachronic Dutch Book”的条件参数可以通过这种方式阅读。 假设代理具有欧盟的偏好,并采取复杂的(向后推理)方法来顺序决策问题。 Skyrms表明,任何计划以条件的赔率为方式学习的这些代理将在某些特殊的连续决策情况下使自我衰败选择。 相比之下,有条件的代理人永远不会做出这种方式的选择。 这里发出的“自我击败选择”是那些产生肯定的损失。 也就是说,如果只有她的学习规则,她的灯光,代理人选择了一项肯定更糟糕的策略,这些策略比她可能选择的另一个策略是她可能选择的策略,这是她将在一个或多个将来的决策节点中选择不同的方式。

除了按照有条件的情况下,除了学习之外,还可以使用类似的“动态一致性”参数来保护欧盟偏好(参见Hammond 1976,1981,1988B,C)。 如前所述,假设代理采用复杂的方法来顺序决策问题。 哈蒙德表明,只有一个完全贝叶斯代理商可以计划在初始选择节点处被视为最佳的顺序决策树中的任何路径。 这使得贝叶斯代理商是独一无二的,因为她的偏好和偏好变化的偏好和规范将永远不会“彻底击败选择”。 如果只有她的偏好,她永远不会选择她自己的灯,而她可能选择的策略更糟糕的策略,这是她的偏好,因为她的偏好是她会在一个或多个将来的决策节点中选择不同。

(本章完)

相关推荐