博弈论的认知基础(五)
在混合策略方面,严格和弱优惠率的定义即使我们正在假设球员只选择纯策略。 也就是说,我们不考虑球员明确随机化的情况。 特别是回顾说,只有纯策略与游戏模型中的状态相关联。 尽管如此,对于混合策略来说,重要的是在混合策略方面定义严格/弱势统治,因为有些纯粹的策略严格(弱)被混合策略主导,而不是任何其他纯粹的策略。
尽管重要的是考虑通过混合策略严格/弱统治的球员的纯策略的情况,但我们不会将上述定义扩展到对手对手的策略。 也就是说,我们不替换上述定义
MI严格为P-POMIDALING M
'
一世
关于x⊆δ(S-I),为所有q∈x,UI(MI,Q)>UI(M)提供
'
一世
,q)。
这是因为这两个定义都是等效的。 显然,质则主导地位意味着严格的主导地位。 看到匡威,假设是m
'
一世
由mi相对于x⊆s-i主导。 我们表明,对于所有q∈δ(x),UI(MI,Q)>UI(M)
'
一世
,q)(如此m
'
一世
是由mi相对于x的p-mimly主导。 假设q∈δ(x)。 然后,
ui(英里,q)=
σ
s-i∈s-我
q(s-1)ui(英里,s-1)>
σ
s-i∈s-我
q(s-1)ui(是
'
一世
,s-1)= ui(是
'
一世
,q)。
上述定义中的参数X旨在表示我所采取的播放器的一组策略配置文件是“现场可能性”。 认知( - 熔化)模型中的每个状态与一组策略配置文件相关联。 在游戏模型中给出了可能的世界W,让S-I(W)表示可能的一组员工我“思考”是可能的。 精确的定义取决于游戏模型的类型:
认知模型假设
g =⟨n,{丝,ui}i∈n⟩
是一个战略游戏和
是=⟨w,{πi}i∈n,σ⟩
是G.对于每个玩家I和w∈w的一个认知模型,定义了SET S-I(W),如下所示:
s-我(w)= {σ-我(v)|v∈πi(w)}
认知 - 合理的模型假设
g =⟨n,{丝,ui}i∈n⟩
是一个战略游戏和
是=⟨w,{~i}i∈n,{⪯i}i∈n,σ⟩
是G.对于每个玩家I和w∈w的一个认识性合理性模型,定义了SET S-I(W),如下所示:
s-我(w)= {σ-我(v)|v∈min⪯i([w]我)}
在任何一种情况下,我们都说,州W的选择是在州W处于SD-Rational,所以提供了它不严格地主导到S-I(W)。 然后将我选择合理性的事件定义为
大鼠
sd
一世
:= {w |Σi(w)不严格地主导s-i(w)}。
此外,我们还有大鼠:=⋂i∈nrat
sd
一世
。 同样,我们可以定义一组员工,其中播放器我正在扮演一个没有弱统治的策略,表示大鼠
wd
一世
和ratwd使用弱优势。
了解自己的行动,前临时情况的商标,在上述定义中发挥着重要作用。 只要w'∈πi(w)强制执行Σi(w')=Σi(w)。 这意味着根据其他玩家的行动的不同组合,根据她当前选择的结果评估玩家我的合理性。
一个重要的特例是,当球员考虑他们所有的对手的策略时。 应该清楚的是,理性球员永远不会选择关于S-I严格主导的策略。 也就是说,如果Si严格地主导了那个s-i,那么没有信息性背景,它对于玩家我选择si是合理的。 这可以使用以下众所周知的引理更精确。
lemma 3.1假设g =⟨n,{si,ui}i∈n⟩是一个战略游戏。 关于x⊆s-I IFF的策略Sińsi严格地(可能是混合策略),没有概率测量p∈δ(x),使得Si是关于p的最佳响应。
该引理的证明在补充项第1节中给出。
一般结论是,没有占主导地位的策略可以在给定的状态最大化预期的效用; 而且,相反,如果有一个在特定上下文中不是最好的策略,那么它并不严格占主导地位。
相似的事实持有弱势统治,尽管情况更加微妙。 至关重要的观察是,在对某些类型的概率措施的最佳反应方面存在弱优势的表征。 如果P为X的每个元素分配正概率(因此,请访问(正式,请(p)= {x∈x|pμp(x)>0} = 0} = 0} = x),则据说概率测量p∈δ(x)具有完全支持(相对于x)。 让Δ>0(x)是x上的全部支持概率措施集。S-i上的完全支持概率意味着玩家我没有完全排除(从某种意义上,她为她的对手分配零概率)。 以下LEMMA 3.1的以下类似物也是众所周知的:
LEMMA 3.2假设G =⟨n,{si,ui}i∈n⟩是一个战略游戏。 关于x⊆s-I IFF的策略Sińsi是弱统治(可能是混合策略),没有完全支撑概率测量p∈δ>0(x),使得Si是关于p的最佳响应。
这种引理的证据更符合。 查看伯纳姆(1984:附录A)的证据。 为了使SI的策略不被严格统治,SI是对信仰的最佳反应就足够了,无论对手的选择是什么,这是关于对手的选择。 可受理性需要更多内容:该战略必须是对不明确排除任何对手选择的信仰的最佳反应。 比较这两个lemmas,我们看到严格的主导地位意味着弱势统治,但不一定反之亦然。 策略可能不是对任何全面支持概率措施的最佳反应,同时对某些特定信念的最佳反应,这些概率一到球员在其当前行动的结果和可能不予受理的概率下漠不关心的状态。
弱者和严格的优势之间存在另外一个至关重要的差异。 以下观察是严格统治的定义:
观察3.3如果Si严格地主导着x和x'ðx,则Si严格地主导了x'。
如果战略严格统治,则仍然存在,如果玩家获得更多关于她的对手(可能)的信息。 因此,如果SI策略是在G游戏G中的一组对手的策略S-I中被严格主导,那么它就永远不会是G. I.,在那里的任何认知(上述定义)中的理性(根据上述定义)没有信仰的球员我可以让si合理。 同样的观察不适合弱优势。 弱优势定义的存在部分意味着观察的模拟3.3不持有弱优势:如果Si相对于x弱主导,则不需要Si对一些x'ūx弱主导。
4.基本面
博弈论的认知方法侧重于特定信息背景下的个别决策者的选择,根据决策理论规则评估。 这是一个自下而上的,而不是经典的自上而下,方法。 此范式的早期工作包括伯恩姆(1984)和Pearce(1984)合理化和Aumann的概念与球员是“贝叶斯理性”的最小假设(AUMANN 1987)。
认知博弈论中的一个重要研究线条要求在历史义务条件下遵循特定解决方案概念的建议? 提供这些病症被称为解决方案概念的认知表征。
在本节中,我们提出了两个基本的认知表征结果。 首先是迭代删除严格统治策略(从此istsIsds)的表征,第二是向后诱导的表征。 这些认知表征结果历史上很重要。 当我们今天知道它时,它们标志着认知博弈理论的开始。 此外,它们也在概念上很重要。 后面的开发部分构建了本节中提出的思想。
4.1迭代删除严格主导的策略
认知博弈理论的中心结果是“合理性和合理性的共识意味着迭代消除严格统治战略。” 该结果已覆盖在Vanderschraaf和Sillari(2009)中覆盖。 因此,而不是专注于正式细节,这里的重点是对博弈论的认识基础的重要性。 一个重要消息是,结果突出了高阶信息的重要性。
4.1.1结果
迭代消除严格主导的策略(ISDS)是一个如下所示的解决方案概念。 首先,从原始游戏中删除任何严格为玩家I(关于所有对手的战略概况)的策略)。 在删除原始游戏中严格主导的策略后,查看所产生的子游戏,删除在那里严格主导的策略,并重复此过程,直到消除不会消除任何策略。 据说这种进程的概况概括地是迭代的。
例如,考虑以下战略游戏:
鲍勃
安
l c r
t 3,3 1,1 0,0
是1,1 3,3 1,0
b 0,4 0,0 4,0
图13
请注意,R对于{T,M,B}而言,R严格占主导地位。 从游戏中删除r,我们有B对于{L,C}的播放器1严格占主导地位。 因此,{(t,l),(t,c),(m,l),(m,c)}被迭代地undatom。 也就是说,迭代地删除严格统治的策略会产生以下序列:
l c r
t 3,3 1,1 0,0
是1,1 3,3 1,0
b 0,4 0,0 4,0
↣
l c
t 3,3 1,1
是1,1 3,3
b 0,4 0,0
↣
l c
t 3,3 1,1
是1,1 3,3
图14
对于任意大(有限)战略游戏,如果所有球员都是理性的,并且普遍认为所有球员都是理性的,那么他们将选择一个迭代非主导的策略。 结果归功于Bernheim(1984)和Pearce(1984)。 请参阅Spohn(1982),了解早期版本,Brandenburger&Dekel(1987)与相关均衡相关。
在说明正式结果之前,我们用示例说明了结果。 我们首先描述上述游戏的“信息语境”。 为此,定义类型空间T =⟨{T1,T2},{λ1,λ2},其中s是上述游戏中的策略配置文件,玩家1的两种类型(t1 = {t1,t2})玩家2的三种类型(T2 = {S1,S2,S3})。 类型函数λi定义如下:
λ1(t1的)
l c r
s1 0.5 0.5 0
s2的0 0 0
s3的0 0 0
λ1(t2的)
l c r
s1 0 0.5 0
s2的0 0 0.5
s3的0 0 0
λ2(s1)
t是b
t1的0.5 0.5 0
t2的0 0 0
λ2(s2的)
t是b
t1的0.25 0.25 0
t2的0.25 0.25 0
λ2(s3的)
t是b
t1的0.5 0 0
t2的0 0 0.5
图15
然后,我们考虑同对,其中s∈si和t∈ti并识别所有Rational对(即,其中s是对λi(t)的最佳响应,请参阅上一节以获取讨论):
rat1 = {(t,t1的),(是,t1的),(b,t2的)}
rat2 = {(l,s1),(c,s1),(l,s2的),(c,s2的),(l,s3的)}
下一步是识别相信其他玩家是合理的类型。 在这种情况下,信念意味着概率1.对于T1,我们具有λ1(t1)(rat2)= 1; 然而,
λ1(t2的)(s2的,r)= 0.5>0,
但(r,s2)∉rat2,所以t2不相信玩家2是合理的。 这可以变成迭代过程,如下所示:让r
1
一世
= rati。 我们首先需要一些符号。 假设为每个我,r
n
一世
已被定义。 然后,定义r
n
一I
如下:
r
n
一I
= {(s,t)||s∈s-i,t∈t-j,以及每个j∈I,(sj,tj)∈r
n
j
}。
对于每个n>1,定义R
n
一世
归纳如下:
r
n + 1
一世
= {(s,t)|(s,t)∈r
n
一世
λi(t)分配概率1至r
n
一I
}
因此,我们有r
2
1
= {(t,t1的),(是,t1的)}。 注意,S2为对不在r中的对(m,t2)分配非零概率
1
1
,S2不相信1是合理的。 因此,我们有r
2
2
= {(l,s1),(c,s1),(l,s3的)}。 继续这个过程,我们有r
2
1
= r
3
1
。 但是,S3为(B,T2)分配非零概率,该概率不在r中
2
1
,所以r
3
2
= {(l,s1),(c,s1)}。 我们一起把一切都放在一起
⋂
n≥1
r
n
1
×
⋂
n≥1
r
n
2
= {(t,t1的),(是,t1的)}×{(l,s1),(c,s1)}。
因此,迭代地删除严格统治策略的所有简档({(t,l),(m,l),(t,c),(m,c),(m,c)})是与玩家是理性的,并且通常认为它们是理性的状态一致的。
请注意,上述过程不需要生成所有生存的策略,迭代地删除严格主导的策略。 例如,考虑具有单个类型的播放器1的类型空间,用于将概率1分配给单个类型的播放器2和L,以及播放器2为播放器1分配给单个类型的单个类型和播放器1和u。 然后,(U,L)是该模型中唯一的策略简介,并且满足了合理性的明显合理性和共同信念。 但是,对于任何类型的空间,如果战略简介与合理性符合合理性和共同的合理信念,那么它必须是在迭代地删除严格占据策略的战略中的一项策略。
定理4.1假设G是一个战略游戏,T是G的任何类型空间。如果(S,T)是其中所有玩家都是合理的,每个人都有常见的合理性相信,对于每个人,
(丝,首选的TI)∈
⋂
n≥1
r
n
一世
- 他是一个策略型材,才能迭代地删除严格统治战略。
该结果对ISDS建立了充分的条件。 它也是一个匡威方向:给出任何幸存者才能消除严格主导的策略的策略型材,有一个模型,其中所有球员都是理性的,这是常识。 换句话说,人们始终可以查看或解释选择策略简介的选择,这些策略配置文件将作为由常识的合理知识产生迭代消除程序。 当然,这种形式的匡威并不是特别有趣,因为我们始终可以定义所有玩家分配给定策略配置文件的类型空间(以及每个播放所需的策略)。 更有趣的是问题是否迭代地删除严格统治战略的全套策略概况是符合理性和共同信念的符合理性。 勃兰登堡&德克尔(1987)的以下定理涵盖了这一点(参见Tan&Werlang 1988):
对于任何游戏G的定理4.2,该游戏有一种类型的结构,其中策略简介与理性的合理性和共同信念一致,是迭代迭代删除严格占主导地位的策略的一系列策略。
查看Friedenberg&Keisler(2010)以获得上述结果的最强大版本。 使用不同的游戏模型(例如,认知模型,认知 - 合理模型等)已经证明了上述结果的类似物。 例如,使用Kripke模型查看相应定理的APT和ZVERPER(2010)证明。