数学联邦政治世界观
超小超大

Learn General world models

1.Paper: Learning General World Models in a Handful of Reward-Free Deployments

Motivation:building generally capable agents by world models

• Generalize to novel tasks: WM training should not include rewards.

• deploy without retraining too much.

Methods outline

Instead of designing some intrinsic rewards for world model, this work proposes a better exploration policy without reward: It needs information gain and diversity. The focus of our work is on how to train ⇡EXP offline such that it gathers heterogeneous and informative data which facilitate zero-shot transfer to unknown tasks.

如何训练?For zero-shot evaluation, we follow [97] and only train the reward head at test time when provided with labels for our pre-collected data, which is then used to train a behavior policy offine.

How to design such exploration policy?

目标:

πᴇxᴘ=arg max l(dπ ᴍψ;Mψ)=H(dπ ᴍψ) – H(dπ ᴍψ|Mψ)

其意义是在未知MDP(reward function)时,着重探索uncertain的部分,explore;而在已知reward function的时候,Policy倾向于deep explore,即把最成功的路径给走一遍。

进一步地,A cascading objective.首先证明最优点可以到达,基于次和greedy的保证,可以转化为cascading的objective:

π⁽ⁱ⁾=arg max l (∏ ℙΦ ~π₍ⱼ₎[Mψ];Mψ|~π⁽ʲ⁾=π⁽ʲ⁾ ∀j ≤ i – 1)

~π⁽ⁱ⁾ ∈Π ⱼ₌₁

=H(∏ ℙΦ ~π₍ⱼ₎[Mψ]|~π⁽ʲ⁾=π⁽ʲ⁾ ∀j ≤ i – 1)

ⱼ₌₁

– H (∏ ℙΦ π₍ⱼ₎[Mψ]|Mψ,~π⁽ʲ⁾=π⁽ʲ⁾ ∀j ≤ i – 1)

ⱼ₌₁

最后,a tractable obejctive. 在高斯假设下,最终的形式可以被简化的很简单:

π⁽ⁱ⁾=arg max [λPopDivΦ(π|{π⁽ʲ⁾ᴇxᴘ}ⁱ⁻¹ⱼ₌₁+(1 – λ)lnfoGain(π)]

数学联邦政治世界观提示您:看后求收藏(笔尖小说网http://www.bjxsw.cc),接着再看更方便。

相关小说

忆月度年 连载中
忆月度年
旅行的薰衣草
给亲友世界观里设计的oc,完全是自娱自乐向的因此质量和更新全部随缘。
0.3万字6个月前
十二星座:方寸死斗 连载中
十二星座:方寸死斗
简思达江斯特
〖星座文内含cp向注意避雷〗因为杀死所爱之人而被困在噩梦里无法解脱这一次,饱受折磨的少年做了变成女孩子的梦(有刀哈,心理承受能力较差的老婆酌......
1.6万字6个月前
小品一家人观影小品的各种身份 连载中
小品一家人观影小品的各种身份
彩虹神探警长
这里,小品一家人会观影身为学渣的小品的各种身份。
4.7万字3个月前
你就是我的救赎mr 连载中
你就是我的救赎mr
陌然mrr
有一位叫做梦佳的神明,因神明有一项不能拥有感情的规则,所以从小便欠缺感情,她自己也知道自己和别的神明不一样,她更想要拥有感情的生活,没有感情......
2.8万字2个月前
倚靠在时光的背后爱着你 连载中
倚靠在时光的背后爱着你
时光荏苒,初心依旧
王进不知不觉中迷恋上高帅,岁月匆匆,她究竟能不能和高帅真正走在一起呢?……
28.1万字2个月前
公诉之弥补遗憾 连载中
公诉之弥补遗憾
辞泠妤涵
0.5万字6天前