数学联邦政治世界观
超小超大

Learn General world models

1.Paper: Learning General World Models in a Handful of Reward-Free Deployments

Motivation:building generally capable agents by world models

• Generalize to novel tasks: WM training should not include rewards.

• deploy without retraining too much.

Methods outline

Instead of designing some intrinsic rewards for world model, this work proposes a better exploration policy without reward: It needs information gain and diversity. The focus of our work is on how to train ⇡EXP offline such that it gathers heterogeneous and informative data which facilitate zero-shot transfer to unknown tasks.

如何训练?For zero-shot evaluation, we follow [97] and only train the reward head at test time when provided with labels for our pre-collected data, which is then used to train a behavior policy offine.

How to design such exploration policy?

目标:

πᴇxᴘ=arg max l(dπ ᴍψ;Mψ)=H(dπ ᴍψ) – H(dπ ᴍψ|Mψ)

其意义是在未知MDP(reward function)时,着重探索uncertain的部分,explore;而在已知reward function的时候,Policy倾向于deep explore,即把最成功的路径给走一遍。

进一步地,A cascading objective.首先证明最优点可以到达,基于次和greedy的保证,可以转化为cascading的objective:

π⁽ⁱ⁾=arg max l (∏ ℙΦ ~π₍ⱼ₎[Mψ];Mψ|~π⁽ʲ⁾=π⁽ʲ⁾ ∀j ≤ i – 1)

~π⁽ⁱ⁾ ∈Π ⱼ₌₁

=H(∏ ℙΦ ~π₍ⱼ₎[Mψ]|~π⁽ʲ⁾=π⁽ʲ⁾ ∀j ≤ i – 1)

ⱼ₌₁

– H (∏ ℙΦ π₍ⱼ₎[Mψ]|Mψ,~π⁽ʲ⁾=π⁽ʲ⁾ ∀j ≤ i – 1)

ⱼ₌₁

最后,a tractable obejctive. 在高斯假设下,最终的形式可以被简化的很简单:

π⁽ⁱ⁾=arg max [λPopDivΦ(π|{π⁽ʲ⁾ᴇxᴘ}ⁱ⁻¹ⱼ₌₁+(1 – λ)lnfoGain(π)]

数学联邦政治世界观提示您:看后求收藏(笔尖小说网http://www.bjxsw.cc),接着再看更方便。

相关小说

戏子中的女孩:等着,我不会忘你 连载中
戏子中的女孩:等着,我不会忘你
路戏人悲平常心己
主角世界观十分宏大,至今为止,网上绝对没有一个人能超越!更改中……更改内容,名字题目这只是第三本的一个介绍,介绍世界世界观的一本小说,我只能......
2.9万字1周前
极狱——重生之光 连载中
极狱——重生之光
桉姸
剧情跟随故事发展而来
0.7万字1周前
今有包包在锅锅 连载中
今有包包在锅锅
苏晴舟
一个肉包子出生的一个女主幻化成人形来到人间寻找千年泪,是一个用尽一生爱你留下眼泪-
0.6万字1周前
相遇和你 连载中
相遇和你
樱三
李云天为天玄宗立下了汗马功劳,原本是天玄宗宗主继承人,却没想到被宗门弟子嫉妒惨遭暗算,迫不得已打开了异世界的通道,将自己元神分离进入了这个异......
4.2万字3天前
来自遥远云境国度的星月神话 连载中
来自遥远云境国度的星月神话
糖裕
遵守世界法的萝甜甜掌管星星法则,一直爱护着可爱的子民。从西界到东海的旅途由此展开。与一群可爱的同胞,拥有友谊,发现爱情,守护亲情。
0.5万字2天前
八点之后 连载中
八点之后
猹狸猫
古铜巷里的三兄妹,看似商人,实则在治愈着伤心人,每到晚上八点之后,一行人便踏上了夜行之路,每每一件物品物归原主,一件奇异事件便在悄然发生。(......
1.9万字2天前