数学联邦政治世界观
超小超大

Learn General world models

1.Paper: Learning General World Models in a Handful of Reward-Free Deployments

Motivation:building generally capable agents by world models

• Generalize to novel tasks: WM training should not include rewards.

• deploy without retraining too much.

Methods outline

Instead of designing some intrinsic rewards for world model, this work proposes a better exploration policy without reward: It needs information gain and diversity. The focus of our work is on how to train ⇡EXP offline such that it gathers heterogeneous and informative data which facilitate zero-shot transfer to unknown tasks.

如何训练?For zero-shot evaluation, we follow [97] and only train the reward head at test time when provided with labels for our pre-collected data, which is then used to train a behavior policy offine.

How to design such exploration policy?

目标:

πᴇxᴘ=arg max l(dπ ᴍψ;Mψ)=H(dπ ᴍψ) – H(dπ ᴍψ|Mψ)

其意义是在未知MDP(reward function)时,着重探索uncertain的部分,explore;而在已知reward function的时候,Policy倾向于deep explore,即把最成功的路径给走一遍。

进一步地,A cascading objective.首先证明最优点可以到达,基于次和greedy的保证,可以转化为cascading的objective:

π⁽ⁱ⁾=arg max l (∏ ℙΦ ~π₍ⱼ₎[Mψ];Mψ|~π⁽ʲ⁾=π⁽ʲ⁾ ∀j ≤ i – 1)

~π⁽ⁱ⁾ ∈Π ⱼ₌₁

=H(∏ ℙΦ ~π₍ⱼ₎[Mψ]|~π⁽ʲ⁾=π⁽ʲ⁾ ∀j ≤ i – 1)

ⱼ₌₁

– H (∏ ℙΦ π₍ⱼ₎[Mψ]|Mψ,~π⁽ʲ⁾=π⁽ʲ⁾ ∀j ≤ i – 1)

ⱼ₌₁

最后,a tractable obejctive. 在高斯假设下,最终的形式可以被简化的很简单:

π⁽ⁱ⁾=arg max [λPopDivΦ(π|{π⁽ʲ⁾ᴇxᴘ}ⁱ⁻¹ⱼ₌₁+(1 – λ)lnfoGain(π)]

数学联邦政治世界观提示您:看后求收藏(笔尖小说网http://www.bjxsw.cc),接着再看更方便。

相关小说

雅家:六大天王 连载中
雅家:六大天王
77小X
原创男主角女主角
4.0万字5个月前
路西法今天堕天了吗? 连载中
路西法今天堕天了吗?
加木男
上帝不容亵渎,拥护他的前行。
3.4万字3个月前
梦:我的一百零一个梦 连载中
梦:我的一百零一个梦
聪明的呆子
他们说,梦里梦到的人,现实就见不到了如果我说我不信呢,我一定会见到你的
0.6万字3个月前
秋风下的女孩 连载中
秋风下的女孩
166***982_8882861693
同化,初心,消散
0.3万字2个月前
我与神明之间的无数种可能 连载中
我与神明之间的无数种可能
须臾本愚
【双向暗恋+一见钟情】都说神明普度天下,潞鸢却不赞同。初入九重天,潞鸢带着灭族之痛,一腔怒火,此生只为手刃仇人与神明。再入九重天,他带着身后......
10.8万字2个月前
恋爱的九九八十一面 连载中
恋爱的九九八十一面
春敬惊
有虐男师徒恋正常恋爱与笔下角色相恋...你想看的脑洞它都有
2.1万字2周前