数学联邦政治世界观
超小超大

Learn General world models

1.Paper: Learning General World Models in a Handful of Reward-Free Deployments

Motivation:building generally capable agents by world models

• Generalize to novel tasks: WM training should not include rewards.

• deploy without retraining too much.

Methods outline

Instead of designing some intrinsic rewards for world model, this work proposes a better exploration policy without reward: It needs information gain and diversity. The focus of our work is on how to train ⇡EXP offline such that it gathers heterogeneous and informative data which facilitate zero-shot transfer to unknown tasks.

如何训练?For zero-shot evaluation, we follow [97] and only train the reward head at test time when provided with labels for our pre-collected data, which is then used to train a behavior policy offine.

How to design such exploration policy?

目标:

πᴇxᴘ=arg max l(dπ ᴍψ;Mψ)=H(dπ ᴍψ) – H(dπ ᴍψ|Mψ)

其意义是在未知MDP(reward function)时,着重探索uncertain的部分,explore;而在已知reward function的时候,Policy倾向于deep explore,即把最成功的路径给走一遍。

进一步地,A cascading objective.首先证明最优点可以到达,基于次和greedy的保证,可以转化为cascading的objective:

π⁽ⁱ⁾=arg max l (∏ ℙΦ ~π₍ⱼ₎[Mψ];Mψ|~π⁽ʲ⁾=π⁽ʲ⁾ ∀j ≤ i – 1)

~π⁽ⁱ⁾ ∈Π ⱼ₌₁

=H(∏ ℙΦ ~π₍ⱼ₎[Mψ]|~π⁽ʲ⁾=π⁽ʲ⁾ ∀j ≤ i – 1)

ⱼ₌₁

– H (∏ ℙΦ π₍ⱼ₎[Mψ]|Mψ,~π⁽ʲ⁾=π⁽ʲ⁾ ∀j ≤ i – 1)

ⱼ₌₁

最后,a tractable obejctive. 在高斯假设下,最终的形式可以被简化的很简单:

π⁽ⁱ⁾=arg max [λPopDivΦ(π|{π⁽ʲ⁾ᴇxᴘ}ⁱ⁻¹ⱼ₌₁+(1 – λ)lnfoGain(π)]

数学联邦政治世界观提示您:看后求收藏(笔尖小说网http://www.bjxsw.cc),接着再看更方便。

相关小说

天道?呵,本神女可是创世神! 连载中
天道?呵,本神女可是创世神!
江边月皎皎
啧啧啧,似乎在这个平台修仙文没什么流量啊。...洛璃月自出生以来,就位居高位,受尽宠爱。可就在某一天,她娘亲爹地全都莫名失踪,而她被人掳走。......
0.4万字12个月前
下一位守门人 连载中
下一位守门人
阿翙_556556860
[养成系女主][异国他乡的探险之旅]一次巧合,我来到了一个奇怪的世界。这里似乎正在经历一次浩劫。这具身体的主人洛伊和他爷爷收养的哥哥阿野被他......
2.5万字10个月前
复仇:命运挽杀 连载中
复仇:命运挽杀
幻夏星河
“杀手的复仇,才刚刚开始。”-林怀雾“一刻之仇,一生莫忘。”-林怀尘“我的复仇,可没有那么简单。”-林思月“君子报仇,十年不晚。”-林思星杀......
0.7万字9个月前
玉言 连载中
玉言
甜墨墨
有病我写的很糟心,看的很糟心。心灵鸡汤保命秘籍随笔会填补的完结再续自我评价:写的神出鬼没的
1.4万字9个月前
黑白公子 连载中
黑白公子
大姑姥
黑白公子
0.8万字7个月前
墨色轩:以命换天机 连载中
墨色轩:以命换天机
狸晟
深夜的旧城区街道空无一人,我因妹妹失踪多日绝望徘徊,当时钟敲响十下,街角突然浮现一座挂着紫色灯笼的阴森小楼,雕花木门无声开启,穿紫裙黑袍的女......
1.4万字6个月前