Erlo

RL中on-policy和off-policy的本质区别/重要性采样

2024-12-29 21:30:16 发布   22 浏览  
页面报错/反馈
收藏 点赞

本随笔的图片都来自UCL强化学习课程lec5 Model-free prediction的ppt (Teaching - David Silver ).

回忆值函数的表达式:

[v_pi(s) =mathbb E_pi[G_tmid S_t=s] ]

其中(G_t)是折扣回报。期望(mathbb E)下面的(pi)是简写,实际上应该写作:

[A_t,S_{t+1},A_{t+1}cdots,S_ksimpi ]

无论MC prediction还是TD prediction,都是在估计(mathbb E_pi[G_t mid S_t=s]),本质上是在做policy evaluation,evaluate的是(pi)。从值函数表达式就可以看出,要估计(v_pi),应该整条轨迹(的动作)都是从(pi)上采样的。

如果从行为策略(mu)采样,就变成了用策略(mu)的数据来evaluate策略(pi),这就需要用importance sampling来修正了。

  • 所以对于离策略的MC方法,在轨迹上每次对action的采样,都需要修正:
    image

  • 离策略的TD方法,只用修正一步:
    image

  • Q-learning,直接估计的是(Q^*),遍历action求max不涉及action的采样,天生是离策略,不需要修正:
    image

登录查看全部

参与评论

评论留言

还没有评论留言,赶紧来抢楼吧~~

手机查看

返回顶部

给这篇文章打个标签吧~

棒极了 糟糕透顶 好文章 PHP JAVA JS 小程序 Python SEO MySql 确认