本随笔的图片都来自UCL强化学习课程lec5 Model-free prediction的ppt (Teaching - David Silver ).
回忆值函数的表达式:
其中(G_t)是折扣回报。期望(mathbb E)下面的(pi)是简写,实际上应该写作:
[A_t,S_{t+1},A_{t+1}cdots,S_ksimpi ]
无论MC prediction还是TD prediction,都是在估计(mathbb E_pi[G_t mid S_t=s]),本质上是在做policy evaluation,evaluate的是(pi)。从值函数表达式就可以看出,要估计(v_pi),应该整条轨迹(的动作)都是从(pi)上采样的。
如果从行为策略(mu)采样,就变成了用策略(mu)的数据来evaluate策略(pi),这就需要用importance sampling来修正了。
所以对于离策略的MC方法,在轨迹上每次对action的采样,都需要修正:
离策略的TD方法,只用修正一步:
Q-learning,直接估计的是(Q^*),遍历action求max不涉及action的采样,天生是离策略,不需要修正:
参与评论
手机查看
返回顶部