A
可以在线学习(online learning),每走一步就可以更新,效率低。
B
时序差分方法是指在不清楚马尔可夫状态转移概率的情况下,以采样的方式得到不完整的状态序列,估计某状态在该状态序列完整后可能得到的奖励,并通过不断地采样持续更新价值。
C
时序差分方法只能在连续的环境下有终止状态的情况下进行学习。
D
时序差分方法利用了马尔可夫性质,但是在马尔可夫环境下有学习效率低。
正确答案:B
A
可以在线学习(online learning),每走一步就可以更新,效率低。
B
时序差分方法是指在不清楚马尔可夫状态转移概率的情况下,以采样的方式得到不完整的状态序列,估计某状态在该状态序列完整后可能得到的奖励,并通过不断地采样持续更新价值。
C
时序差分方法只能在连续的环境下有终止状态的情况下进行学习。
D
时序差分方法利用了马尔可夫性质,但是在马尔可夫环境下有学习效率低。
正确答案:B
评论0