对于时序差分方法理解正确的是()。

A
可以在线学习(online learning),每走一步就可以更新,效率低。
B
时序差分方法是指在不清楚马尔可夫状态转移概率的情况下,以采样的方式得到不完整的状态序列,估计某状态在该状态序列完整后可能得到的奖励,并通过不断地采样持续更新价值。
C
时序差分方法只能在连续的环境下有终止状态的情况下进行学习。
D
时序差分方法利用了马尔可夫性质,但是在马尔可夫环境下有学习效率低。
正确答案:B

评论0

请先
  • u******* 登录了本站
  • u******* 登录了本站
  • u******* 登录了本站
  • u******* 登录了本站
  • u******* 登录了本站
  • u******* 登录了本站
  • 游客 下载了资源 2019年420联考《行测》真题(云南卷)答案及解析
  • u******* 登录了本站
  • u******* 登录了本站
  • 游客 下载了资源 2013年广东公务员考试《行测》三卷答案及解析
  • 游客 下载了资源 2018年421联考《行测》真题(新疆卷)答案及解析
  • u******* 登录了本站
  • u******* 登录了本站
  • u******* 登录了本站
  • u******* 加入了本站
  • u******* 登录了本站
点击浏览器地址栏的⭐图标收藏本页
需要托管,代写作业,论文可以扫码加微信,也可以线上立即下单
显示验证码

社交账号快速登录

微信扫一扫关注
扫码关注后会自动登录