对于时序差分方法理解正确的是()。

A
可以在线学习(online learning),每走一步就可以更新,效率低。
B
时序差分方法是指在不清楚马尔可夫状态转移概率的情况下,以采样的方式得到不完整的状态序列,估计某状态在该状态序列完整后可能得到的奖励,并通过不断地采样持续更新价值。
C
时序差分方法只能在连续的环境下有终止状态的情况下进行学习。
D
时序差分方法利用了马尔可夫性质,但是在马尔可夫环境下有学习效率低。
正确答案:B

评论0

请先
  • 游客 下载了资源 爱普生Epson L1800 驱动
  • 游客 下载了资源 爱普生Epson L1800 驱动
  • u******* 登录了本站
  • 游客 下载了资源 爱普生Epson L1800 驱动
  • 游客 下载了资源 爱普生Epson L1800 驱动
  • 游客 下载了资源 爱普生Epson L1800 驱动
  • 游客 下载了资源 爱普生Epson L1800 驱动
  • 游客 下载了资源 爱普生Epson L1800 驱动
  • 游客 下载了资源 爱普生Epson L1800 驱动
  • 游客 下载了资源 爱普生Epson L1800 驱动
  • u******* 登录了本站
  • 游客 下载了资源 2019年420联考《申论》真题(海南乡镇卷)及参考答案
  • 游客 下载了资源 爱普生Epson ME OFFICE 85ND 打印机驱动
  • u******* 登录了本站
  • 游客 下载了资源 2020年下半年教师资格证考试《高中音乐》题解析
  • 游客 下载了资源 佳能Canon PIXMA TS6000 Series 驱动
点击浏览器地址栏的⭐图标收藏本页
需要托管,代写作业,论文扫码加微信
显示验证码

社交账号快速登录

微信扫一扫关注
扫码关注后会自动登录