设计1个适合于MDP框架的示例任务,为每个任务确定其状态、行为和奖励。

每个MDP将被单独评分。评分标准为:
描述了一个MDP。(5分)
描述了MDP的状态。(5分)
描述了MDP的行动。(5分)
描述了MDP的回报。(5分)
示例:MDP的一个例子是自动驾驶汽车。状态将是汽车在每个时间步上获得的所有传感器读数:激光雷达、摄像机、剩余燃油量、当前车轮角度、当前速度、gps位置。动作可以是加速、减速、左转和右转。每一步的奖励可以是-1,这样agent就会被鼓励以尽快到达目标,但如果它违反了规则,奖励会是-10亿,这样它就知道不能这么做。

内容查看
查看价格2
点点赞赏,手留余香 给TA打赏

评论0

请先
  • 游客 下载了资源 2019年420联考《申论》真题(新疆区县卷)及参考答案及解析
  • u******* 下载了资源 2026年春江苏开放大学行政伦理学060197综合大作业
  • 妖**乐 下载了资源 2026年春江苏开放大学电子商务060185第一次实训考核作业
  • u******* 登录了本站
  • u******* 签到打卡,获得1元奖励
  • u******* 登录了本站
  • u******* 加入了本站
  • u******* 登录了本站
  • u******* 登录了本站
  • u******* 登录了本站
  • u******* 登录了本站
  • u******* 登录了本站
  • u******* 登录了本站
  • u******* 下载了资源 2024年在线网课学习课堂《Culture and Tourism(南开 )》单元测试考核答案.pdf
  • u******* 登录了本站
  • 1******* 投稿收入增加0.8块钱
点击浏览器地址栏的⭐图标收藏本页
需要托管,代写作业,论文扫码加微信
显示验证码

社交账号快速登录

微信扫一扫关注
扫码关注后会自动登录