• u******* 加入了本站
  • 游客 下载了资源 LED 灯月亮灯 001 [高分辨率] 3d打印图纸stl文件
  • 游客 下载了资源 LED 灯月亮灯 001 [高分辨率] 3d打印图纸stl文件
  • 游客 购买了资源 国开学习网电大《☆电子商务法律与法规》形考任务四答案
  • 游客 下载了资源 国开电大《Flash动画制作》形考课程考核成品答案实训5:补间动画
  • 游客 购买了资源 国开电大《Flash动画制作》形考课程考核成品答案实训5:补间动画
  • 游客 下载了资源 国开电大《Flash动画制作》形考课程考核成品答案实训4:引导层和遮罩层的应用
  • 游客 购买了资源 国开电大《Flash动画制作》形考课程考核成品答案实训4:引导层和遮罩层的应用
  • 游客 下载了资源 国开电大《Flash动画制作》形考课程考核成品答案实训3:元件和库应用
  • 游客 下载了资源 国开电大《Flash动画制作》形考课程考核成品答案实训3:元件和库应用

设计1个适合于MDP框架的示例任务,为每个任务确定其状态、行为和奖励。

每个MDP将被单独评分。评分标准为:
描述了一个MDP。(5分)
描述了MDP的状态。(5分)
描述了MDP的行动。(5分)
描述了MDP的回报。(5分)
示例:MDP的一个例子是自动驾驶汽车。状态将是汽车在每个时间步上获得的所有传感器读数:激光雷达、摄像机、剩余燃油量、当前车轮角度、当前速度、gps位置。动作可以是加速、减速、左转和右转。每一步的奖励可以是-1,这样agent就会被鼓励以尽快到达目标,但如果它违反了规则,奖励会是-10亿,这样它就知道不能这么做。

内容查看
查看价格2
点点赞赏,手留余香 给TA打赏

评论0

请先
支持多种货币
支持多种货币付款,满足您的付款需求
7天无忧退换
安心无忧购物,售后有保障
专业客服服务
百名资深客服7*24h在线服务
发货超时赔付
交易成功极速发货,专业水准保证时效性
显示验证码

社交账号快速登录

微信扫一扫关注
扫码关注后会自动登录