设计1个适合于MDP框架的示例任务,为每个任务确定其状态、行为和奖励。

每个MDP将被单独评分。评分标准为:
描述了一个MDP。(5分)
描述了MDP的状态。(5分)
描述了MDP的行动。(5分)
描述了MDP的回报。(5分)
示例:MDP的一个例子是自动驾驶汽车。状态将是汽车在每个时间步上获得的所有传感器读数:激光雷达、摄像机、剩余燃油量、当前车轮角度、当前速度、gps位置。动作可以是加速、减速、左转和右转。每一步的奖励可以是-1,这样agent就会被鼓励以尽快到达目标,但如果它违反了规则,奖励会是-10亿,这样它就知道不能这么做。

点点赞赏,手留余香 给TA打赏

AI创作

评论0

请先
支持多种货币
支持多种货币付款,满足您的付款需求
7天无忧退换
安心无忧购物,售后有保障
专业客服服务
百名资深客服7*24h在线服务
发货超时赔付
交易成功极速发货,专业水准保证时效性

站点公告

开放大学课程作业辅导,有需要扫码加微信

显示验证码

社交账号快速登录

微信扫一扫关注
扫码关注后会自动登录