每个MDP将被单独评分。评分标准为:
描述了一个MDP。(5分)
描述了MDP的状态。(5分)
描述了MDP的行动。(5分)
描述了MDP的回报。(5分)
示例:MDP的一个例子是自动驾驶汽车。状态将是汽车在每个时间步上获得的所有传感器读数:激光雷达、摄像机、剩余燃油量、当前车轮角度、当前速度、gps位置。动作可以是加速、减速、左转和右转。每一步的奖励可以是-1,这样agent就会被鼓励以尽快到达目标,但如果它违反了规则,奖励会是-10亿,这样它就知道不能这么做。
点点赞赏,手留余香
给TA打赏
评论0