最佳价值函数是() 严~ 选择题 2024-08-14 39 0 A 搜索一种策略π ,使每个状态的价值最大,V∗ 就是到达每一个状态的极大值。 B 最佳策略使得最终状态的价值函数取得最大值。 C 每个马尔可夫决策过程的环境都是可解的,我们就可以得到一个最佳价值函数。 正确答案:A 评论0 请先 登录
评论0