2024年春江苏开放大学强化学习060733形考作业2

微信小程序
资源下载
下载价格10

试题列表
单选题
题型:单选题客观题分值5分难度:一般得分:5
1
下列关于动态规划思想的说法中,不正确的⼀项是( )
A
动态规划要将⼤的问题拆分成若⼲个⽐较⼩的问题,分别求解这些⼩问题,再⽤这些⼩问题的结果
来解决⼤问题
B
动态规划将问题在时间维度上进⾏拆分,称为时间差分,即利⽤下⼀时刻状态的价值计算当前时刻
状态的价值,直到计算出所有状态的价值
C
三连棋游戏不同的状态虽然很多,但是状态的转移其实是有⽅向性的
D
对于三连棋游戏,可以按照从前往后的顺序依次找出各种状态的价值
正确答案:D
题型:单选题客观题分值5分难度:简单得分:5
2
概率函数和奖励函数的说法正确的是()
A
无法表现环境的随机性
B
概率函数定量地表达状态转移的概率
C
一个未知的环境中,即概率函数未知的,但是奖励函数是已知的
正确答案:B
题型:单选题客观题分值5分难度:简单得分:5
3
在三连棋游戏中,如果玩家的第⼀步棋选择⾛中间,那么下列分析错误的是( )

A
电脑下⼀步选择⻆或边的概率各为1/2。
B
若电脑选择边,则⼈类玩家有必胜策略。
C
若电脑选择⻆,则⼈类玩家的最佳动作是选择边,有的概率可以获胜。
D
可以获得的期望奖励为1*1/2+1*(1/2)*(2/3)=5/6。
正确答案:C
题型:单选题客观题分值5分难度:简单得分:5
4
蒙特卡洛方法()
A
蒙特卡洛方法需要马尔可夫决策过程的状态转移函数和奖励函数。
B
蒙特卡洛方法需要更新多条轨迹的状态。
C
适用于环境未知的情况。
D
蒙特卡洛方法与动态规划是一个概念。
正确答案:C
题型:单选题客观题分值5分难度:简单得分:5
5
下列关于策略下状态价值的表达式正确的是( )
注:下列选项中表示策略, 表示折扣因⼦, Rt表示t时刻奖励, St表示t时刻状态, At表示t时刻动作。
A

B

C

D

正确答案:A
题型:单选题客观题分值5分难度:简单得分:5
6
对于时序差分方法理解正确的是()。
A
可以在线学习(online learning),每走一步就可以更新,效率低。
B
时序差分方法是指在不清楚马尔可夫状态转移概率的情况下,以采样的方式得到不完整的状态序列,估计某状态在该状态序列完整后可能得到的奖励,并通过不断地采样持续更新价值。
C
时序差分方法只能在连续的环境下有终止状态的情况下进行学习。
D
时序差分方法利用了马尔可夫性质,但是在马尔可夫环境下有学习效率低。
正确答案:B
题型:单选题客观题分值5分难度:简单得分:5
7
蒙特卡洛方法是基于采样的方法,它()。
A
从不完整序列上进行学习。
B
需要全部执行完之后,到了终止状态之后,再更新价值。
C
可以在连续的环境下(没有终止)进行学习。
D
利用了马尔可夫性质。
正确答案:B
题型:单选题客观题分值5分难度:简单得分:5
8
Q 表格的概念中,()
A
表格中每一个坐标点对应某时刻智能体的状态
B
以每执行若干步,就对Q 表格进行更新
C
与时间差分法毫无关系
D
其表示形式是表格,其中表格的横轴为动作(智能体的动作),纵轴为环境的状态。
正确答案:D
题型:单选题客观题分值5分难度:简单得分:5
9
Q表格中Q 函数的意义是()
A
在强化学习里面,我们可以每走一步更新一次Q 表格,用下一个状态的Q 值来更新当前状态的Q 值。
B
Q 表格,一般它的行数是所有动作的数量。
C
最开始的时候,Q 表格会全部初始化任意值。
正确答案:A
题型:单选题客观题分值5分难度:一般得分:5
10
下列关于状态价值V(s)的表达式正确的是( )
注:下列选项中表示策略, 表示折扣因⼦, 表示t时刻奖励,表示t时刻状态, 表示t时刻动作。
A

B

C

D

正确答案:D
题型:单选题客观题分值5分难度:简单得分:5
11
最佳价值函数是()
A
搜索一种策略π ,使每个状态的价值最大,V∗ 就是到达每一个状态的极大值。
B
最佳策略使得最终状态的价值函数取得最大值。
C
每个马尔可夫决策过程的环境都是可解的,我们就可以得到一个最佳价值函数。
正确答案:A
题型:单选题客观题分值5分难度:简单得分:5
12
贝尔曼方程可以这样理解()
A
定义了当前状态与未来状态的迭代关系,表示当前状态的价值函数可以通过下个状态的价值函数来计算。
B
与动态规划没有关系
C
其矩阵形式为V = R + PV
正确答案:A
多选题
题型:多选题客观题分值5分难度:简单得分:5
1
Gym实验环境中的观测空间和动作空间可以是()的,也可以是()。
A
有限
B
无线·
C
离散
D
连续
正确答案:C;D
题型:多选题客观题分值5分难度:简单得分:5
2
Gym实验环境库中,离散空间用()表示,连续空间用()表示。
A
env.observation_space
B
env.action_space
C
env.space.Discrete
D
env.space.Box
正确答案:C;D
题型:多选题客观题分值5分难度:简单得分:5
3
对于Gym实验环境库,使用()指令可以加载环境,使用()可以初始化环境,使用()可以执行一步环境。
A
env.close()
B
env=gym.make(环境名)
C
env.reset()
D
env.step(动作)
E
env.render()
正确答案:B;C;D
题型:多选题客观题分值5分难度:一般得分:5
4
策略迭代法的核⼼步骤包括哪两个部分( )
A
策略评估
B
状态价值计算
C
策略提升
D
使⽤贪心策略
正确答案:A;C
简答题
题型:简答题主观题分值20分难度:简单得分:20
1
请描述REINFORCE算法的计算过程。

答案

点点赞赏,手留余香 给TA打赏

AI创作

评论0

请先

江苏开放大学考试题库江苏开放大学考试题库了解详情
请简要回答教授汉字的技巧有哪些。
请简要回答教授汉字的技巧有哪些。
刚刚 有人购买 去瞅瞅看
2024年春江苏开放大学财务报表分析060037第二次形考作业(实践作业)
2024年春江苏开放大学财务报表分析060037第二次形考作业(实践作业)
1分钟前 有人购买 去瞅瞅看
请结合例子谈谈童话艺术幻想的表现手法。
请结合例子谈谈童话艺术幻想的表现手法。
刚刚 有人购买 去瞅瞅看
支持多种货币
支持多种货币付款,满足您的付款需求
7天无忧退换
安心无忧购物,售后有保障
专业客服服务
百名资深客服7*24h在线服务
发货超时赔付
交易成功极速发货,专业水准保证时效性

站点公告

课程作业辅导,有需要加微信
显示验证码

社交账号快速登录