2024年春江苏开放大学强化学习060733形考作业1

微信小程序
资源下载
下载价格10

试题列表
单选题
题型:单选题客观题分值5分难度:简单得分:5
1
关于多臂⽼⻁机问题的描述,下列说法错误的是( )
A
每个摇臂的中奖概率是未知的
B
⽬标是在有限的摇动次数中获得更多的硬币奖励
C
每个摇臂的中奖概率不完全相同
D
多臂⽼⻁机问题可以转化为⼀个⾮退化的MDP问题
正确答案:D
题型:单选题客观题分值5分难度:简单得分:5
2
对于强化学习中模型的理解是()。
A
模型决定了下一步要采取的动作。
B
它由状态、动作、状态转移概率和奖励函数几个部分组成。
C
马尔可夫决策过程中可以有模型,也可以没有模型。
D
模型中的奖励函数是指我们在当前状态采取了某个动作,可以得到多大的奖励。
正确答案:D
题型:单选题客观题分值5分难度:简单得分:5
3
下列关于epsilon-greedy策略的说法正确的是( )
A
每次游戏中产⽣服从0到1之间正态分布的随机数
B
每次游戏中产⽣服从0到1之间均匀分布的随机数
C
每次游戏中产⽣服从0到10之间正态分布的随机数
D
每次游戏中产⽣服从0到10之间均匀分布的随机数
正确答案:B
题型:单选题客观题分值5分难度:简单得分:5
4
强化学习智能体的组成成分()。
A
都包含策略、价值函数和模型
B
只有策略和模型
C
只有策略和价值函数
D
可能有策略、价值函数、模型中的一个或多个成分
正确答案:D
题型:单选题客观题分值5分难度:中等得分:5
5
在三连棋游戏中,位于状态s0,采⽤策略,然后有1/3的概率会达到获胜的状态,有2/3的概
率到达中间状态s1;之后这个中间状态在该策略下会有3/4的概率到达获胜的状态, 1/4的概率到达平局
的状态,若获胜的价值为1,平局价值为0,则该策略下状态s0的价值image.png为( )
A
1/2
B
2/3
C
1/3
D
5/6
正确答案:D
题型:单选题客观题分值5分难度:简单得分:5
6
强化学习中的策略的含义是()
A
策略把输入的状态变为价值。
B
策略只有随机的形式。
C
我们不能把策略看做是一个函数。
D
策略是智能体的动作模型,它决定了智能体的动作。
正确答案:D
题型:单选题客观题分值5分难度:简单得分:5
7
关于探索和利⽤,下列说法正确的是( )
A
探索是指我们直接采取已知的可以带来很好奖励的动作。
B
利用就是通过试错来理解采取的动作到底可不可以带来好的奖励。
C
探索即我们去探索环境,通过尝试不同的动作来得到最佳的策略(带来最大奖励的策略)。
D
利用即我们去尝试新的动作,找到可以带来很大奖励的动作并采用它。
正确答案:C
题型:单选题客观题分值5分难度:简单得分:5
8
下列选项关于⻢尔可夫过程与MDP的对⽐说法错误的是( )
A
⻢尔可夫过程体现宏观性质,MDP体现主观操作
B
⼯程中很多实际问题适合被定义为⻢尔可夫过程⽽⾮MDP
C
⻢尔可夫过程反映的是客观规律,MDP反映的是具体问题
D
MDP关注的是如何对⼀个具体的问题采取措施,使得获得的效果最好
正确答案:B
题型:单选题客观题分值5分难度:一般得分:5
9
下列关于动态规划思想的说法中,不正确的⼀项是( )
A
动态规划将问题在时间维度上进⾏拆分,称为时间差分,即利⽤下⼀时刻状态的价值计算当前时刻
状态的价值,直到计算出所有状态的价值
B
动态规划要将⼤的问题拆分成若⼲个⽐较⼩的问题,分别求解这些⼩问题,再⽤这些⼩问题的结果
来解决⼤问题
C
三连棋游戏不同的状态虽然很多,但是状态的转移其实是有⽅向性的
D
对于三连棋游戏,可以按照从前往后的顺序依次找出各种状态的价值
正确答案:D
题型:单选题客观题分值5分难度:简单得分:5
10
价值函数可以这样理解()。
A
有一种价值函数:Q 函数。Q 函数里面包含两个变量:状态和动作。
B
价值函数就是评估动作好坏的函数。
C
价值函数的值是对当下及时奖励评价。
正确答案:A
题型:单选题客观题分值5分难度:简单得分:5
11
以下对有模型强化学习和免模型强化学习说法正确的是()
A
目前,大部分深度强化学习方法都采用了有模型强化学习。
B
针对是否需要对真实环境建模,强化学习可以分为有模型强化学习和免模型强化学习。
C
有模型强化学习不需要进行真实环境建模,用数据驱动学习。
D
免模型强化学习是指对环境只进行虚拟环境建模并与虚拟环境交互来学习到最优策略。
正确答案:B
题型:单选题客观题分值5分难度:简单得分:5
12
强化学习由两部分组成()
A
状态和马尔可夫过程
B
动作和状态
C
智能体和环境
D
价值和动作
正确答案:C
题型:单选题客观题分值5分难度:简单得分:5
13
下列关于MAB的简单策略和贪⼼策略的说法错误的是()
A
贪⼼策略总是选择当前期望奖励估计最⼤的摇臂进⾏操作
B
两种策略都需要⾸先对每个摇臂进⾏⼀定次数的操作,对期望奖励进⾏预估
C
简单策略的尝试操作次数有限,存在对期望预估不准确的问题
D
两种策略都利⽤了游戏过程的反馈对期望奖励估计表进⾏更新
正确答案:D
多选题
题型:多选题客观题分值5分难度:简单得分:5
1
奖励是指()
A
由环境给的一种标量或向量形式的反馈信号。
B
强化学习的目的就是最大化智能体可以获得的奖励。
C
不同的环境中,奖励也是不同的。
D
智能体在环境里面存在的目的就是最大化它的期望的累积奖励。
正确答案:B;C;D
题型:多选题客观题分值5分难度:简单得分:5
2
基于策略和基于价值的强化学习方法的区别有()
A
基于价值的强化学习算法有Q 学习(Q-learning)、Sarsa等,而基于策略的强化学习算法有策略梯度算法等。
B
基于价值迭代的方法只能应用在不连续的、离散的环境下(如围棋或某些游戏领域)。
C
在基于策略的强化学习方法中,智能体会制定一套动作策略(确定在给定状态下需要采取何种动作),并根据这个策略进行操作。
D
在基于价值的强化学习方法中,智能体不需要制定显式的策略,它维护一个价值表格或价值函数,并通过这个价值表格或价值函数来选取价值最大的动作。
正确答案:A;B;C;D
题型:多选题客观题分值5分难度:一般得分:5
3
关于探索和利⽤,下列说法正确的是( )
A
尝试去其它餐厅吃饭可以被看作是⼀种探索⾏为
B
去经常光顾的餐厅吃饭可以被看作是⼀种利⽤⾏为
C
尝试去其它餐厅吃饭可以被看作是⼀种利⽤⾏为
D
去经常光顾的餐厅吃饭可以被看作是⼀种探索⾏为
正确答案:A;B
简答题
题型:简答题主观题分值20分难度:简单得分:20
1
设计1个适合于MDP框架的示例任务,为每个任务确定其状态、行为和奖励。
每个MDP将被单独评分。评分标准为:
描述了一个MDP。(5分)
描述了MDP的状态。(5分)
描述了MDP的行动。(5分)
描述了MDP的回报。(5分)
示例:MDP的一个例子是自动驾驶汽车。状态将是汽车在每个时间步上获得的所有传感器读数:激光雷达、摄像机、剩余燃油量、当前车轮角度、当前速度、gps位置。动作可以是加速、减速、左转和右转。每一步的奖励可以是-1,这样agent就会被鼓励以尽快到达目标,但如果它违反了规则,奖励会是-10亿,这样它就知道不能这么做。

答案

点点赞赏,手留余香 给TA打赏

AI创作

评论0

请先

某挡土墙高4m,墙背倾斜角200,填土面倾角200,填土重度18KN/m3,内摩擦角为400,c=0,填土与墙背的摩擦角为50,如图所示,试按库仑理论求:  (1)主动土压力大小、作用点距离墙底的距离;(2)墙底主动土压力强度大小。
某挡土墙高4m,墙背倾斜角200,填土面倾角200,填土重度18KN/m3,内摩擦角为400,c=0,填土与墙背的摩擦角为50,如图所示,试按库仑理论求: (1)主动土压力大小、作用点距离墙底的距离;(2)墙底主动土压力强度大小。
2分钟前 有人购买 去瞅瞅看
2023秋江苏开放大学政治学基础第三次形考作业
2023秋江苏开放大学政治学基础第三次形考作业
8分钟前 有人购买 去瞅瞅看
实训三:认识表达形体视图
实训三:认识表达形体视图
10分钟前 有人购买 去瞅瞅看
支持多种货币
支持多种货币付款,满足您的付款需求
7天无忧退换
安心无忧购物,售后有保障
专业客服服务
百名资深客服7*24h在线服务
发货超时赔付
交易成功极速发货,专业水准保证时效性

站点公告

课程作业辅导,有需要加下方微信

显示验证码

社交账号快速登录