2025年春江苏开放大学强化学习060733★★综合大作业

试题列表
单选题
题型:单选题客观题分值5分难度:简单得分:5
1
在epsilon-greedy算法中,epsilon的值越大,采取随机动作的概率越(),采用当前Q函数最大动作的概率越()。
A
小,小
B
大,小
C
大,大
D
小,大
学生答案:B
老师点评:
题型:单选题客观题分值5分难度:简单得分:5
2
在强化学习的过程中,()能够在稍微偏离目前最好策略的基础上,尝试更多策略,()能够运用目前最好的策略,获取更高的奖励。
A
利用,探索
B
探索,利用
C
利用,输出
D
探索,输出
学生答案:B
老师点评:
题型:单选题客观题分值5分难度:简单得分:5
3
Q(s,a)是指在给定状态s的情况下,采取行动a之后,后续的各个状态所能得到的回报()
A
总和
B
最大值
C
最小值
D
期望值
学生答案:D
老师点评:
题型:单选题客观题分值5分难度:简单得分:5
4
Q-learning算法中,Q函数是()。
A
状态-动作值函数
B
状态函数
C
估值函数
D
奖励函数
学生答案:A
老师点评:
题型:单选题客观题分值5分难度:简单得分:5
5
在强化学习过程中,学习率越大,表示采用新的尝试得到的结果比例越(),保持旧的结果的比例越()
A
大,小
B
大,大
C
小,大
D
小,小
学生答案:A
老师点评:
多选题
题型:多选题客观题分值5分难度:简单得分:5
1
强化学习包含的元素有()。
A
Reward
B
Agent
C
State
D
Action
学生答案:A;B;C;D
老师点评:
简答题
题型:简答题主观题分值50分难度:简单得分:50
1
请利用DDPG算法实现钟摆游戏Pendulum-v1,需要在答案区附上训练和测试曲线,包括训练时的奖励曲线图(20分)和测试时的奖励曲线区图(20分),并进行结果分析(10分)。

答案


题型:简答题主观题分值10分难度:简单得分:10
2
请问DQN(Deep Q-Network)是什么?其两个关键性的技巧分别是什么?(每个问题5分)

答案


题型:简答题主观题分值10分难度:简单得分:10
3
Actor-Critic框架中的Critic起了什么作用?

答案

内容查看
查看价格10
客服QQ:1668639739
点点赞赏,手留余香 给TA打赏

评论0

请先
  • w*****g 下载了资源 2026年春江苏开放大学环境生态学060117调研报告
  • u******* 加入了本站
  • u******* 登录了本站
  • 1******* 下载了资源 2026年春江苏开放大学数据结构与算法060220形考作业一
  • 1******* 下载了资源 2026年春江苏开放大学数据结构与算法060220形考作业二
  • u******* 下载了资源 2026年春江苏开放大学思想道德与法治060205第三次过程性考核作业(实践活动)
  • u******* 登录了本站
  • 游客 下载了资源 2008年河北省公务员考试《行测》真题答案及解析
  • u******* 下载了资源 2026年春江苏开放大学少儿美术创作060474如何开展有趣的游戏体验美术创作课程
  • u******* 下载了资源 2026年春江苏开放大学少儿美术创作060474如何开展有趣的游戏体验美术创作课程
  • u******* 下载了资源 2025年春江苏开放大学色彩画技法060477球状灌木丛临摹
  • 1******* 下载了资源 2026年春江苏开放大学模拟电子技术及应用050553课程实践作业1:实验三 共射放大电路交流性能指标的仿真测量
  • u******* 下载了资源 2026年春江苏开放大学色彩画技法060477柿子临摹
  • 1******* 下载了资源 2026年春江苏开放大学模拟电子技术及应用050553课程实践作业2:实验四 加法电路与积分电路的仿真测量
  • 1******* 下载了资源 2026年春江苏开放大学模拟电子技术及应用050553课程实践作业2:实验四 加法电路与积分电路的仿真测量
  • u******* 下载了资源 2025年秋江苏开放大学西方经济学060936计分作业4:专题讨论:失业和通货膨胀之间的关系答案
点击浏览器地址栏的⭐图标收藏本页
需要托管,代写作业,论文扫码加微信
显示验证码

社交账号快速登录

微信扫一扫关注
扫码关注后会自动登录