超星 - 强化学习测验 - 查题吧

单选题

( _______)是跟环境进行交互,从反馈当中进行不断的学习的过程。

A. 非监督学习
B. 监督学习
C. 强化学习
D. 线性回归

单选题

在Q-Learning中,所谓的Q函数是指( _______)。

A. 价值函数
B. 策略函数
C. 动作-价值函数
D. 动作值函数

单选题

q函数q(s, a)是指在一个给定状态s下,采取某一个动作a之后,后续的各个状态所能得到的回报的( _______)。

A. 期望值
B. 总和
C. 最大值
D. 最小值

单选题

在ε-greedy策略当中,ε的值越大,表示采用随机的一个动作的概率越( _),采用当前q函数值最大的动作的概率越( _)。

A. 小;大
B. 大;大
C. 大;小
D. 小;小

单选题

在强化学习过程中,( _)表示随机地采取某个动作,以便于尝试各种结果;( _)表示采取当前认为最优的动作,以便于进一步优化评估当前认为最优的动作的值。

A. 探索;探索
B. 利用;利用
C. 探索;利用
D. 利用;探索

单选题

强化学习基本要素有哪些( _______)。

A. 状态、动作、奖励
B. 状态、动作、折扣因子
C. 动作、折扣因子、奖励
D. 状态、奖励、探索策略

单选题

“在状态s,选择一个动作,使得状态s得到最大的反馈期望”,这句话描述了状态s的( _______)。

A. 采样函数
B. 策略学习与优化
C. 价值函数
D. 动作-价值函数

1