q函数q(s, a)是指在一个给定状态s下,采取某一个动作a之后,后续的各个状态所能得到的回报的( _______)。
A. 期望值
B. 总和
C. 最大值
D. 最小值
查看答案
在ε-greedy策略当中,ε的值越大,表示采用随机的一个动作的概率越( _______),采用当前q函数值最大的动作的概率越( _______)。
A. 小;大
B. 大;大
C. 大;小
D. 小;小
在强化学习过程中,( _______)表示随机地采取某个动作,以便于尝试各种结果;( _______)表示采取当前认为最优的动作,以便于进一步优化评估当前认为最优的动作的值。
A. 探索;探索
B. 利用;利用
C. 探索;利用
D. 利用;探索
强化学习基本要素有哪些( _______)。
A. 状态、动作、奖励
B. 状态、动作、折扣因子
C. 动作、折扣因子、奖励
D. 状态、奖励、探索策略
“在状态s,选择一个动作,使得状态s得到最大的反馈期望”,这句话描述了状态s的( _______)。
A. 采样函数
B. 策略学习与优化
C. 价值函数
D. 动作-价值函数