题目内容

( _______)是跟环境进行交互,从反馈当中进行不断的学习的过程。

A. 非监督学习
B. 监督学习
C. 强化学习
D. 线性回归

查看答案
更多问题

在Q-Learning中,所谓的Q函数是指( _______)。

A. 价值函数
B. 策略函数
C. 动作-价值函数
D. 动作值函数

q函数q(s, a)是指在一个给定状态s下,采取某一个动作a之后,后续的各个状态所能得到的回报的( _______)。

A. 期望值
B. 总和
C. 最大值
D. 最小值

在ε-greedy策略当中,ε的值越大,表示采用随机的一个动作的概率越( _______),采用当前q函数值最大的动作的概率越( _______)。

A. 小;大
B. 大;大
C. 大;小
D. 小;小

在强化学习过程中,( _______)表示随机地采取某个动作,以便于尝试各种结果;( _______)表示采取当前认为最优的动作,以便于进一步优化评估当前认为最优的动作的值。

A. 探索;探索
B. 利用;利用
C. 探索;利用
D. 利用;探索

答案查题题库