A. 非监督学习 B. 监督学习 C. 强化学习 D. 线性回归
A. 价值函数 B. 策略函数 C. 动作-价值函数 D. 动作值函数
A. 期望值 B. 总和 C. 最大值 D. 最小值
A. 小;大 B. 大;大 C. 大;小 D. 小;小
A. 探索;探索 B. 利用;利用 C. 探索;利用 D. 利用;探索
A. 状态、动作、奖励 B. 状态、动作、折扣因子 C. 动作、折扣因子、奖励 D. 状态、奖励、探索策略
A. 采样函数 B. 策略学习与优化 C. 价值函数 D. 动作-价值函数