强化学习与监督学习的最大区别在于下列的哪一个内容__?
A. 如何产生动作
B. 对产生动作的好坏作一评价
C. 外部信息较丰富
D. 有无教师存在
查看答案
强化学习的基本原理是:某个行为策略导致环境正的奖赏(强化信号),那么以后产生这个行为策略的趋势便会为下列的哪一个内容__?
A. 加强
B. 趋弱
C. 随机
D. 无所谓
根据学习系统的基本结构,分析知识库的变化与修改,下哪一个因素对其没有作用__?
A. 向其输入信息
B. 执行者将作用后结果反馈回来
C. 信息数据的整理
D. 将信息数据输出
机器学习研究如何通过计算的手段,利用经验来改善系统自身的性能,请问机器学习利用数据训练出什么__?
A. 模型
B. 表结构
C. 结果
D. 报表
塞缪尔的下棋程序采取了对每一个棋局打分的方式,对己有利者分数高,不利者分数低,走棋时,尽量选择使自己分数高的棋局,并存储了53000多棋局及其分值。这种策略是下列哪一种__?
A. 机械学习
B. 传授学习
C. 类比学习
D. 事例学习