题目内容

在强化学习过程中,()表示随机地采取某个动作,以便于尝试各种结果;()表示采取当前认为最优的动作,以便于进一步优化评估当前认为最优的动作的值。

查看答案

搜索结果不匹配？点我反馈

更多问题

在Q-Learning中,所谓的Q函数是指()。

梯度下降算法是最常用也是最有效的神经网络的优化办法,完全可以满足不同类型的需求。()
参考答案：错误

典型的“鸡尾酒会”问题中,提取出不同人说话的声音是属于()。

()有跟环境进行交互,从反馈当中进行不断的学习的过程。