哪种策略可以加速词向量训练
A. para2vect
B. 层级softmax
C. 最大似然估计
D. 以上都不对
关于梯度下降算法,以下说法正确的是
A. 随机梯度下降算法是每次考虑单个样本进行权重更新
B. Mini-Batch梯度下降算法是批量梯度下降和随机梯度下降的折中
C. 批量梯度下降算法是每次考虑整个训练集进行权重更新
D. 以上都对
与传统机器学习方法相比,深度学习的优势在于
A. 深度学习可以自动学习特征
B. 深度学习完全不需要做数据预处理
C. 深度学习完全不提取底层特征,如图像边缘、纹理等
D. 深度学习不需要调参
下列哪一项在神经网络中引入了非线性
A. 随机梯度下降
B. Sigmoid激活函数
C. 增大权重和偏置的初始化值
D. 以上都不对