搜索结果不匹配?点我反馈
更多问题
下列描述正确的有
A. 假设您有一个三层网络,其参数为 Θ(1)(控制从输入到隐藏单元的函数映射)和 Θ(2)(控制从隐藏单元到输出的映射)。 如果我们将 Θ(1) 的所有元素都设置为 0,并且将 Θ(2)的所有元素都设置为 1,那么这足以打破对称性,因为神经元不再都计算输入的相同函数。
B. 如果我们使用梯度下降训练神经网络,一个合理的“调试”步骤是将 J(Θ) 绘制为迭代次数的函数,并在每次迭代后确保它正在减少 (或至少不增加)
C. 如果我们将神经网络的所有参数初始化为 1 而不是 0,这将足以达到“对称破坏”的目的,因为参数不再对称地等于 0。
D. 假设您正在使用梯度下降训练神经网络。 根据您的随机初始化,您的算法可能会收敛到不同的局部最优(即,如果您使用不同的随机初始化运行该算法两次,梯度下降可能会收敛到两个不同的解决方案)。
下列描述错误的有
A. 假设您有一个三层网络,其参数为 Θ(1)(控制从输入到隐藏单元的函数映射)和 Θ(2)(控制从隐藏单元到输出的映射)。 如果我们将 Θ(1) 的所有元素都设置为 0,并且将 Θ(2)的所有元素都设置为 1,那么这足以打破对称性,因为神经元不再都计算输入的相同函数。
B. 如果我们使用梯度下降训练神经网络,一个合理的“调试”步骤是将 J(Θ) 绘制为迭代次数的函数,并在每次迭代后确保它正在减少 (或至少不增加)
C. 如果我们将神经网络的所有参数初始化为 1 而不是 0,这将足以达到“对称破坏”的目的,因为参数不再对称地等于 0。
D. 假设您正在使用梯度下降训练神经网络。 根据您的随机初始化,您的算法可能会收敛到不同的局部最优(即,如果您使用不同的随机初始化运行该算法两次,梯度下降可能会收敛到两个不同的解决方案)。