A. 对于多数数据集,训练的目的是使Train Loss逐渐减小至零,但实际很难做到 B. 训练后期Train Loss变化缓慢,可尝试添加正则化方法使其进一步下降 C. 如果训练样本数量很不平衡,则可使用data augmentation进行过采样 D. 训练样本有错误,可能会使添加了BN的网络的Train Loss输出NaN