A. 给出一组来自不同新闻网站的新闻文章,找出所涵盖的主要话题。 B. 给出许多邮件,你需要判断是否是垃圾邮件。 C. 给出历史的天气数据,预测明天是晴天还是雨天。 D. 通过用户在某个网站上的使用记录,找出可能存在的用户组
A. 既然kmeans是一种无监督学习算法,那么它就不会过拟合数据,因此,在计算可行的情况下拥有尽可能多的簇总是更好的 B. 在一些数据集中,k值是很模糊的,甚至需要让一个人类专家仔细研究数据后再决定 C. 如果我们担心k意味着陷入局部最优,减少这个问题的一种方法是尝试多次随机初始化 D. 初始化kmeans的标准方法是设置质心都为0
A. Boosting Bagging C. Marking D. Stacking
A. 对 B. 错