超星 - Homework 6

多选题

对于以下哪个任务k-means聚类可能是一个合适的算法? 选择所有适用的选项

A. 给出一组来自不同新闻网站的新闻文章，找出所涵盖的主要话题。
B. 给出许多邮件，你需要判断是否是垃圾邮件。
C. 给出历史的天气数据，预测明天是晴天还是雨天。
D. 通过用户在某个网站上的使用记录，找出可能存在的用户组

多选题

关于kmeans算法，以下哪些描述是不正确的？

A. 既然kmeans是一种无监督学习算法，那么它就不会过拟合数据，因此，在计算可行的情况下拥有尽可能多的簇总是更好的
B. 在一些数据集中，k值是很模糊的，甚至需要让一个人类专家仔细研究数据后再决定
C. 如果我们担心k意味着陷入局部最优，减少这个问题的一种方法是尝试多次随机初始化
D. 初始化kmeans的标准方法是设置质心都为0

查看答案

多选题