下面关于ID3算法中说法错误的是()
A. ID3算法要求特征必须离散化
B. 信息增益可以用熵,而不是GINI系数来计算
C. 选取信息增益最大的特征,作为树的根节点
D. ID3算法是一个二叉树模型
在大规模的语料中,挖掘词的相关性是一个重要的问题。以下哪一个信息不能用于确定两个词的相关性()。
A. 互信息
B. 最大熵
C. 卡方检验
D. 最大似然比
(假设precision=TP/(TP+FP),recall=TP/(TP+FN)。)在二分类问题中,当测试集的正例和负例数量不均衡时,以下评价方案哪个是相对不合理的()
Accuracy:(TP+TN)/all
B. F-value:2*recall*precision/(recall+precision)
C. G-mean:sqrt(precision*recall)
D. AUC:曲线下面积
在以下不同的场景中,使用的分析方法不正确的有()
A. 根据商家最近一年的经营及服务数据,用聚类算法判断出天猫商家在各自主营类目下所属的商家层级
B. 根据商家近几年的成交数据,用聚类算法拟合出用户未来一个月可能的消费金额公式
C. 用关联规则算法分析出购买了汽车坐垫的买家,是否适合推荐汽车脚垫
D. 根据用户最近购买的商品信息,用决策树算法识别出淘宝买家可能是男还是女