以下那种说法是错误的( )。
A. 信息增益 = 信息熵 – 条件熵
B. 一个系统越是混乱,随机变量的不确定性就越大,信息熵就越高
C. 一个系统越是有序,信息熵就越低
D. 中国足球队战胜巴西足球队的信息熵要小于中国乒乓球队战胜巴西乒乓球队的信息熵
ID3 算法的缺点不包括( )。
A. ID3 没有剪枝策略,容易过拟合
B. 信息增益准则对可取值数目较多的特征有所偏好,类似“编号”的特征其信息增益接近于1
C. 既能用于处理离散分布的特征,也能用于连续分布的特征处理
D. 没有考虑缺失值
关于CART算法,错误的是( )。
A. 可以处理样本不平衡问题
B. CART分类树采用基尼系数的大小来度量特征的各个划分点
CART算法既可以处理分类问题,也可以处理回归问题
D. CART算法采用信息增益率的大小来度量特征的各个划分点
关于C4.5算法,错误的是( )。
A. C4.5算法采用基尼系数的大小来度量特征的各个划分点
B. C4.5算法可以处理非离散的数据
C4.5算法引入悲观剪枝策略进行后剪枝
D. C4.5 算法最大的特点是克服了 ID3 对特征数目的偏重这一缺点