题目内容

下列关于数据离散化的表述不正确的是?

A. 聚类离散化和卡方离散化都可以采用自底向上的策略进行簇或者区间的合并
B. 等距离散化对离群值敏感
C. 等频离散化为了保持离散化后区间的样本数大致相同,会将相似的样本划入到不同的子区间内
D. 信息增益离散化采用了自底向上的分裂策略

查看答案
更多问题

下列关于离群值的论述不正确的是?

A. 离群值是指数据集中明显偏离数据集其他样本的样本
B. 从统计学的角度来看,离群值的产生机制与其他数据样本的不同
C. 离群值检测是数据预处理的方法之一
D. 离群值总是对后续数据分析有负面影响的数据样本

为了统一数据各个数值属性上的量纲,可以进行的操作为

A. preprocessing.minmax_scale()
B. pd.merge()
C. pd.read_csv
D. np.dtype()

下列不属于造成数据缺失的原因

A. 数据采集过程造成数据不完整
B. 数据传输过程中有数据损耗丢失
C. 数据因存放时间造成时效性减弱
D. 数据整合过程引入缺失值

下列说法不正确的是

A. 均值填补在处理非数值型特征时,会使用众数来代替缺失值
B. 均值填补会导致数据样本多集中在均值或者众数附近,降低数据样本的方差
C. 均值填补考虑了数据样本各个特征的相关性
D. 基于模型的填补将缺失特征当做目标特征,其余特征作为输入特征,建立分类或者回归模型,预测缺失值

答案查题题库