现在有样本如下: 1,2,3,4,5,6,7,8,9,10,41,42,43,44,45,46,47,48,49,50 使用数据离散化来处理该样本 下面说法中正确的是
A. 如果用等距离散化将样本分成5个区间段,有3个区间内样本容量不为0.
B. 如果用等距离散化将样本分成5个区间段,第三个区间为[21,30]
C. 如果用等频离散化将样本分成5个区间段,42属于第四个区间段
D. 如果用等频离散化将样本分成5个区间段,所有区间段的方差均相同。
查看答案
下列关于数据预处理的说法,不正确的是?
A. 现实中的数据经常有不完整,含噪声等情况
B. 数据预处理可以使非数值型变量转换成数值变量,利于计算
C. 模型输入数据质量直接影响建模效果
D. 数据预处理中,为了拟合模型可以人为编造数据
下列属于非结构化数据的选项是
A. 视频
B. 图像
C. 数据库表
D. 网页
常见的数据标准化方法包括()
A. Z-score标准化
B. word2vec
C. Min-Max标准化
D. One-Hot编码
下列哪些是数据预处理的常用方法
A. 数据转换
B. 数据清洗
C. 数据聚类
D. 模型评估