A. 数据采集过程造成数据不完整 B. 数据传输过程中有数据损耗丢失 C. 数据因存放时间造成时效性减弱 D. 数据整合过程引入缺失值
A. 均值填补在处理非数值型特征时,会使用众数来代替缺失值 B. 均值填补会导致数据样本多集中在均值或者众数附近,降低数据样本的方差 C. 均值填补考虑了数据样本各个特征的相关性 D. 基于模型的填补将缺失特征当做目标特征,其余特征作为输入特征,建立分类或者回归模型,预测缺失值
A. 如果用等距离散化将样本分成5个区间段,有3个区间内样本容量不为0. B. 如果用等距离散化将样本分成5个区间段,第三个区间为[21,30] C. 如果用等频离散化将样本分成5个区间段,42属于第四个区间段 D. 如果用等频离散化将样本分成5个区间段,所有区间段的方差均相同。
A. 现实中的数据经常有不完整,含噪声等情况 B. 数据预处理可以使非数值型变量转换成数值变量,利于计算 C. 模型输入数据质量直接影响建模效果 D. 数据预处理中,为了拟合模型可以人为编造数据
A. 视频 B. 图像 C. 数据库表 D. 网页