A. 分类规则 B. 回归分析 C. 聚类 D. 信息检索
A. 关联分析 B. 聚类 C. 文本处理 D. 贝叶斯分类
A. 错误的数据将可能产生有害于决策的结果 B. 数据量很大时,数据质量差对机器学习没多大影响 C. 数据预处理的重要目的是提高机器学习结果的质量 D. 从业务系统提取的脏数据需要预处理才能进行建模
A. 合适的机器学习算法在分析前一般很难确定 B. 这是数据分析师的工作,不需要用户参加 C. 很多机器学习工具的使用遵循一定的机器学习步骤 D. 机器学习项目实施过程并不简单
A. One-Hot编码适用于离散特征的取值之间没有大小顺序的情况 B. 若离散特征的取值有大小顺序,那么就可以使用数值与特征的映射来对特征进行编码 C. One-Hot编码解决了分类器不好处理属性数据的问题,在一定程度上也起到了扩充特征的作用 D. One-Hot编码将有k个不同取值的特征转化为k-1个特征
A. 箱外的两条线(胡须)分别延伸到最小和最大非异常点 B. 四分位距IQR = 1.5(Q3-Q1),其中Q3为上四分位数, Q1为下四分位数 C. 箱中高于上边缘和低于下边缘的值为离群点 D. 箱线图中框的上边线表示上四分位数,框的下边线表示下四分位数
A. 数据经过Min-Max标准化后的取值范围为[0,1] B. 数据经过Z-Score标准化后的取值范围为[0,1] C. Z-Score标准化方法适用于特征的最大值或最小值未知,样本分布非常离散的情况 D. 标准化可以去除数据特征之间存在的量纲问题
A. 增强特征取值的可解释性 B. 增加模型的鲁棒性 C. 减少实际的运算量 D. 简化算法模型的复杂度
A. Pandas中的cut方法可以实现数据的等频离散化 B. 等距离散化对输入数据质量要求高,对异常值较为敏感 C. 等频离散化不要求区间段的宽度始终保持一致,而是尽量使得离散化后每一个区间内的样本量相近 D. 信息增益离散化和卡方离散化属于有监督离散化
A. 连续型特征可以使用众数来插补缺失值 B. 离散型特征可以使用平均值来插补缺失值 C. 可以将缺失值作为预测目标建立模型进行预测,以此来插补缺失值 D. 根据经验,可以手动对缺失值进行插补