箱线图是检测离群值的方法,下面关于箱线图的说法不正确的是( )
A. 箱外的两条线(胡须)分别延伸到最小和最大非异常点
B. 四分位距IQR = 1.5(Q3-Q1),其中Q3为上四分位数, Q1为下四分位数
C. 箱中高于上边缘和低于下边缘的值为离群点
D. 箱线图中框的上边线表示上四分位数,框的下边线表示下四分位数
查看答案
下列关于数据标准化的说法不正确的是( )
A. 数据经过Min-Max标准化后的取值范围为[0,1]
B. 数据经过Z-Score标准化后的取值范围为[0,1]
C. Z-Score标准化方法适用于特征的最大值或最小值未知,样本分布非常离散的情况
D. 标准化可以去除数据特征之间存在的量纲问题
进行特征离散化的原因不包括下列哪项( )
A. 增强特征取值的可解释性
B. 增加模型的鲁棒性
C. 减少实际的运算量
D. 简化算法模型的复杂度
下列关于数据离散化的叙述错误的是( )
A. Pandas中的cut方法可以实现数据的等频离散化
B. 等距离散化对输入数据质量要求高,对异常值较为敏感
C. 等频离散化不要求区间段的宽度始终保持一致,而是尽量使得离散化后每一个区间内的样本量相近
D. 信息增益离散化和卡方离散化属于有监督离散化
下列关于缺失值处理的说法错误的是( )
A. 连续型特征可以使用众数来插补缺失值
B. 离散型特征可以使用平均值来插补缺失值
C. 可以将缺失值作为预测目标建立模型进行预测,以此来插补缺失值
D. 根据经验,可以手动对缺失值进行插补