任务 2.4 数据列处理
任务概述
本节主要介绍常见的数据列处理的原理和方法,并通过案例实现进行实操演
示。数据集选用“工业用水处理投药量数据”。数据列处理包括“属性过滤”、“缺
失值处理”、“异常值检测”和“数据类型变换”。
属性过滤能够根据用户设置的一个或者多个属性进行列数据的过滤和筛选。
缺失值处理能够对存在缺失值的变量进行填充,根据数据类型的不同,可选择多
种方式进行变量的缺失值替换。异常值检测能够对存在异常和噪声的数据进行检
测和识别,同时可进一步对识别出的异常值进行处理。数据类型变换包括数值型
属性变换、字符型属性变换和日期型属性变换。数值型属性列可转换为日期、字
符串的方式。字符型属性可变换为数字、日期的方式。日期型属性可变换为数值
型、字符型属性的方式。
通过本任务的学习:
(1)能够对上传到大数据平台中的数据进行属性过滤处理;
(2)能够对上传到大数据平台中的数据进行缺失值处理;
(3)能够对上传到大数据平台中的数据进行异常值检测;
(4)能够对上传到大数据平台中的数据进行数据类型变换处理。
任务实现
2.4.1 属性过滤
属性过滤节点能够根据用户设置的一个或者多个属性进行列数据的过滤和
筛选,选择“保留属性”,则选到右边的属性是保留下来的;选择“过滤属性”,
则选到右边的属性是过滤掉的,过滤掉的变量列将被删除掉不再输出。