数据分析之数据质量分析和数据特征分析 数据分析之数据质量分析和数据特征分析 1.数据质量分析 数据质量分析是数据挖掘中数据准备过程的重要⼀环,是数据预处理的前提,也是数据挖掘分析结论有效性和准确性的基础,没有可信的数据,数据挖掘构建的模 型将是空中楼阁。 数据质量分析的主要任务是检查原始数据中是否存在脏数据,脏数据⼀般是指不符合要求,以及不能直接进⾏相应分析的数据。在常见的数据挖掘⼯作中,脏数据 包括: (1)缺失值; (2)异常值; (3)不⼀致的值; (4)重复数据及含有特殊符号(如#、¥、*)的数据。 1.1缺失值分析 数据的缺失主要包括记录的缺失和记录中某个字段信息的缺失,两者都会造成分析结果的不准确,以下从缺失值产⽣的原因及影响等⽅⾯展开 分析。 (1)缺失值产⽣的原因 1)有些信息暂时⽆法获取,或者获取信息的代价太⼤。 2)有些信息是被遗漏的。可能是因为输⼊时认为不重要、忘记填写或对数据理解错误等⼀些⼈为因素⽽遗漏,也可能是由于数据采集设备的故 障、存储介质的故障、传输媒体的故障等⾮⼈为原因⽽丢失。 3)属性值不存在。在某些情况下,缺失值并不意味着数据有错误。对⼀些对象来说某些属性值是不存在的,如⼀个未婚者的配偶姓名、⼀个⼉童 的固定收⼊等。 (2)缺失值的影响 1)数据挖掘建模将丢失⼤量的有⽤信息。 2)数据挖掘模型所表现出的不确定性更加显著,模型中蕴含的规律更难把握。 3)包含空值的数据会使建模过程陷⼊混乱,导致不可靠的输出。 (3)缺失值的分析 使⽤简单的统计分析,可以得到含有缺失值的属性的个数,以及每个属性的未缺失数、缺失数与缺失率等。 1.2异常值分析 异常值分析是检验数据是否有录⼊错误以及含有不合常理的数据。忽视异常值的存在是⼗分危险的,不加剔除地把异常值包括进数据的计算分析过程中,会给结果带 来不良影响;重视异常值的出现,分析其产⽣的原因,常常成为发现问题进⽽改进决策的契机。异常值是指样本中的个别值,其数值明显偏离其余的观测值。异常值也 称为离群点,异常值的分析也称为离群点分析。 (1)简单统计量分析 可以先对变量做⼀个描述性统计,进⽽查看哪些数据是不合理的。最常⽤的统计量是最⼤值和最⼩值,⽤来判断这个变量的取值是否超出了合理 的范围。例如,客户年龄的最⼤值为199岁,则该变量的取值存在异常。 (2)3σ原则 如果数据服从正态分布,在3σ原则下,异常值被定义为⼀组测定值中与平均值的偏差超过三倍标准差的值。在正态分布的假设下,距离平均值3σ 之外的值出现的概率为P("x-µ">3σ) 0.003,属于极个别的⼩概率事件。如果数据不服从正态分布,也可以⽤远离平均值的多少倍标准差来描述。 (3)箱形图分析 箱形图提供了识别异常值的⼀个标准:异常值通常被定义为⼩于QL-1.5IQR或⼤于QU+1.5IQR的值。QL称为下四分位数,表⽰全部观察值中有 四分之⼀的数据取值⽐它⼩;QU称为上四分位数,表⽰全部观察值中有四分之⼀的数据取值⽐它⼤;IQR称为四分位数间距,是上四分位数QU与 下四分位数QL之差,其间包含了全部观察值的⼀半。箱形图判断异常值的标准以四分位数和四分位距为基础,四分位数具有⼀定的鲁棒性:多达 25%的数据可以变得任意远⽽不会很⼤地扰动四分位数,所以异常值不能对这个标准施加影响。由此可见,箱形图识别异常值的结果⽐较客观,在 识别异常值⽅⾯有⼀定的优越性,如图所⽰。 在平常的数据分析过程中可以发现,可能其中有部分数据是缺失的,但是如果数据记录和属性较多,使⽤⼈⼯分辨的⽅法就很不切合实际,所 以这⾥需要编写程序来检测出含有缺失值的记录和属性以及缺失率个数和缺失率等。同时,也可使⽤箱形图来检测异常值。R语⾔检测代码如下所 ⽰。 # 设置⼯作空间 # 把"数据及程序"⽂件夹拷贝到F盘下,再⽤setwd设置⼯作空间 setwd("F:/数据及程序/chapter3/⽰例程序") # 读⼊数据 saledata <- read.csv(file = "./data/catering_sale.csv", header = TRUE) # 缺失值检测 并打印结果,由于R把TRUE和FALSE分别当作1、0,可以⽤sum()和mean()函数来分别获取缺失样本数、缺失⽐例 sum(complete.cases(saledata)) sum(!complete.cases(saledata)) mean(!complete.cases(saledata)) saledata[!complete.cases(saledata), ] # 异常值检测箱线图 sp <- boxplot(saledata$"销量", boxwex = 0.7) title("销量异常值检测箱线图") xi <- 1.1 sd.s <-
- 粉丝: 168
- 资源: 3万+
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助