P2
《数据仓库与数据挖掘》
第8章 数据预处理
8.1 数据清理
8.2 数据集成
8.3 数据变换
8.4 数据归约
8.5 数据离散化
P3
《数据仓库与数据挖掘》
数据质量的多维度量
一个广为认可的多维度量观点
• 精确度
• 完整度
• 一致性
• 可信度
• 附加价值
• 可访问性
• ……
跟数据本身的含义相关的
• 内在的、上下文的、表象的
数据质量:成功的关键
P4
《数据仓库与数据挖掘》
为什么要预处理数据?
为什么要预处理数据?
现实世界的数据是“肮脏的” (据统计有错误的数
据占总数据的5%左右[Redmen],[Orr98])——数
据多了,什么问题都会出现
• 不完整的:有些感兴趣的属性缺少属性值,或仅包含聚
集数据
• 含噪声的:包含错误或者“孤立点”
• 不一致的:在编码或者命名上存在差异
没有高质量的数据,就没有高质量的挖掘结果
• 高质量的决策必须依赖高质量的数据
• 数据仓库需要对高质量的数据进行一致地集成
P5
《数据仓库与数据挖掘》
数据预处理的主要任务
数据预处理的主要任务
数据清理
• 填写空缺的值,平滑噪声数据,识别、删除孤立点,解
决不一致性
数据集成
• 集成多个数据库、数据立方体或文件
数据变换
• 规范化和聚集
数据归约
• 得到数据集的压缩表示,它小得多,但可以得到相同或
相近的结果
数据离散化
• 数据归约的一部分,通过概念分层和数据的离散化来规
约数据,对数字型数据特别重要
P6
《数据仓库与数据挖掘》
8.1
8.1
数据清理
数据清理
存在不完整的、含噪声的和不一致的数据是
现实世界中大型数据库、数据仓库的共同特
点。
数据清理(Data Cleaning)能够填补空缺
数据,平滑噪声,识别、去除孤立点,纠正
不一致的数据,进而改善数据质量,提高数
据挖掘的精度和性能。
P7
《数据仓库与数据挖掘》
数据清理
数据清理
功能:
• 去除源数据中的噪声数据和无关数据
• 重复数据处理
• 缺值数据处理
• 数据类型转换
方法:
• 有监督方法:有领域专家指导
• 无监督方法:样本数据训练算法
评论0
最新资源