⼤数据预处理技术 学习了⽜琨⽼师的课程后整理的学习笔记,⽤于⽇后复习 学习了⽜琨⽼师的课程后整理的学习笔记,⽤于⽇后复习 ⼀、⼤数据预处理的⼏个步骤 ⼀、⼤数据预处理的⼏个步骤 1.数据预处理 2.数据清洗 3.数据集成 4.数据归约 5.数据变换 6.数据离散化 7.⼤数据预处理 ⼆、数据预处理 ⼆、数据预处理 现实中的数据⼤多是"脏"数据: 不完整 缺少属性值或仅仅包含聚集数据 含噪声 包含错误或存在偏离期望的离群值 ⽐如:salary="-10",明显是错误数据 不⼀致 ⽤于商品分类的部门编码存在差异 ⽐如age="42"Birthday="03/07/1997" ⽽我们在使⽤数据过程中对数据有如下要求: ⼀致性、准确性、完整性、时效性、可信性、可解释性 由于获得的数据规模太过庞⼤,数据不完整、重复、杂乱,在⼀个完整的数据挖掘过程中,数据预处理要花费60%左右的时间。 三、数据清洗 三、数据清洗 1.缺失值的处理: 忽略元组:若有多个属性值缺失或者该元祖剩余属性值使⽤价值较⼩时,应选择放弃 ⼈⼯填写:该⽅法费时,数据庞⼤时⾏不通 全局常量填充:⽅法简单,但有可能会被挖掘程序愚以为形成了⼜去的概念 属性中⼼度量填充:对于正常的数据分布⽽⾔可以使⽤均值,⽽倾斜数据分布应使⽤中位数 最可能的值填充:使⽤回归、基于推理的⼯具或者决策树归纳确定。 2.噪声数据与离群点: 噪声:被测量的变量的随机误差或者⽅差(⼀般指错误的数据) 离群点:数据集中包含⼀些数据对象,他们与数据的⼀般⾏为或模型不⼀致。(正常值,但偏离⼤多数数据) 分箱(binning):通过考察数据周围的值来光滑有序数据值,这些有序的值被分布到⼀些"桶"或箱中,由于分箱⽅法只是考虑近邻的值, 因此是局部光滑。 分箱的⽅法: 等宽分箱:每个"桶"的区间宽度相同 等深分箱:每个"桶"的样本个数相同 回归(regression):⽤⼀个函数拟合数据来光滑数据。 线性回归找出拟合两个属性(变量)的最佳直线;多元线性回归涉及多个属性,将数据拟合到多维曲⾯ 下图即对数据进⾏线性回归拟合: 离群点: 2.1 离群点的分类 全局离群点:个别数据离整体数据较远 集体离群点:⼀组数据与其他数据分布⽅式不同 情景离群点 2.2 离群点检测的⽅法 基于统计的离群点检测:假设给定的数据集服从某⼀随机分布(如正态分布等),⽤不⼀致性测试识别异常。 如果某个样本点不符合⼯作假设,那么认为它是离群点;如果它符合备选假设,则认为它是符合某⼀备选假设分布的离群点。 基于密度的局部离群点检测:通过基于局部离群点检测就能在样本空间数据分布不均匀的情况下也可以准确发现。 基于距离的离群点检测:如果样本空间D⾄少有N个样本点与对象O的距离⼤于d,那么对象O是以⾄少N个样本点和距离d为参数的基于距 离的离群点。 基于偏差的离群点检测:通过检查⼀组对象的主要特征来识别离群点,那些些不符合这种特征的数据对象被判定为离群点。 2.3 传统离群点检测的缺点: 基于统计的算法:不适合多维空间,预先要知道样本空间中数据集的分布特征 基于距离的算法:参数的选取⾮常敏感,受时间复杂度限制,不适⽤于⾼维稀疏数据集。 基于偏差的算法:实际应⽤少,在⾼维数据集中,很难获得该数据集的主要特征。 四、数据集成 四、数据集成 1.数据属性: 数据属性: 标称属性:属性值是⼀些符号或事物的名称,经常看做分类属性,如头发颜⾊:黄⾊、⿊⾊、棕⾊ ⼆元属性:是⼀种标称属性,只有两个类别 0或1 true or false 序数属性:其可能的值时间具有有意义的序或秩评定,如客户满意度:0-很满意 1-不能太满意... 数值属性:定量的,可度量的量,⽤整数换实数值表⽰。 2.离散属性与连续属性 离散属性与连续属性 1.离散属性:具有有限或⽆限可数个值,可以是数值属性,如性别、员⼯号 2.连续属性:⾮离散的,⼀般⽤浮点变量表⽰。 3.数据集成 数据集成 数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机的集中,从⽽为企业提供全⾯的数据共享。数据集成时,模式集成和 对象匹配⾮常重要,如何将来⾃于多个信息源的等价实体进⾏匹配即实体识别问题。 在进⾏数据集成时,同⼀数据在系统中多次重复出现,需要消除数据冗余,针对不同特征或数据间的关系进⾏相关性分析。 相关性分析时⽤⽪尔逊相关系数度量, ⽤于度量两个变量X和Y之间得相关(线性相关),其值介于1和-1之间。 五、数据规约 五、数据规约 1.数据规约策略: 维规约:减少考虑的随机变量或属性的个数,或把原数据变换或投影到更⼩的空间,具体⽅法:⼩波变换、主成分分析等。 数量规约:⽤替代的、较⼩的数据表⽰形式替换原数据 具体⽅法包括:抽样和数据⽴⽅体聚集 数据压缩:⽆损压缩:能从压缩后的数据重构恢复原来的数据, 大数据预处理技术是数据分析流程中的关键环节,主要包含七个步骤:数据预处理、数据清洗、数据集成、数据归约、数据变换、数据离散化以及大数据预处理。这些步骤旨在处理现实世界中“脏”数据的问题,确保数据的一致性、准确性、完整性、时效性、可信性和可解释性。 数据清洗是预处理的核心部分,它涉及到处理缺失值、噪声数据和离群点。缺失值处理可以采取忽略元组、人工填写、全局常量填充、属性中心度量填充或最可能值填充等方法。噪声数据和离群点则需要通过分箱、回归等方法进行平滑和识别。离群点分为全局、集体和情景三类,检测方法包括基于统计、密度、距离和偏差的检测,但每种方法都有其局限性,如基于统计的算法不适于高维数据,基于距离的算法对参数敏感,而基于偏差的算法在高维数据中应用较少。 数据集成关注的是合并来自不同源头、格式和性质的数据,实现数据的逻辑或物理集中。这涉及到数据属性的理解,如标称、二元、序数和数值属性,以及离散和连续属性的区分。数据集成时,需解决实体识别问题,消除数据冗余,并进行相关性分析,如使用皮尔逊相关系数度量两个变量间的线性相关性。 数据规约则是为了降低数据复杂性,提高处理效率。这包括维规约,通过小波变换、主成分分析等方法减少属性数量或降低数据维度;数量规约,如抽样和数据立方体聚集,用小数据集替代原始数据;以及数据压缩,分为无损压缩和有损压缩,前者能完全恢复原始数据,后者则会丢失部分信息。 大数据预处理技术是确保数据质量、提高分析效率的重要手段,涵盖数据的清洗、整合、简化等多个层面,为后续的数据分析和挖掘打下坚实基础。
- 粉丝: 192
- 资源: 3万+
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 修改LATEX.pdf
- IMG_20241125_120800.jpg
- AI助手Copilot辅助Go+Flutter打造全栈式在线教育系统课程17章
- 2024下半年,CISSP官方10道练习题
- JD-Core是一个用JAVA编写的JAVA反编译器 .zip
- 时间复杂度与数据结构:算法效率的双重奏
- QT 简易项目 网络调试器(未实现连接唯一性) QT5.12.3环境 C++实现
- YOLOv3网络架构深度解析:关键特性与代码实现
- ACOUSTICECHO CANCELLATION WITH THE DUAL-SIGNAL TRANSFORMATION LSTM NETWORK
- 深入解析:动态数据结构与静态数据结构的差异