⼤数据预处理技术 学习了⽜琨⽼师的课程后整理的学习笔记,⽤于⽇后复习 学习了⽜琨⽼师的课程后整理的学习笔记,⽤于⽇后复习 ⼀、⼤数据预处理的⼏个步骤 ⼀、⼤数据预处理的⼏个步骤 1.数据预处理 2.数据清洗 3.数据集成 4.数据归约 5.数据变换 6.数据离散化 7.⼤数据预处理 ⼆、数据预处理 ⼆、数据预处理 现实中的数据⼤多是"脏"数据: 不完整 缺少属性值或仅仅包含聚集数据 含噪声 包含错误或存在偏离期望的离群值 ⽐如:salary="-10",明显是错误数据 不⼀致 ⽤于商品分类的部门编码存在差异 ⽐如age="42"Birthday="03/07/1997" ⽽我们在使⽤数据过程中对数据有如下要求: ⼀致性、准确性、完整性、时效性、可信性、可解释性 由于获得的数据规模太过庞⼤,数据不完整、重复、杂乱,在⼀个完整的数据挖掘过程中,数据预处理要花费60%左右的时间。 三、数据清洗 三、数据清洗 1.缺失值的处理: 忽略元组:若有多个属性值缺失或者该元祖剩余属性值使⽤价值较⼩时,应选择放弃 ⼈⼯填写:该⽅法费时,数据庞⼤时⾏不通 全局常量填充:⽅法简单,但有可能会被挖掘程序愚以为形成了⼜去的概念 属性中⼼度量填充:对于正常的数据分布⽽⾔可以使⽤均值,⽽倾斜数据分布应使⽤中位数 最可能的值填充:使⽤回归、基于推理的⼯具或者决策树归纳确定。 2.噪声数据与离群点: 噪声:被测量的变量的随机误差或者⽅差(⼀般指错误的数据) 离群点:数据集中包含⼀些数据对象,他们与数据的⼀般⾏为或模型不⼀致。(正常值,但偏离⼤多数数据) 分箱(binning):通过考察数据周围的值来光滑有序数据值,这些有序的值被分布到⼀些"桶"或箱中,由于分箱⽅法只是考虑近邻的值, 因此是局部光滑。 分箱的⽅法: 等宽分箱:每个"桶"的区间宽度相同 等深分箱:每个"桶"的样本个数相同 回归(regression):⽤⼀个函数拟合数据来光滑数据。 线性回归找出拟合两个属性(变量)的最佳直线;多元线性回归涉及多个属性,将数据拟合到多维曲⾯ 下图即对数据进⾏线性回归拟合: 离群点: 2.1 离群点的分类 全局离群点:个别数据离整体数据较远 集体离群点:⼀组数据与其他数据分布⽅式不同 情景离群点 2.2 离群点检测的⽅法 基于统计的离群点检测:假设给定的数据集服从某⼀随机分布(如正态分布等),⽤不⼀致性测试识别异常。 如果某个样本点不符合⼯作假设,那么认为它是离群点;如果它符合备选假设,则认为它是符合某⼀备选假设分布的离群点。 基于密度的局部离群点检测:通过基于局部离群点检测就能在样本空间数据分布不均匀的情况下也可以准确发现。 基于距离的离群点检测:如果样本空间D⾄少有N个样本点与对象O的距离⼤于d,那么对象O是以⾄少N个样本点和距离d为参数的基于距 离的离群点。 基于偏差的离群点检测:通过检查⼀组对象的主要特征来识别离群点,那些些不符合这种特征的数据对象被判定为离群点。 2.3 传统离群点检测的缺点: 基于统计的算法:不适合多维空间,预先要知道样本空间中数据集的分布特征 基于距离的算法:参数的选取⾮常敏感,受时间复杂度限制,不适⽤于⾼维稀疏数据集。 基于偏差的算法:实际应⽤少,在⾼维数据集中,很难获得该数据集的主要特征。 四、数据集成 四、数据集成 1.数据属性: 数据属性: 标称属性:属性值是⼀些符号或事物的名称,经常看做分类属性,如头发颜⾊:黄⾊、⿊⾊、棕⾊ ⼆元属性:是⼀种标称属性,只有两个类别 0或1 true or false 序数属性:其可能的值时间具有有意义的序或秩评定,如客户满意度:0-很满意 1-不能太满意... 数值属性:定量的,可度量的量,⽤整数换实数值表⽰。 2.离散属性与连续属性 离散属性与连续属性 1.离散属性:具有有限或⽆限可数个值,可以是数值属性,如性别、员⼯号 2.连续属性:⾮离散的,⼀般⽤浮点变量表⽰。 3.数据集成 数据集成 数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机的集中,从⽽为企业提供全⾯的数据共享。数据集成时,模式集成和 对象匹配⾮常重要,如何将来⾃于多个信息源的等价实体进⾏匹配即实体识别问题。 在进⾏数据集成时,同⼀数据在系统中多次重复出现,需要消除数据冗余,针对不同特征或数据间的关系进⾏相关性分析。 相关性分析时⽤⽪尔逊相关系数度量, ⽤于度量两个变量X和Y之间得相关(线性相关),其值介于1和-1之间。 五、数据规约 五、数据规约 1.数据规约策略: 维规约:减少考虑的随机变量或属性的个数,或把原数据变换或投影到更⼩的空间,具体⽅法:⼩波变换、主成分分析等。 数量规约:⽤替代的、较⼩的数据表⽰形式替换原数据 具体⽅法包括:抽样和数据⽴⽅体聚集 数据压缩:⽆损压缩:能从压缩后的数据重构恢复原来的数据, 大数据预处理技术是数据挖掘流程中的一个重要环节,它关系到数据分析的质量和准确性,是实现数据价值的重要前提。预处理技术可以分为多个步骤,每个步骤都致力于解决现实世界中“脏”数据所带来的挑战,包括数据的不一致性、不准确性、不完整性、不及时性、不可信性和不可解释性等问题。 数据预处理是大数据预处理的第一步,其目的在于为后续的数据分析工作打下坚实基础。在实际应用中,从多个渠道收集的数据往往包含不完整的记录、错误信息和噪声数据。因此,数据清洗工作变得尤为重要,其中处理缺失值是首要任务。在处理缺失值时,可以根据数据的重要性和缺失情况采取不同的策略,如忽略不重要的元组、用人工填写的方式补全缺失值、使用全局常量或者属性值的均值或中位数来填充,或是通过数据挖掘技术预测并填充最可能的值。在处理噪声数据和离群点时,常用的方法包括分箱和回归。分箱通过将数据分布到不同的“桶”或箱中来平滑数据,而回归方法则尝试用函数模型来拟合数据,减少噪声的影响。 对于离群点的处理,数据预处理技术采用了基于统计、基于密度、基于距离和基于偏差的检测方法。每种方法各有特点,但也有其局限性。例如,基于统计的算法在高维数据上效果不佳,而基于距离的方法对参数选择非常敏感,基于密度的方法在样本空间数据分布不均匀时难以发现离群点,基于偏差的方法则需要能够准确识别数据集的主要特征。 数据集成是大数据预处理的另一关键步骤,它关注于合并和整合来自不同数据源的数据。在这个过程中,需要处理不同格式、特点性质的数据,使它们能够在逻辑上或物理上集中,从而为企业提供全面的数据共享。在进行数据集成时,模式集成和对象匹配是至关重要的,需要识别并匹配等价实体。同时,数据冗余的消除、相关性分析也是数据集成过程中不可或缺的部分。 数据规约技术则致力于降低数据复杂性,提高数据挖掘的效率和效果。数据规约的策略包括维规约、数量规约和数据压缩。维规约旨在减少数据集中的随机变量或属性个数,主要方法有小波变换和主成分分析。数量规约是指用较小的数据集或数据表征形式替换原始数据,常用方法包括抽样和数据立方体聚集。数据压缩则分为无损压缩和有损压缩,无损压缩能保证数据的完整还原,而有损压缩则会在压缩过程中丢失一些信息。 大数据预处理技术是数据分析前的准备阶段,它包括了数据预处理、数据清洗、数据集成、数据归约、数据变换、数据离散化等多个步骤,旨在确保数据质量,提高分析效率。通过这些技术手段,能够使从现实世界中收集的数据变得可信赖、一致和便于分析,为后续的数据挖掘和知识发现提供有力支撑。
- 粉丝: 197
- 资源: 3万+
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 白色大气风格的室内装修设计网站模板下载.zip
- 白色大气风格的手机电脑商城模板下载.zip
- 白色大气风格的手机软件公司html5模板下载.zip
- 白色大气风格的手机端HTML5企业网站模板.zip
- 白色大气风格的水疗按摩网页模板下载.zip
- 白色大气风格的双屏个人主页模板.zip
- 白色大气风格的数据研究公司模板下载.zip
- 白色大气风格的探险文化企业网站模板下载.zip
- 白色大气风格的投资企业CSS3网站模板.zip
- 白色大气风格的投资网站CSS3模板.zip
- 白色大气风格的图片设计类网站模板下载.zip
- 白色大气风格的网上购物CSS3整站网站模板.zip
- 白色大气风格的土建设计公司模板下载.zip
- 白色大气风格的纹身企业网站模板.zip
- 白色大气风格的温馨舒适家具bootstrap模板.zip
- 白色大气风格的五星级酒店集团模板下载.zip