大数据预处理PPT、讲稿、脚本等资源.zip资源-CSDN文库

共26个文件

ppt：12个

pptx：8个

docx：6个

版权申诉

63 浏览量 2022-07-11 08:52:26 上传评论收藏 28.02MB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

package

大数据预处理PPT、讲稿、脚本等资源.zip （26个子文件）

folder

ppt

folder

第8章

第八章演讲稿.docx 24KB

数据预处理第八章.pptx 993KB

folder

第2章

《数据导入与预处理应用》第2章V2.0版.pptx 4.41MB

folder

第7章

第七章《基于Python导入与导出数据》.pptx 625KB

folder

第4章

《数据导入与预处理应用》第4章 - 04 - 字段的拆分&合并&选择.ppt 676KB

《数据导入与预处理应用》第4章 - 03 - 常用字段清洗步骤简介&拆分字段成多行步骤示例.ppt 787KB

《数据导入与预处理应用》第4章 - 06 - 使用参照表使数据一致.ppt 719KB

《数据导入与预处理应用》第4章 - 02 - 关于字符串清洗.ppt 722KB

《数据导入与预处理应用》第4章 - 01 - 数据清洗概述.ppt 814KB

《数据导入与预处理应用》第4章 - 09 - 数据排重之去除不完全重复数据.ppt 724KB

《数据导入与预处理应用》第4章 - 08 - 数据排重简介&去除完全重复数据.ppt 789KB

数据预处理第四章.pptx 3.83MB

《数据导入与预处理应用》第4章 - 07 - 数据校验.ppt 714KB

《数据导入与预处理应用》第4章 - 10 - 脚本组件之JavaScript代码步骤的使用.ppt 768KB

《数据导入与预处理应用》第4章 - 12 - 脚本组件之公式&用户自定义Java表达式&UDJC.ppt 672KB

《数据导入与预处理应用》第4章 - 05 - 使用参照表校验数据的准确性.ppt 733KB

《数据导入与预处理应用》第4章 - 11 - 脚本组件之正则表达式步骤的使用.ppt 948KB

folder

第1章

第一章.pptx 2.56MB

第一章讲稿1.docx 24KB

第一章讲稿3.docx 20KB

第一章讲稿2.docx 24KB

第一章讲稿4.docx 23KB

第一章讲稿5.docx 21KB

folder

第3章

《数据导入与预处理应用》第3章V2.0版.pptx 6.28MB

folder

第6章

第六章-构建数据仓库.pptx 2.3MB

folder

第5章

第五章《kettle 作业设计》.pptx 5.14MB

数据导入与预处理应用-第四章

数据清理

2

4.1.4 使用参照表清洗数据

无法直接从当前表识别出数据的错误，

需要结合外部的数据进行参考。

外部的这些数据称为参照数据或主数据

。

参照数据或主数据由专业的公司进行销

售和维护，亦有少量的参照数据可以免

费下载

本节分两方面进行讲解：

 使用参照表校验数据的准确性

 使用参照表使数据一致

3

4.1.4 使用参照表清洗数据

在进入示例之前，先了解下如下两个步骤：





流

流

查

查

询

询（Stream lookup）步骤

• 该步骤允许你通过转换中其他步骤的信息来查询

数据

• 主要涉及三个方面的设置：

一、要查询的步骤，即参照数据流；

二、查询时的KEY字段，包括源数据流的KEY

和参照数据流的KEY；

三、返回的字段

• 返回字段可以设置默认返回值，当在参考数据流

中无法查询到KEY值时，返回设定的默认值

• 设定好查询步骤后，对应的跳（Hop）上会出现

一个“i”标识

源数据

参照数据

4





计

计

算

算

器

器（Calculator）步骤

4.1.4 使用参照表清洗数据

该步骤的功能相当丰富，本节主要利用其计算两个字符串的相似度

计算相似度的方式：比较一条记录的两个字段，根据所选算法计算相似度

该步骤计算相似度的算法：

Levenshtein和Damerau-Levenshtein：根据编辑一个字符串到另一个字符

串所需要的步骤数，来计算两个字符串之间的距离。两个算法的区别在于前一

个算法编辑步骤只包含插入、删除、更新字符，后一个算法还包括调换字符位

置的步骤。

Jaro和Jaro-Winkler：用于计算两个字符串的相似度，其值介于0到1之间

的小数。值越大相似度越高，完全相同的两个字符串为1，无任何相似度时值为

0。后一个算法是前一个算法的扩展，它给予起始部分就相同的字符串更高的分

数。

Needleman-Wunsch：该算法以差异扣分的方式来计算距离，它主要应用

于生物信息学领域。

内容反馈

版权申诉

qq_38220914

粉丝: 605
资源: 4312

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip