没有合适的资源?快使用搜索试试~ 我知道了~
数据预处理-课程复习资料
资源推荐
资源详情
资源评论
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![thumb](https://img-home.csdnimg.cn/images/20210720083646.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![](https://csdnimg.cn/release/download_crawler_static/89310690/bg1.jpg)
第一章
一、单项选择题
1、影响数据质量问题的因素有哪些(D)1
A、准确性、完整性、一致性
B、相关性、时效性
C、可信性、可解释性
D、以上都是
2、以下说法错误的是(B)15
A、数据预处理的主要流程为数据清理、数据集成、数据变换与数据归
约.
B、数据清理、数据集成、数据变换、数据归约这些步骤在数据预处理
活动中必须顺序使用。
C、冗余数据的删除既是一种数据清理形式,也是一种数据归约。
D、整个预处理过程要尽量人机结合,尤其要注重和客户以及专家多交
流。
3、处理噪声的方法一般有(D)2
A、分箱
B、回归。
C、聚类
D、 以上都是
4、数据集成的过程中需要处理的问题有(D)6
A、实体识别
B、冗余与相关性分析。
C、数据冲突和检测
D、 以上都是
5、数据集成的方法有(D)6
A、联邦数据库
B、中间件集成。
![](https://csdnimg.cn/release/download_crawler_static/89310690/bg2.jpg)
C、数据复制
D、 以上都是
6、数据归约的方法有(D)9
A、维归约
B、数量归约
C、数据压缩
D、 以上都是
7、以下说法错误的是(C)9
A、主成分分析、属性子集选择为维归约方法.
B、直方图、聚类、抽样和数据立方体聚集为数量归约方法。
C、用于规约的时间可以超过或抵消在规约后的数据上挖掘节省的时间。
D、数据归约的目的用于帮助从原有庞大数据集中获得一个精简的数据
集合,并使这一精简数据集保持原有数据集的完整性,这样在精简
数据集上进行数据挖掘显然效率更高,并且挖掘出来的结果与使用
原有数据集所获得结果是基本相同。
8、下列方法不是数据变换的有(B)7
A、光滑
B、抽样
C、规范化
D、 属性构造
一、 填空题
1、在下表中,用同类样本属性的中心度量方法填充空缺值,空缺值应为
9000 。
客户编号
客户名
称
风险等
级
收入
1
张三
3
5000
2
李四
2
8000
![](https://csdnimg.cn/release/download_crawler_static/89310690/bg3.jpg)
3
王五
2
1000
0
4
赵六
1
1500
0
5
李木
2
6
王权
1
1600
0
同类样本属性:风险等级 (8000+10000)/2=9000
2、假定属性 income 的最小与最大值分别为 3000 和 25000,根据最小—最大
规范化方法将 income 10000 映射到[0,1]范围内,值为 0.318 。
[(10000-3000)/(25000-3000)]*(1-0)+0=0.3181818181818
3、数列为[3,5,10,15,10,13],使用 z-score 方法映射后为
[ -1.650,-1.178,0,1.178,0,0.707 ]
(注,均值为 10,标准差为:4.243)
3: (3-10)/4.243=-1.650 同理
第二章
1. Kettle 是一个 程序 A
A. Java
B. Python
C. JavaScipt
D. C++
2. 转换是 ETL 解决方案中最主要的部分,它负责处理 、 、
各阶段对数据行的各种操作 A
A. 抽取、转换、加载
B. 转换、加载、抽取
C. 加载、抽取、转换
![](https://csdnimg.cn/release/download_crawler_static/89310690/bg4.jpg)
D. 加载、转换、抽取
3. 转换里的步骤通过 来连接 A
A. 跳
B. 箭头
C. 连线
D. 队列
4. 跳定义了一个 ,允许数据从一个步骤向另一个步骤流动 A
A. 单向通道
B. 双向通道
C. 方向
D. 队列
5. 在 Kettle 里,数据的单位是 ,数据流就是数据行从一个步骤到另
一个步骤的移动 A
A. 行
B. 列
C. 单元格
D. 字段
6. 数据流的另一个同义词就是 。A
A. 记录流
B. 队列
C. 消息
D. 数据库
7. 是转换里的基本组成部分。它是一个图形化的组件,可以通过配置步骤的
参数,使得它完成相应的功能。A
A. 步骤
B. 图标
C. 控件
D. 弹框
8. 步骤可以从指定的数据库中读取指定关系表的数据 A
![](https://csdnimg.cn/release/download_crawler_static/89310690/bg5.jpg)
A. 表输入
B. Excel 输入
C. CSV 文件输入
D. OLAP 输入
9. 步骤需要有一个 的名字 A
A. 唯一性
B. 个性化
C. 功能化
D. 以上都是
10. 一个跳,相对于输出数据的步骤而言,为 跳;相对于输入数据
的步骤而言,为 跳。A
A. 输出、输入
B. 输入、输出
C. No answer text provided.
D. No answer text provided.
11. 一个步骤的数据发送可以被设置为 和 。A
A. 轮流发送、复制发送
B. 多次发生,单次发送
C. No answer text provided.
D. No answer text provided.
12. 是将数据行依次发给每一个输出跳, 是将全部数据行发送给
所有输出跳 A
A. 轮流发送、复制发送
B. 复制发送、轮流发送
C. 单次发送,多次发送
D. 多次发送,单次发送
13. 在运行转换时,一个线程运行一个步骤,所有步骤的线程几乎
运行 A
A. 同时
剩余32页未读,继续阅读
资源评论
![avatar-default](https://csdnimg.cn/release/downloadcmsfe/public/img/lazyLogo2.1882d7f4.png)
![avatar](https://profile-avatar.csdnimg.cn/default.jpg!1)
大象代码
- 粉丝: 427
- 资源: 13
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![voice](https://csdnimg.cn/release/downloadcmsfe/public/img/voice.245cc511.png)
![center-task](https://csdnimg.cn/release/downloadcmsfe/public/img/center-task.c2eda91a.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![dialog-icon](https://csdnimg.cn/release/downloadcmsfe/public/img/green-success.6a4acb44.png)