没有合适的资源?快使用搜索试试~ 我知道了~
电子科大数据挖掘作业1-6.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 124 浏览量
2022-11-26
18:44:37
上传
评论
收藏 1.01MB DOCX 举报
温馨提示
试读
13页
。。。
资源推荐
资源详情
资源评论
数据挖掘课后习题
数据挖掘作业 1——6
第一章 绪论
1)
数据挖掘处理的对象有哪些?请从实际生活中举出至少三种
。
1、关系数据库
2、数据仓库
3、事务数据库
4、高级数据库系统和数据库应用如空间数据库、 时序数据库、 文本数据
库和多媒体数据库等,还可以是 Web 数据信息。
实际生活的例子:
①电信行业中利用数据挖掘技术进行客户行为分析 , 包含客户通话记录、
通话时间、 所开通的服务等, 据此进行客户群体划分以及客户流失性分析。
②天文领域中利用决策树等数据挖掘方法对上百万天体数据进行分类与分
析, 帮助天文学家发现其他未知星体。
③市场业中应用数据挖掘技术进行市场定位、 消费者分析、 辅助制定市场
营销策略等。
2) 给出一个例子,说明数据挖掘对商务的成功是至关重要的。该商务需要什么
样的数据挖掘功能?它们能够由数据查询处理或简单的统计分析来实现吗?
以一个百货公司为例,它可以应用数据挖掘来帮助其进行目标市场营
销。运用数据挖掘功能例如关联规则挖掘,百货公司可以根据销售记录挖掘
出强关联规则,来诀定哪一类商品是消费者在购买某一类商品的同时,很有
可能去购买的,从而促使百货公司进行目标市场营销。数据查询处理主要用
于数据或信息检索,没有发现关联规则的方法.同样地,简单的统计分析没有
能力处理像百货公司销售记录这样的大规模数据。
第二章 数据仓库和 OLAP 技术
1) 简述数据立方体的概念、多维数据模型上的 OLAP 操作。
数据立方体
数据立方体是二维表格的多维扩展 ,如同几何学中立方体是正
方形的三维扩展一样,是一类多维矩阵,让用户从多个角度探索和
分析数据集,通常是一次同时考虑三个维度.数据立方体提供数据的
多维视图,并允许预计算和快速访问汇总数据。
多维数据模型上的 OLAP 操作
a) 上卷(roll—up):汇总数据
通过一个维的概念分层向上攀升或者通过维规约
b) 下卷(drill—down):上卷的逆操作
由不太详细的数据到更详细的数据,可以通过沿维的概念分
层向下或引入新的维来实现
c) 切片和切块(slice and dice)
投影和选择操作
d) 转轴(pivot)
立方体的重定位,可视化,或将一个 3 维立方体转化为一个 2
维平面序列
2) OLAP 多维分析如何辅助决策?举例说明。
OLAP 是在多维数据结构上进行数据分析的 ,一般在多维数据上切
片、切块成简单数据来进行分析,或是上卷、下卷来分析。OLAP 要查询
大量的日常商业信息,以及大量的商业活动变化情况,如每周购买量的
变化值,经理通过查询变化值来做决策.
例如经理看到利润小于预计值是,就会去深入到各地区去查看产品
利润情况,这样他会发现一些比较异常的数据。经过进一步的分析和追
踪查询可以发现问题并解决
3) 举例说明 OLAP 的多维数据分析的切片操作。
切片就是在某两个维上取一定区间的维成员或全部维成员。
如用三维数组表示为(地区,时间,产品,销售额),如果在地区维度
上选定一个维成员,就可以得到在该地区的一个切片(关于时间和产品
的切片)。
第三章 数据预处理
1) 假定用于分析的数据包含属性 age,数据元组中 age 的值如下(按递增序):
13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,
35,35,35,36,40,45,46,52,70。
(a)
使用按箱平均值平滑对以上数据进行平滑,箱的深度为 3。解释你的步
骤.评论对于给定的数据,该技术的效果
.
已知数据元组中 age 的值如下(按递增序):
13 , 15,16,16 , 19,20,20 , 21,22 , 22 , 25 , 25 ,
25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70,
且箱的深度为 3, 划分为(等频)箱:
箱 1: 13,15,16
箱 2: 16,19,20
箱 3: 20,21,22
箱 4: 22,25,25
箱 5: 25,25,30
箱 6: 33,33,33
箱 7: 35,35,35
箱 8: 35,36,40
箱 9: 45,46,52
箱 10: 70
用箱均值光滑:
箱 1: 15,15,15
箱 2: 18,18,18
箱 3: 21,21,21
箱 4: 24,24,24
箱 5: 27,27,37
箱 6: 33,33,33
箱 7: 35,35,35
箱 8: 37,37,37
箱 9: 48,48,48
箱 10: 70
(b)
对于数据平滑,还有哪些其它方法?
(1)回归:可以用一个函数(如回归函数)拟合数据来光滑数据;
(2)聚类: 可以通过聚类检测离群点, 将类似的值组织成群或簇. 直观
地, 落在簇集合之外的值视为离群点。
2) 使用习题 1)给出的 age 数据,回答以下问题:
(a) 使用 min-max 规范化,将 age 值 35 转换到[0。0, 1。0]区间。
已知最大值为 70, 最小值为 13, 则可将 35 规范化为:
剩余12页未读,继续阅读
资源评论
xxpr_ybgg
- 粉丝: 6537
- 资源: 3万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功