没有合适的资源?快使用搜索试试~ 我知道了~
数据挖掘习题及解答答案
4星 · 超过85%的资源 需积分: 43 63 下载量 63 浏览量
2011-06-23
00:20:42
上传
评论 4
收藏 432KB DOC 举报
温馨提示
试读
18页
有关数据挖掘的一些题目以及解答 如:讨论下列每项活动是否是DM任务。 分析下列属性的类型(二元/连续,定性(标称/序数),定量(区间/比率))
资源推荐
资源详情
资源评论
数据挖掘习题
数据挖掘习题整理
1 第二讲习题
1.1 讨论下列每项活动是否是 DM 任务。
根据性别划分学生 分类
根据成绩划分学生 聚类
计算班级平均分数
按学号对学生排序
预测筛子的结果 关联分析
使用历史记录预测股票走势 时间序列分析
检测信用卡欺诈行为 偏差分析检测
1.2 分析下列属性的类型(二元/连续,定性(标称/序数),定量(区间/比率))
1. 用 AM 或 PM 表示时间 连续,区间
2. 根据人的判断测出亮度 二元,比率
3. 根据曝光表测出亮度 连续,比率
4. 运动会上授予的金银铜牌 二元,序数
5. 海拔高度 连续,比率
6. ISBN 号 二元,序数
7. 军衔 二元,序数
8. 外套寄存号 二元,标称
1 / 18
数据挖掘习题
1.3 某公司销售主管说他已经设计出了一套评估顾客满意度的完整方法。“这太简单了,
我简直不敢相信,以前竟然没人想到,我只是记录顾客对每种产品的抱怨次数,我认
为计数具有比率性。我的产品满意度度量必然具有比率特性。但是,当我根据顾客满
意度评价产品给老板看时,他说我忽略了显而易见的东西,说我的度量毫无价值。你
能帮我摆平他吗?
1. 谁是对的?如果是老板的话,该如何修正满意度度量?
答:老板是对的,对购买人数也应该统计,某种商品的抱怨次数与购买该商品的
人数的比值分析,度量才有价值。
2. 对以前的满意度度量你有何看法?
答:对某种商品的满意度,应该使用抱怨比率而不是抱怨次数来度量。
1.4 上题的销售主管再次联系你。他设计了一个更好的办法用以评估顾客喜爱一种产
品超过其他类似产品的程度。”在开发一种新产品时,我们厂创建一些变种并评估顾客
跟喜欢那一种。以前是同时散发所有产品变种并要求他们根据自己的喜爱程度对产品
划分等级。但是,当有两个以上产品时,评测题目不明确,评测会占用很长时间。我
建议逐对比较,然后再根据这些比较来划分等级。比如有三个产品时,1 和 2,2 和 3,3
和 1.使用我的方法,评测时间是原来的 1/3,但是参与评测的员工却抱怨说,他们不能
从评测结果得到一致的等级评定。你能帮助我吗?【老师给的答案】
1. 销售主管是否陷入困境?他的方法能根据顾客的喜好产生产品变种的有序排列吗 ?
答:确实陷入困境。不能根据顾客喜好产生产品变种的有序排列。例如客户
1>2,2>3,3>1,结果就不一致了。
2 / 18
数据挖掘习题
2. 是否可能修正该销售主管的方法?你对逐对比较创建序数度量有何看法?
答:对 3 个产品,只比较前两对。一般情况下,在成对比较同时,还让客户对整
个排序,否则可能产生不一致。
3. 对以前的产品评估方案,每个产品变种的总等级通过计算所有评测题目的平均值
得到,是否合理?
答:不太合理。因为数据不一定 rao。某些极端数据可能误导。所以,可以采用
中位数或截尾法。
1.5 一位教育心理学家想使用关联分析来分析测试结果。测试包含 100 个问题,每个
问题有 4 个答案。(400 个非对称的二元属性)
1. 如何将该数据转换成为适合关联分析的形式?
2. 能 得 到 何
种 属 性 类
型 以 及 有
多 少 个 属
性?
答:1.使用 Jaccard 系数来比较二元数据的相似性度量:
J = 11 匹配的个数 /不涉及 00 匹配的属性个数
= M
11
/ (M
01
+ M
10
+ M
11
)
2.待完善
3 / 18
数据挖掘习题
1.6 亚洲象群的成员测量如下属性:重量、高度、象牙长度、象鼻长度和耳朵面积。
基于这些测量,可以使用那些相似性度量来对这些大象进行比较或分组?原因?【老
师给的答案】
答:象群个属性值域不同。数量大小也取决于尺度标准。距离数据对称。所以先将数
据标准化并规范化后计算其欧氏距离。X’=(x-x 平均值)/sx 。
1.7 给定 m 个对象的集合,这些对象划分为 K 组,其中第 i 组的大小为 mi。如果目标
是得到容量为 n<m 的样本,下面两种抽样方案有什么区别?(假定使用有回放抽样)
【老师给的答案】
1. 从每组随机的选择 n*mi/m 个元素
2. 从数据集中随机的选择 n 个元素,而不管对象属于哪个组。
答:第 1 种方法更好,数据更全面些。
1.8 比较和对比某些相似性和距离度量。【老师给的答案】
1)对于二元数据,L1 距离对应汉明距离,即两个二元向量不同的二进制数。J 相似度
是两个二元向量之间相似性的度量。计算如下两个二元向量之间的汉明距离和 Jaccard
相似度。
X=0101010001 Y=0100011000
答:H=∑|Xi-Yi|=3
J=M11/(M01+M10+M11)=2/(3+2)=0.4
2) J 与 H 那种方法更类似 SMC?那种更类似于余弦度量?
答:汉明距离类似于 SMC(SMC=H/number of bits), J 与余弦度量类似,都忽略 0-
0matches。余弦度量适用于文档相识度度量。
4 / 18
剩余17页未读,继续阅读
资源评论
- yq19039127782016-03-15为什么下载不下来,看不了呢
wovicky1314
- 粉丝: 61
- 资源: 3
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功