没有合适的资源?快使用搜索试试~ 我知道了~
数据挖掘课程复习提纲(40)资料.pdf
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 199 浏览量
2022-07-14
20:16:14
上传
评论 1
收藏 2.35MB PDF 举报
温馨提示
试读
24页
数据挖掘课程复习提纲(40)资料.pdf数据挖掘课程复习提纲(40)资料.pdf数据挖掘课程复习提纲(40)资料.pdf数据挖掘课程复习提纲(40)资料.pdf数据挖掘课程复习提纲(40)资料.pdf数据挖掘课程复习提纲(40)资料.pdf
资源推荐
资源详情
资源评论
数据挖掘课程复习提纲( 4+0 )
有关考试题型:
一、选择题(每题 2 分,共 16 分)
二、判断题(每题 1 分,共 10 分)
三、填空题(每空 1 分,共 19 分)
四、简答题(每题 5 分,共 15 分)
五、计算题(每题 10 分,共 40 分) 基本要求:掌握数据预处理、分类、聚类、关联分析、
离群点检测的基本方法,及 每类方法的应用场景(每类方法理解、熟悉一个例子)。算法重点
掌握 k-means 、
一趟聚类、Appriori 及基于密度的离群点检测方法;掌握决策树分类(C4.5、CART)、 KNN
分类的基本思想,基于聚类的离群点检测方法的思想。
第一章 绪论
1 数据挖掘的定义
技术层面:数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据 中,提取隐含在其
中、人们事先不知道的、但又潜在有用的信息和知识的过程。
商业层面:数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量 业务数据进行抽
取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。
2 数据挖掘的任务
预测任务:根据其它属性的值预测特定(目标)属性的值,如回归、分类、异常检测。 描述任
务:寻找概括数据中潜在联系的模式,如关联分析、聚类分析、序列模式挖掘。
聚类
(Clustering)
分析 “物以类聚,人以群分”。聚类分析技术试图找出数据集中数据的共性和差
异,并将具有 共性的对象聚合在相应的簇中。聚类分析可以帮助判断哪些组合更有意义,聚类分析已广泛应 用于
客户细分、定向营销、信息检索等领域。
分类
(Classification)
分析 分类分析就是通过分析示例数据库中的数据,为每个类别做出准确的描述,
或建立分析模 型,或挖掘出分类规则,然后用这个分类模型或规则对数据库中的其它记录进行分类。分类分 析已
广泛应用于用户行为分析
(
受众分析
)
、风险分析、生物科学等领域。
聚类与分类的区别
聚类问题是无指导的:没有预先定义的类。 分类问题是有指导的:预先定义有类。
关联
(Association)
分析 关联分析是发现特征之间的相互依赖关系,通常是在给定的数据集中发现频繁出
现的模式 知识
(
又称为关联规则
)
。关联分析广泛用于市场营销、事务分析等领域。
离群点
(Outlier)
检测 离群点检测就是发现与众不同的数据。离群点检测已广泛应用于
(
商业、金融、
保险等领域
)
欺诈行为的检测,网络入侵检测,反洗钱,犯罪嫌疑人调查,海关、税务稽查等领域。
回归
(Regression)
分析 回归分析是确定一个变量与一个或多个变量间相互依赖的定量关系的分析方法,
常应用于 风险分析、销售预测、作文自动评分等领域。
序列模式
(Sequential Pattern)
挖掘 序列模式挖掘是指分析数据间的前后序列关系,包括相似模式发
现、周期模式发现等,应 用于客户购买行为模式预测、
Web
访问模式预测、疾病诊断、网络入侵检测等领域。
6 数据挖掘使用的软件
SPSS Clementine
、
SAS Enterprise Miner
、
IBM Intelligent Miner
、
SQL Server 2005
,
Oracle DM
等商用软
件能够提供常规的挖掘过程和挖掘模式。
Matlab
,
Excel(Data mining in Excel: XLMiner)
等提供了数据挖掘模块。
Weka
,
RapidMiner(YALE)
,
ARMiner
等为开源数据挖掘工具。
7 数据挖掘在商业领域中的应用
(1)
市场营销;
(2)
交叉销售与交叉营销;
(3)
客户关系管理;
(4)
个性化推荐与个性化服务;
(5)
风险分析与
控制;
(6)
欺诈行为检测和异常模式的发现;
(7)
供应链库存管理中的需求预测;
(8)
人力资源管理
第三章 数据挖掘建模方法
1 .Clementine 的数据挖掘方法论 CRISP-DM
CRISP-DM
(
CRoss-Industry Standard Process for Data Mining
)即为” 跨行业数据挖掘过程标 准”,为一个
KDD
工程提供了一个完整的过程描述,该模型将一个
KDD
工程分为
6
个不同的, 但顺序并非完全不变的阶段。
业务理解 (
Business Understanding
) 其任务包括:确定商业目标、评析环境、确定数据挖掘目标、制定项目
计划。
数据理解 (
Data Understanding
) 其任务包括:收集原始数据、描述数据、探索数据、检验数据质量。
数据准备 (
Data Preparation
) 其任务包括:选择数据、清洗数据、构造数据、整合数据、规范化数据等。 建
模(
Modeling
) 其任务包括:选择建模技术、生成测试计划、构建模型、评估模型(参数设置等技术角度) 评估
(
Evaluation
)
其任务包括:评价结果、重审过程、确定下一步。 部署 (
Deployment
) 其任务包括:规划部署、规划监控与
维护、产生最终报告、回顾项目。
2
成功建立预测模型的注意要点 要成功建立预测模型,需要注意以下三点:
(1)
(2)
(3)
预测模型的时间范围
模型的使用有效期
建立预测模型的假设
假设
1
:历史是未来的写照
假设
2
:数据是可以获得的
假设
3
:数据中包含我们的预期目标
3
有效模型的建立需要考虑以下因素:
(1)
预测建模的第一项任务就是搜集足够预先分类好的数据,将模型集分为三部分:训练 集、测试集、评估
集,并理解模型在各个子集上的效果。
(2)
对于类别不平衡的数据,通过抽样来控制模型集的密度,即不同分布的类别比例。
(3)
注意观察所用数据的输入和输出时间范围,所有输入都必须出现在输出之前,保留一 个执行期间是明智
的选择。
(4)
在模型集中使用多重时间窗口有助于确保模型稳定、并在时间上易于转换。
(5)
大多数建模过程需要建立多个模型,并对多个模型的效果进行比较,以选用效果最好 的模型进行预测,
或者对多个模型进行组合,以得到性能更优的集成分类模型。
(6)
对不同的模型集、模型参数以及时间范围进行试验,有助于建立更好更稳定的模型。
4
建立有效预测模型的基本步骤:
(1)
用训练集进行训练建立模型
(2)
(3)
利用测试集,对模型进行修正
对模型的效果进行评价
第 3 章 聚类分析
1 聚类的定义
聚类
(Clustering)
是将数据集划分为若干相似对象组成的多个组
(group)
或簇
(cluster)
的过程,
(cluster)
使得同一组中对象间的相似度最大化,不同组中对象间的相似度最小化。或者说一个簇
就是由彼此相似的一组对象所构成的集合,不同簇中的对象通常不相似或相似度很低。
聚类分析中“簇”的特征:聚类所说的簇不是事先给定的,而是根据数据的相似性和距离 来划分,另外聚类
的数目和结构都没有事先假定。
聚类方法的 目的 是寻找数据中:潜在的自然分组结构和感兴趣的关系。 聚类有着广泛的应用,既可作为一种
独立的数据挖掘方法使用,也可作为预处理工具,为 其它数据挖掘任务作数据准备。如在电信业务数据挖掘中,作
为一种独立的方法用于客户细分, 也可以作为异常挖掘的预处理步骤。
2 数据挖掘中使用的数据
(1)
不同的属性类型:分为分类属性和数值属性,分类属性又分标称型和序数型,而数值属性又 分区间型和比率
型。如性别为标称型,好坏等级为序数型,日期时间为区间型,分数为比率型。
(2)
数据集的特性
:
维度
(Dimensionality)
,稀疏性
(Sparsity)
,分辨率
(Resolution)
。
3 距离与相似性
属性之间的相似性度量
(1)
Cosine
相似度
定义两个向量的夹角余弦为相似度,即:
m
s(p,q)
二
cos(p,q)=
p q
llPlb XI
2
m
二
p
i
q
i
i
A
m
'、
p:
、
取值范围在区间
[-1,1]
内。
(2)
相关系数
(Correlation coefficient)
(P
i
- P
i
) g -q
i
)
s(p,q)
m
2
i ±
m
_ 2
i
A.
a (p -p) v (q
i
-q
i
)
i ±
相关系数是标准化后的对象之间的夹角余弦,取值范围在区间的线
[-1,1]
内,它表示两个向量
性相关程度。具有平移不变性。
(3)
广义
Jaccard
系数
广义
Jaccard
系数又称为
Tanimoto
系数,用 息检
EJ
表示,取值范围在区间
[0,1]
内。广泛用于信
索和生物学分类中,在二元属性情况下简化为
Jaccard
系数。
EJ(p,q)=—
工
p
i
q
i
常用距离函数
:
(1)
间隔数值属性
设
m
为样本空间的维数,对于任意样本对象
j m
p =[p
「
P
2
,…,P
m
]
与
q =4, q
2
,…,q
m
]
。
欧式
(Euclidean)
距离:
d
2
(p,q) -
\ i
| P
i
-q
i
|
2
士
m
曼哈顿
(
Manhattan
)
距离:
d'p, q) ='j p
i
-q
i
|
i
土
Canberra
距离:
d
canb
(p,q)
® 斗
-IP
i
l+|q I
(2)
二值属性
二值属性变量
(binary variable)
只有两种状态
:0
或
1,
表示属性的存在与否。一种差异计算方法
就是根据二值数据计算。假设二值属性对象
中均取
1
的二值属性个数,
p
和
q
的取值情况如表
2-1
所示。其中
m
表示对象
p
和
q
n
o
表示对象
p
取
1
而对象
q
取
0
的二值属性个数,
n
o1
表示对象
p
取
0
而对
剩余23页未读,继续阅读
资源评论
a66889999
- 粉丝: 36
- 资源: 1万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 机器学习和数据挖掘课程设计-米其林餐厅数据挖掘管理系统源码+使用文档说明.zip
- html html html展示我与ai的对化
- 数据结构课程设计-全国交通出行咨询模拟系统C语言实现源码.zip
- cef-binary-109.0.1+gcd5e37a+chromium-109.0.5414.8-windows32
- 基于C语言的全国交通咨询系统模拟源码.zip
- 正点原子HAL库 STM32F4 DMA(学习自用附源码)
- 炫酷代码雨,超级炫酷哦!!!
- 基于物联网MQTT协议的智能停车场管理系统
- POETIZE个人博客系统源码 - 最美博客
- 基于深度学习的行人检测系统源码+项目说明(YoloV3+Tensorflow).zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功