数据挖掘课程复习提纲(40)资料.pdf资源-CSDN文库

版权申诉

199 浏览量 2022-07-14 20:16:14 上传评论 1 收藏 2.35MB PDF 举报

资源推荐

资源详情

资源评论

数据挖掘课程复习提纲（ 4+0 ）

有关考试题型：

一、选择题（每题 2 分，共 16 分）

二、判断题（每题 1 分，共 10 分）

三、填空题（每空 1 分，共 19 分）

四、简答题（每题 5 分，共 15 分）

五、计算题（每题 10 分，共 40 分）基本要求：掌握数据预处理、分类、聚类、关联分析、

离群点检测的基本方法，及每类方法的应用场景（每类方法理解、熟悉一个例子）。算法重点

掌握 k-means 、

一趟聚类、Appriori 及基于密度的离群点检测方法；掌握决策树分类（C4.5、CART）、 KNN

分类的基本思想，基于聚类的离群点检测方法的思想。

第一章绪论

1 数据挖掘的定义

技术层面：数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其

中、人们事先不知道的、但又潜在有用的信息和知识的过程。

商业层面：数据挖掘是一种新的商业信息处理技术，其主要特点是对商业数据库中的大量业务数据进行抽

取、转换、分析和其他模型化处理，从中提取辅助商业决策的关键性数据。

2 数据挖掘的任务

预测任务：根据其它属性的值预测特定（目标）属性的值，如回归、分类、异常检测。描述任

务：寻找概括数据中潜在联系的模式，如关联分析、聚类分析、序列模式挖掘。

聚类

（Clustering）

分析 “物以类聚，人以群分”。聚类分析技术试图找出数据集中数据的共性和差

异，并将具有共性的对象聚合在相应的簇中。聚类分析可以帮助判断哪些组合更有意义，聚类分析已广泛应用于

客户细分、定向营销、信息检索等领域。

分类

（Classification）

分析分类分析就是通过分析示例数据库中的数据，为每个类别做出准确的描述，

或建立分析模型，或挖掘出分类规则，然后用这个分类模型或规则对数据库中的其它记录进行分类。分类分析已

广泛应用于用户行为分析

（

受众分析

）

、风险分析、生物科学等领域。

聚类与分类的区别

聚类问题是无指导的：没有预先定义的类。分类问题是有指导的：预先定义有类。

关联

(Association)

分析关联分析是发现特征之间的相互依赖关系，通常是在给定的数据集中发现频繁出

现的模式知识

(

又称为关联规则

)

。关联分析广泛用于市场营销、事务分析等领域。

离群点

(Outlier)

检测离群点检测就是发现与众不同的数据。离群点检测已广泛应用于

(

商业、金融、

保险等领域

)

欺诈行为的检测，网络入侵检测，反洗钱，犯罪嫌疑人调查，海关、税务稽查等领域。

回归

(Regression)

分析回归分析是确定一个变量与一个或多个变量间相互依赖的定量关系的分析方法，

常应用于风险分析、销售预测、作文自动评分等领域。

序列模式

(Sequential Pattern)

挖掘序列模式挖掘是指分析数据间的前后序列关系，包括相似模式发

现、周期模式发现等，应用于客户购买行为模式预测、

Web

访问模式预测、疾病诊断、网络入侵检测等领域。

6 数据挖掘使用的软件

SPSS Clementine

、

SAS Enterprise Miner

、

IBM Intelligent Miner

、

SQL Server 2005

，

Oracle DM

等商用软

件能够提供常规的挖掘过程和挖掘模式。

Matlab

，

Excel(Data mining in Excel: XLMiner)

等提供了数据挖掘模块。

Weka

，

RapidMiner(YALE)

，

ARMiner

等为开源数据挖掘工具。

7 数据挖掘在商业领域中的应用

(1)

市场营销；

(2)

交叉销售与交叉营销；

(3)

客户关系管理；

(4)

个性化推荐与个性化服务；

(5)

风险分析与

控制；

(6)

欺诈行为检测和异常模式的发现；

(7)

供应链库存管理中的需求预测；

(8)

人力资源管理

第三章数据挖掘建模方法

1 ．Clementine 的数据挖掘方法论 CRISP-DM

CRISP-DM

(

CRoss-Industry Standard Process for Data Mining

)即为” 跨行业数据挖掘过程标准”，为一个

KDD

工程提供了一个完整的过程描述，该模型将一个

KDD

工程分为

个不同的，但顺序并非完全不变的阶段。

业务理解 (

Business Understanding

) 其任务包括：确定商业目标、评析环境、确定数据挖掘目标、制定项目

计划。

数据理解 (

Data Understanding

) 其任务包括：收集原始数据、描述数据、探索数据、检验数据质量。

数据准备 (

Data Preparation

) 其任务包括：选择数据、清洗数据、构造数据、整合数据、规范化数据等。建

模(

Modeling

) 其任务包括：选择建模技术、生成测试计划、构建模型、评估模型(参数设置等技术角度) 评估

(

Evaluation

)

其任务包括：评价结果、重审过程、确定下一步。部署 (

Deployment

) 其任务包括：规划部署、规划监控与

维护、产生最终报告、回顾项目。

成功建立预测模型的注意要点要成功建立预测模型，需要注意以下三点：

(1)

(2)

(3)

预测模型的时间范围

模型的使用有效期

建立预测模型的假设

假设

：历史是未来的写照

假设

：数据是可以获得的

假设

：数据中包含我们的预期目标

有效模型的建立需要考虑以下因素：

(1)

预测建模的第一项任务就是搜集足够预先分类好的数据，将模型集分为三部分：训练集、测试集、评估

集，并理解模型在各个子集上的效果。

(2)

对于类别不平衡的数据，通过抽样来控制模型集的密度，即不同分布的类别比例。

(3)

注意观察所用数据的输入和输出时间范围，所有输入都必须出现在输出之前，保留一个执行期间是明智

的选择。

(4)

在模型集中使用多重时间窗口有助于确保模型稳定、并在时间上易于转换。

(5)

大多数建模过程需要建立多个模型，并对多个模型的效果进行比较，以选用效果最好的模型进行预测，

或者对多个模型进行组合，以得到性能更优的集成分类模型。

(6)

对不同的模型集、模型参数以及时间范围进行试验，有助于建立更好更稳定的模型。

建立有效预测模型的基本步骤：

(1)

用训练集进行训练建立模型

(2)

(3)

利用测试集，对模型进行修正

对模型的效果进行评价

第 3 章聚类分析

1 聚类的定义

聚类

(Clustering)

是将数据集划分为若干相似对象组成的多个组

(group)

或簇

(cluster)

的过程，

(cluster)

使得同一组中对象间的相似度最大化，不同组中对象间的相似度最小化。或者说一个簇

就是由彼此相似的一组对象所构成的集合，不同簇中的对象通常不相似或相似度很低。

聚类分析中“簇”的特征：聚类所说的簇不是事先给定的，而是根据数据的相似性和距离来划分，另外聚类

的数目和结构都没有事先假定。

聚类方法的目的是寻找数据中：潜在的自然分组结构和感兴趣的关系。聚类有着广泛的应用，既可作为一种

独立的数据挖掘方法使用，也可作为预处理工具，为其它数据挖掘任务作数据准备。如在电信业务数据挖掘中，作

为一种独立的方法用于客户细分，也可以作为异常挖掘的预处理步骤。

2 数据挖掘中使用的数据

(1)

不同的属性类型：分为分类属性和数值属性，分类属性又分标称型和序数型，而数值属性又分区间型和比率

型。如性别为标称型，好坏等级为序数型，日期时间为区间型，分数为比率型。

剩余23页未读，继续阅读

评论收藏

内容反馈

版权申诉

a66889999

粉丝: 36
资源: 1万+

数据挖掘课程复习提纲(40)资料.pdf

新人教版七年级下册道德与法治复习提纲教案资料.pdf

2021年全省广播电视(监测系统、有线电视系统)技术能手竞赛复习提纲资料.pdf

环境化学复习提纲(附答案)资料.pdf

知识提纲：中国近代史通史复习提纲详细版[学案]资料.pdf

七年级人教版《道德与法治》期末复习提纲资料.pdf

交换技术与通信网课程复习提纲最终版.pdf

机电传动控制复习提纲和重点.pdf

创新思维复习提纲精品资料.pdf

数据结构复习提纲成稿.pdf

2016年全省广播电视技术能手竞赛复习提纲资料.pdf

初三下册人教版政治复习提纲资料整理.pdf

基础教育课程改革通识理论考试复习提纲[1].pdf

2014年秋季学期计算机科学与技术专业软件工程课程期末复习提纲.pdf

IT项目管理课程-期末考试复习提纲手抄版(上).pdf

2022年秋季学期计算机科学与技术专业软件工程课程期末复习提纲资料.pdf

2020-2021_1_数据结构复习提纲-new.pdf

固体废物处理与处置复习提纲.参考.pdf

计算机基础知识复习提纲最终版.pdf

数据结构复习提纲 .pdf

华农嵌入式软件开发技术课程的复习提纲.pdf

职高数学基础模块各章节复习提纲(完整资料).doc.pdf

基础教育课程改革通识理论考试复习提纲.pdf

“翻译学导论”期末考试题型及课程复习提纲借鉴.pdf

贸大复习提纲项目管理.pdf

操作系统复习提纲知识点.pdf

Web Mining复习提纲-2018.pdf

计算机网络提纲复习资料.pdf

无脊椎动物复习提纲修改分析.pdf

最新资源