没有合适的资源？快使用搜索试试~ 我知道了~

文库首页大数据数据挖掘电子科技大学数据挖掘复习资料

电子科技大学数据挖掘复习资料

数据挖掘

需积分: 5 0 下载量 56 浏览量 2024-01-16 18:50:46 上传评论 1 收藏 43.38MB PDF 举报

温馨提示

试读

46页

主要参考的是曾伟老师的ppt，里面也同样标注的重点，及格不是问题

资源推荐

资源详情

资源评论

第一章数据挖掘概论

1.为什么到大数据时代：

• 模拟信号到数字信号到转变

• 计算能力的显著提升

• 传统各行各业数字化程度快速提升

• 新兴无线传感器和社交媒体的兴起

• 生成和使用数据的模式正在变化

传统模式：少量公司生成数据，其他人使用数据

新型模式：所有人都在生成数据，所有人都在使用数据

2. 大数据的定义：

体量巨大的结构化或非结构化数据以至于很难使用传统的数据库或软

件技术处理。

3. 大数据特征

数据量大(volume)、类型繁多(variety)、价值密度低(value)、速度快时

效高(velocity)

4. 数据挖掘的定义

从大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先前未知

的和可能有用的模式或知识。

并非所有的数据分析都是数据挖掘，如查询处理、专家系统或是小型

的数据计算/统计程序

5. 知识发现过程- KDD过程

• 数据清理：消除噪声和删除不一致数据

• 数据集成：多种数据源可以组合在一起

• 数据选择：从数据库中提取与分析任务相关的数据

• 数据变换：把数据变换和统一成适合挖掘的形式

• 数据挖掘：核心步骤，使用智能方法提取数据模式

• 模式评估：根据兴趣度度量，识别代表知识的真正有趣的模式

• 知识表示：使用可视化和知识表示技术，向用户提供挖掘的知识

√

☆

6. 数据挖掘的主要任务

• 关联分析（关联规则挖掘/亚组发现）

• 聚类分析（最大化类内的相似性和最小化类间的相似性）

大脑的神经纤维聚类：针对大量的纤维数据,提出一种有效的纤维相似

度算法，并结合密度聚类法，提出了大脑神经纤维束的自动识别，并

能对大脑神经纤维的结构进行可视化。

• 分类/预测

老年性痴呆症预测和诊断：提出通过提取异样的网络拓扑结构连接模

式来分析

• 孤立点（离群点分析）

7. 大数据时代下数据挖掘面临的挑战

• 数据容量（可扩展的数据挖掘算法，hash，采样，分布式）

• 数据实时性（分类和预测）

• 数据多样性（聚类、LBS）

• 数据不确定性

8.数据挖掘的主流会议

ACM SIGKDD (A+), Feb.

IEEE ICDM (A), Jun.

SIAM SDM (A), Oct.

ECML/PKDD (A-), Apr.

PAKDD (B+), Oct.

9.数据挖掘的主流期刊

IEEE Transactions on Knowledge and

Data Engineering (TKDE)

SIGKDD Explorations

ACM Transactions on Knowledge

Discovery From Data (TKDD)

Data Mining and Knowledge Discovery

Knowledge and Information Systems

(KAIS)

只

√

第二章认识数据与数据预处理

认识数据

1.基本概念

• 数据：对描述对象的抽象

• 数据集：数据对象的集合

• 数据对象：记录、点、向量、模式、事件、样本、案例、观测

或实体

• 属性：用于刻画对象的基本性质或特性（属性也被称作：变

量、特性、字段、特征和维）

• 属性值：是赋予属性的数或符号

2. 属性类型

• 分类型（标称-特殊：二元，序数（有顺序））

• 数值型（区间，比率）

• 离散属性

有限或无限可数个值，常表示为整数变量或字符串变量

• 连续属性

属性值为实数；实践中, 实数只能用有限位数字的数度量和表示；

连续属性一般用浮点变量表示.

√

除⽇

“

正否有意义

• 二元属性（离散属性点特例，仅取两个不同值）

对称的二元属性（两个值一样重要）

非对称的二元属性（通常一个比另一个更重要常用1表示）

2.数据类型

• 记录数据（数据矩阵、文档数据、事务数据（购物篮数据））

• 图数据（万维网-带有对象之间的联系、分子结构）

• 有序数据（时序数据、序列数据、基因序列数据、空间数据）

3. 数据的统计描述

• 中心趋势度量（均值、众数、中位数、中列数-数据集最大和最小

的平均值）

众数：

一个数据集中可能有多个众数，对于非对称的单峰数据，有

平均值-众数=3（平均值-中位数）

• 数据的散布（极差、四分位数、四分位数极差、五数概括、盒

图）

四分位数极差：IQR=Q3-Q1

五数概括：[min,Q1,median,Q3,max]

• 可视化

分位数图（观察单变量数据分布）

分位数-分位数图（刻画一个分布到另一个是否有漂移）

直方图（刻画数据的整体分布情况）

散点图（数据的具体分布<=3维）

4. 数据的相似性度量

1）标称属性数据

相异性度量方法：

√

成

→

低于中位数运间的频率和

⼤数据

《

中位数

)

近似值估计

(

线性插值

media

[

☆

Efrealamedian

width

糷院数区间宽度

←

中位数的不界

⼀器

☆

dil

)

管

(

状态取值匹配的变量数⽇

变量总数

)

剩余45页未读，继续阅读

评论收藏

内容反馈

资源评论

资源反馈

评论星级较低，若资源使用遇到问题可联系上传者，3个工作日内问题未解决可申请退款~

Star.Cat

粉丝: 17
资源: 7

上传资源快速赚钱

我的内容管理展开

我的资源快来上传第一个资源

我的收益

登录查看自己的收益

我的积分登录查看自己的积分

我的C币登录后查看C币余额

我的收藏

我的下载

下载帮助

前往需求广场，查看用户热搜

电子科技大学数据挖掘复习资料

电子科技大学《数据挖掘与大数据分析》课程期末复习资料

数据挖掘 复习资料

广工数据挖掘复习资料（含试卷）

数据挖掘复习资料.zip

广东工业大学11年数据挖掘复习资料

数据仓库与数据挖掘复习资料

广工2017数据挖掘复习资料

数据挖掘复习资料

华工数据挖掘复习提纲

广工数据挖掘复习资料

北京大学北京大学软件与微电子学院莫同老师数据挖掘课程复习资料.doc

数据挖掘复习题

数据挖掘复习提纲

数据仓库与数据挖掘复习资料.ppt

华电数据仓库与数据挖掘复习课件（研究生）.zip

2019数据挖掘复习资料sdu

西安电子科技大学数据挖掘的全部课件报告算法都有

山东大学数据仓库数据挖掘2021期末考试复习题（含答案）

【Python实战】-Python+Opencv是实现车牌自动识别（源码+数据+字符匹配模板）

Python基于机器学习实现的股票价格预测、股票预测源码+数据集，机器学习大作业

第一讲：python网络爬虫基础知识

身份证前6位对应的省市区代码（超详细）

基于在线教学平台的数据挖掘与学习行为分析超星集团数据集

抖音用户浏览行为数据集

regress函数实例代码

Fragstats V4.2 软件计算景观指数的参数文件示例

两阶段鲁棒优化/综合能源系统/需求响应/微电网/多目标优化/优化调度matlab-yalmip-cplex/gurobi文章复现

用Python实现基于人脸识别的门禁管理系统(附源码+各功能截图+分类打包)

SPSS中介效应分析插件（Process和mediate插件）

最新资源

数据挖掘复习资料