没有合适的资源?快使用搜索试试~ 我知道了~
主要参考的是曾伟老师的ppt,里面也同样标注的重点,及格不是问题
资源推荐
资源详情
资源评论
第一章 数据挖掘概论
1.为什么到大数据时代:
• 模拟信号到数字信号到转变
• 计算能力的显著提升
• 传统各行各业数字化程度快速提升
• 新兴无线传感器和社交媒体的兴起
• 生成和使用数据的模式正在变化
传统模式:少量公司生成数据,其他人使用数据
新型模式:所有人都在生成数据,所有人都在使用数据
2. 大数据的定义:
体量巨大的结构化或非结构化数据以至于很难使用传统的数据库或软
件技术处理。
3. 大数据特征
数据量大(volume)、类型繁多(variety)、价值密度低(value)、速度快时
效高(velocity)
4. 数据挖掘的定义
从大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先前未知
的和可能有用的模式或知识 。
并非所有的数据分析都是数据挖掘,如查询处理、专家系统或是小型
的数据计算/统计程序
5. 知识发现过程- KDD过程
• 数据清理:消除噪声和删除不一致数据
• 数据集成:多种数据源可以组合在一起
• 数据选择:从数据库中提取与分析任务相关的数据
• 数据变换:把数据变换和统一成适合挖掘的形式
• 数据挖掘:核心步骤,使用智能方法提取数据模式
• 模式评估:根据兴趣度度量,识别代表知识的真正有趣的模式
• 知识表示:使用可视化和知识表示技术,向用户提供挖掘的知识
√
√
☆
☆
6. 数据挖掘的主要任务
• 关联分析(关联规则挖掘/亚组发现)
• 聚类分析(最大化类内的相似性和最小化类间的相似性)
大脑的神经纤维聚类:针对大量的纤维数据,提出一种有效的纤维相似
度算法,并结合密度聚类法,提出了大脑神经纤维束的自动识别,并
能对大脑神经纤维的结构进行可视化。
• 分类/预测
老年性痴呆症预测和诊断:提出通过提取异样的网络拓扑结构连接模
式来分析
• 孤立点(离群点分析)
7. 大数据时代下数据挖掘面临的挑战
• 数据容量(可扩展的数据挖掘算法,hash,采样,分布式)
• 数据实时性(分类和预测)
• 数据多样性(聚类、LBS)
• 数据不确定性
8.数据挖掘的主流会议
ACM SIGKDD (A+), Feb.
IEEE ICDM (A), Jun.
SIAM SDM (A), Oct.
ECML/PKDD (A-), Apr.
PAKDD (B+), Oct.
9.数据挖掘的主流期刊
IEEE Transactions on Knowledge and
Data Engineering (TKDE)
SIGKDD Explorations
ACM Transactions on Knowledge
Discovery From Data (TKDD)
Data Mining and Knowledge Discovery
Knowledge and Information Systems
(KAIS)
A
只
√
√
第二章 认识数据与数据预处理
认识数据
1.基本概念
• 数据:对描述对象的抽象
• 数据集:数据对象的集合
• 数据对象:记录、点、向量、模式、事件、样本、案例、观测
或实体
• 属性:用于刻画对象的基本性质或特性(属性也被称作:变
量、特性、字段、特征和维)
• 属性值:是赋予属性的数或符号
2. 属性类型
• 分类型(标称-特殊:二元,序数(有顺序))
• 数值型(区间,比率)
• 离散属性
有限或无限可数个值,常表示为整数变量或字符串变量
• 连续属性
属性值为实数;实践中, 实数只能用有限位数字的数度量和表示;
连续属性一般用浮点变量表示.
√
√
除⽇
“
正否有意义
V
V
• 二元属性(离散属性点特例,仅取两个不同值)
对称的二元属性(两个值一样重要)
非对称的二元属性(通常一个比另一个更重要常用1表示)
2.数据类型
• 记录数据(数据矩阵、文档数据、事务数据(购物篮数据))
• 图数据(万维网-带有对象之间的联系、分子结构)
• 有序数据(时序数据、序列数据、基因序列数据、空间数据)
3. 数据的统计描述
• 中心趋势度量(均值、众数、中位数、中列数-数据集最大和最小
的平均值)
众数:
一个数据集中可能有多个众数,对于非对称的单峰数据,有
平均值-众数=3(平均值-中位数)
• 数据的散布(极差、四分位数、四分位数极差、五数概括、盒
图)
四分位数极差:IQR=Q3-Q1
五数概括:[min,Q1,median,Q3,max]
• 可视化
分位数图(观察单变量数据分布)
分位数-分位数图(刻画一个分布到另一个是否有漂移)
直方图(刻画数据的整体分布情况)
散点图(数据的具体分布<=3维)
4. 数据的相似性度量
1)标称属性数据
相异性度量方法:
√
成
→
低于中位数运间的频率和
⼤数据
:
《
中位数
)
近似值估计
(
线性插值
1
media
L
,
+
[
☆
-
Efrealamedian
|
width
糷院数区间宽度
←
中位数的不界
θ
fi
=
i
⼀器
☆
U
dil
,
j
)
=
P
管
(
mi
状态取值匹配的变量数⽇
,
P
:
变量总数
)
剩余45页未读,继续阅读
资源评论
Star.Cat
- 粉丝: 17
- 资源: 7
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功