没有合适的资源?快使用搜索试试~ 我知道了~
常用数据挖掘算法总结及Python实现
需积分: 37 35 下载量 176 浏览量
2019-03-29
15:05:49
上传
评论 6
收藏 4.64MB PDF 举报
温馨提示
该文档总结了常用的数据挖掘的算法原理以及Python实践内容,为初学者提供良好的参考资料,需要的朋友可看看! 第一部分 数据挖掘与机器学习数学基础3 第一章 机器学习的统计基础3 第二章 探索性数据分析(EDA).11 第二部分 机器学习概述14 第三章 机器学习概述14 第三部分 监督学习---分类与回归16 第四章 KNN(k 最邻近分类算法) 16 第五章 决策树19 第六章 朴素贝叶斯分类29 第七章 Logistic 回归 .32 第八章 SVM 支持向量机42 第九章 集成学习(Esemble Learning)43 第十一章 模型评估46 第四部分 非监督学习---聚类与关联分析50 第十二章 Kmeans 聚类分析.50 第十三章 关联分析 Apriori.52 第十四章 数据预处理之数据降维54 第五部分 Python 数据预处理.57 第十五章 Python 数据分析基础.57 第十六章 Python 进行数据清洗.77 第六部分 数据结构与算法82 第七部分 SQL 知识.86 第八部分 数据挖掘案例分析87 案例一 A Journey through Titanic 597c770e .87 案例二 Analysis forairplane-crashes-since-190894 案例三 贷款预测问题98 案例四 KNN 算法实现葡萄酒价格模型预测及交叉验证107
资源推荐
资源详情
资源评论
常用数据挖掘算法总结及 Python 实现
V1.0
By Xuejun Yang
2016.09.18
目录
第一部分 数据挖掘与机器学习数学基础.............................................................................................. 3
第一章 机器学习的统计基础 .......................................................................................................... 3
第二章 探索性数据分析(EDA) ............................................................................................. 11
第二部分 机器学习概述........................................................................................................................ 14
第三章 机器学习概述.................................................................................................................... 14
第三部分 监督学习---分类与回归...................................................................................................... 16
第四章 KNN(k 最邻近分类算法) ............................................................................................ 16
第五章 决策树................................................................................................................................ 19
第六章 朴素贝叶斯分类................................................................................................................ 29
第七章 Logistic 回归 ................................................................................................................... 32
第八章 SVM 支持向量机 .............................................................................................................. 42
第九章 集成学习(Esemble Learning) ............................................................................................ 43
第十一章 模型评估........................................................................................................................ 46
第四部分 非监督学习---聚类与关联分析.......................................................................................... 50
第十二章 Kmeans 聚类分析 ......................................................................................................... 50
第十三章 关联分析 Apriori ........................................................................................................... 52
第十四章 数据预处理之数据降维................................................................................................ 54
第五部分 Python 数据预处理 ............................................................................................................... 57
第十五章 Python 数据分析基础 ................................................................................................... 57
第十六章 Python 进行数据清洗 ................................................................................................... 77
第六部分 数据结构与算法.................................................................................................................... 82
一、二叉树(前、中、后遍历).................................................................................................. 82
二、几种基本排序方法.................................................................................................................. 82
第七部分 SQL 知识 ............................................................................................................................. 86
第八部分 数据挖掘案例分析................................................................................................................ 87
案例一 A Journey through Titanic 597c770e ............................................................................... 87
案例二 Analysis for airplane-crashes-since-1908 .......................................................................... 94
案例三 贷款预测问题.................................................................................................................... 98
案例四 KNN 算法实现葡萄酒价格模型预测及交叉验证 ........................................................ 107
第一部分 数据挖掘与机器学习数学基础
第一章 机器学习的统计基础
1.1 概率论
1.概率论基本概念
样本空间
我们将随机实验 E 的一切可能基本结果组成的集合称为 E 的样本空间,记为 S。样本空间的元素,即
E 的每一个可能的结果,称为样本点。样本空间又叫基本事件空间。
例:拍拍贷用户的学历 S={‘研究生或以上’,‘本科’,‘大专’,‘高中’,‘中专’,‘初中及以下’},A={‘研
究生或以上’,‘本科’,‘大专’}
事件
事件 A 是样本空间的子集,可分为四种类型
空事件: 样本空间的空子集;
原子事件: 仅包含一个元素的样本空间;
混合事件: 包含多个元素的样本空间;
样本空间本身也是一个事件.
集合
概率论定义
概率用来描述一件事的不确定性。假设 A 是投硬币的一个结果(比如正面朝上),如果重复投硬币很
多次,直到 A 出现的机会逼近一个极限 p。那么可以说出现 A 的概率是 p
对于事件 A 和 B,联合概率 P
r
(AB)表示事件 A 和 B 同时发生的概率。
概率定律
事件的概率: P(A) 满足: P(A) 0 ;P(S) = 1;对于一连串的互斥事件:
i
i
i
i
APAP
)()(
S
A
条件概率
发生事件 A 的情况下,发生 B 的概率称作条件概率 P(B|A).
()
( | )
()
P B A
P B A
PA
独立性
事件发生和其它事件无关。
如果 P(B|A)=P(B), 我们称 B 和 A 统计独立,当且仅当:
( ) ( ) ( )P A B P A P B
如果 A 和 B 统计独立,那么 B 与 A 也统计独立
总概率
贝叶斯理论
( | ) ( )
( | )
()
P A B P B
P B A
PA
P(B) : B 的先验概率,非条件概率,或者边际概率
P(A|B): 给定 B 条件下的 A 的条件概率,也被称作“似然”
P(A): A 的边际概率,也作为 B 的后验概率的归一化常量
P(B|A):B 的后验概率
2.随机变量,期望,方差
随机变量 X 是随机试验的数值型结果
相关概念:
观测值:
其中一个结果成为观测值
数据:
多个观测值集合为数据
总体:
所有的结果称为总体
有两种类型的随机变量
离散变量:
值数目可数
对于离散型随机变量,我们关心每个特定数值出现的概率 eg.客户的婚姻情况
连续变量:
数值在一定范围内
对于连续性变量,某一个特定值出现的概率为 0,我们只关心区间的概率
Eg.客户的投资金额
概率分布
随机变量的分布就是它所有可能的输出以及它们的概率集合
概率密度函数
随机变量的概率密度函数描述该随机变量在某个取值发生的可能性
离散变量:P(X=x)=p(x)
连续变量:
b
a
dxxpbXaP
)()(
累积分布函数
x 处的累积分布函数是负无穷到 x 点的概率密度函数的累加和
期望
期望是指所有可能值的加权和。其权重对于离散值而言就是该值出现的概率,而对于连续值而言就是
其密度函数。
离散情况:
连续情况:
x all
)(
)p(xxXE
ii
dxxp(x)XE
x all
)(
方差
用来描述该随机变量值和平均值的离散程度
离散情况
连续情况
x all
2
))(()(
)p(xXExXVar
ii
dxp(x)XExXVar
x all
2
))(()(
3.常用概率分布
离散分布:伯努利分布(二项分布)
概率密度函数
:
xx
ppxp
1
)1()(
均值
:
pXE
)(
方差
:
)1()(
ppXVar
连续分布
正态分布是最常用的一种连续分布。密度函数的特点是:关于均值 μ 对称,并在 μ 处取最大值,
在正(负)无穷远处取值为 0,图像是一条位于 x 轴上方的钟形曲线。期望值 μ 决定了分布的位置,
标准差 σ 决定了分布的幅度。当 μ=0,σ^2 =1 时,称为标准正态分布,记为 N(0,1)。
概率密度函数
2
2
2
)(
2
2
1
)(
x
exf
期望
)(
XE
方差
2
)(
XVar
欢迎加入非盈利Python编程学习交流QQ群783462347,群里免费提供500+本Python书籍!
剩余111页未读,继续阅读
资源评论
weixin_44523404
- 粉丝: 1
- 资源: 13
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功