# README
#### 我发现只看机器学习原理,存在两个问题:
* 1.有些算法的原理难以理解
* 2.就算理解了,也不知道实现思路,只能当个调包侠
#### 因此,决定借鉴一下别人实现的代码,看看具体的实现思想,也方便更加深入的理解这些机器学习算法。所以,这个仓库适合对下列算法有一定基础了解的,但是对代码实现不清楚的朋友。其中包括:
#### 1.GBDT算法:[https://github.com/Freemanzxp/GBDT_Simple_Tutorial](https://github.com/Freemanzxp/GBDT_Simple_Tutorial)
>如何做特征选择?如何做分类?
#### 2.DecisionTree:[https://github.com/lucksd356/DecisionTrees](https://github.com/lucksd356/DecisionTrees)
>只实现了ID3算法,其他两种C4.5,CART在计算增益这一块用的是不同的指标。
这里列出三种决策树的[区别](https://blog.csdn.net/qq_27717921/article/details/74784400)
#### 3.XgBoost:[https://blog.csdn.net/slx_share/article/details/82389343](代码来自这个博客),公式推导我觉得讲的最详细的是[这篇文章](https://zhuanlan.zhihu.com/p/92837676)。
>Xgboost的目标函数、公式推导、GBDT与Xgboost的区别、Xgboost的正则化原理,这些都是需要掌握的问题。
#### 4.RandomForest:[https://github.com/zhaoxingfeng/RandomForest](https://github.com/zhaoxingfeng/RandomForest)
>RF为什么要随机抽样?又为什么做有放回的采样?
#### 5.AdaBoost:[https://github.com/jaimeps/adaboost-implementation/tree/master](https://github.com/jaimeps/adaboost-implementation/tree/master)
>权值更新的方法、为什么能快速收敛、优缺点
#### 6.SVM:[https://vimsky.com/article/222.html](https://vimsky.com/article/222.html),实现的是HingeLoss版本的SVM
>什么叫硬间隔?什么叫软间隔?SVM为什么采用间隔最大化?为什么使用核函数?
#### 7.MLE:[https://blog.csdn.net/pengjian444/article/details/71215965](https://blog.csdn.net/pengjian444/article/details/71215965)
>MLE、MAP、贝叶斯估计之间的区别与联系,说老实话,贝叶斯估计没看懂
#### 8.GMM(EM):[https://github.com/SmallVagetable/machine_learning_python](https://github.com/SmallVagetable/machine_learning_python)
>这个给的链接库其实已经有好多写好了的算法,也是可以借鉴的。E-step:在已知均值和方差的情况下,判断样本来自第K个模型的概率;M-step:在得知样本来自哪个模型之后,可以通过MLE来估计高斯分布的均值和方差。如此循环,直至收敛。
#### 9.LDA:[https://github.com/heucoder/dimensionality_reduction_alo_codes](https://github.com/heucoder/dimensionality_reduction_alo_codes)
>PCA和LDA数据假设都符合高斯分布,但是LDA是监督算法,而PCA是无监督算法。LDA降维最多降到类别数k-1的维数,如果我们降维的维度大于k-1,则不能使用LDA。具体LDA原理以及与PCA的区别见[链接](https://www.cnblogs.com/pinard/p/6244265.html)
#### 10.PCA(和LDA来自同一个git主)
>从两个算法(PCA和LDA)的流程看,PCA和LDA很相似,只是LDA是加入了标签信息,计算了类内方差,内间均值,然后对这两个数的乘积求特征值、特征向量;而PCA则直接求数据之间的协方差的特征值和特征向量。共同的做法就是取前k个特征值、特征向量,将样本投影到这歌空间中去(包括SVD也是酱紫)
#### 11.KNN:[https://www.cnblogs.com/lyuzt/p/10471617.html](https://www.cnblogs.com/lyuzt/p/10471617.html)
#### 12.K-Mean:[https://github.com/kjahan/k_means](https://github.com/kjahan/k_means)
>K-Mean要注意的问题就是:K值如何选取,K个初始点如何选取
---
#### TODO
#### --T-SNE
没有合适的资源?快使用搜索试试~ 我知道了~
机器学习算法决策树、支持向量机、聚类算法(K-Mean)、kNN。.zip
共65个文件
png:23个
py:22个
log:6个
需积分: 5 1 下载量 61 浏览量
2024-04-23
16:34:38
上传
评论
收藏 8.65MB ZIP 举报
温馨提示
为了深入了解一些机器学习算法,把一些经典算法的代码都过一遍。包括决策树、集成学习(Adaboost、GBDT、XgBoost、RandomForest)、支持向量机、EM算法(GMM)、极大似然估计、降维算法(PCA、LDA、T-SNE)、聚类算法(K-Mean)、kNN。
资源推荐
资源详情
资源评论
收起资源包目录
为了深入了解一些机器学习算法,把一些经典算法的代码都过一遍。包括决策树、集成学习(Adaboost、GBDT、XgBoost、RandomForest)、支持向量机、EM算法(GMM)、极大似然估计、降维算法(PCA、LDA、T-SNE)、聚类算法(K-Mean)、kNN。.zip (65个子文件)
content
.DS_Store 6KB
GBDT
tree_plot.py 10KB
gbdt.py 8KB
decision_tree.py 6KB
main.py 4KB
loss_function.py 5KB
results
all_trees_high_quality.png 62KB
NO.2_tree.png 26KB
NO.3_tree.log 2KB
NO.2_tree.log 2KB
NO.3_tree.png 26KB
NO.4_tree.png 26KB
NO.1_tree.log 2KB
NO.5_tree.png 26KB
NO.5_tree.log 2KB
NO.1_tree.png 26KB
result.log 863B
all_trees.png 631KB
NO.4_tree.log 2KB
PCA
.DS_Store 6KB
pca.py 4KB
img
809.png 43KB
105_pca.png 370KB
k=5000.jpg 2.49MB
PCA.png 55KB
696.png 121KB
696_pca.png 389KB
12.png 130KB
74_pca.png 224KB
wcy1.jpeg 2.38MB
12_pca.png 412KB
86.png 12KB
809_pca.png 404KB
74.png 18KB
37_pca.png 378KB
86_pca.png 154KB
37.png 116KB
105.png 38KB
RandomForest
regression.py 10KB
resource
housing.txt 34KB
wine.txt 11KB
classification.py 11KB
DecisionTree
weather.csv 453B
id3.py 5KB
XgBoost
xgboost.py 6KB
SVM
svm.py 4KB
test.txt 265B
train.txt 367B
K-Mean
clustering.py 8KB
main.py 1KB
output.csv 90KB
point.py 300B
NYC_Free_Public_WiFi_03292017.csv 1.12MB
GMM
amix1-est.dat 4KB
main.py 2KB
misc_utils.py 1KB
gmm.py 4KB
KNN
knn.py 1KB
.gitignore 11B
MLE
mle.py 727B
T-SNE
t-sne.py 5KB
Adaboost
adaboost.py 4KB
README.md 4KB
LDA
lda.py 3KB
LDA.png 49KB
共 65 条
- 1
资源评论
生瓜蛋子
- 粉丝: 3828
- 资源: 6047
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功