没有合适的资源?快使用搜索试试~ 我知道了~
资源详情
资源评论
资源推荐
Machine Learning
说明:本文档基于Machine Learning in Action编写而成,其中整理了一些网上的资源和西瓜书的内容,但
编写时没有悉数记录来源,在此致歉!
Machine Learning
一、基本概念
1.1 例子
1.2 机器学习任务分类(部分)
1.3 和AI的关系
1.4 数据集划分
1.5 评价指标
1.5.1 分类任务
1.5.2 回归任务
1.6 泛化能力(generalization)
1.7 过拟合 欠拟合
二、数学基础
2.1 微积分
2.2 线性代数
2.3 概率
三、示例代码
01.sklearn使用-分类和回归
分类例子
回归例子
02.sklearn使用-自己数据
13.SVM
四、分类模型
4.1 KNN
4.2 决策树
4.2.1 划分方式
4.3 贝叶斯
4.4 逻辑回归 Logistic regression
4.5 SVM
4.6 AdaBoost
五、回归模型
5.1 OLS(Ordinary least squares)
5.2 Locally weighted regression
5.3 Ridge regression
5.4 Tree-based regression
六、无监督——聚类
6.1 k-means
七、无监督——关联分析
7.1 Apriori
7.2 FP-growth
八、无监督——降维
8.1 PCA(主成分分析)
8.2 SVD(奇异值分解)
一、基本概念
机器学习就是要学一个【函数】。例如:
普通编程:给定一个add函数,输入2和2,得到4;
机器学习:给出一些例子:2+2=4,3+3=6,……,电脑学出来add函数。
定义:Machine learning involves computers discovering how they can perform tasks without being
explicitly programmed to do so. It involves computers learning from data provided so that they
carry out certain tasks. (来自wiki)
无需【显式】编程
从【数据】中进行学习
特定任务
1.1 例子
西瓜分类例子:把西瓜分为好瓜和坏瓜两类。
分类依据:色泽、根蒂、敲声
分类结果:好瓜与否
一些相关概念:
model(模型):模型是在指定的假设空间中,确定学习策略,通过优化算法去学习到的由输入到输
出的映射。
feature(特征):属性值,也就是输入,如上述的色泽、根蒂、敲声,每一列都是一个feature。
target variable(目标变量):模型的输出,上述数据集的最后一列(好瓜这一列)。
label(标签):预测的结论,比如第一个瓜的label是【是好瓜】。
instance(样本):上述每一行(每一个瓜)。
class(类别):分类问题的目标变量(好瓜这一列的【是】和【否】分别是两个class)。
ground truth:参考标准,也就是正确的标签,用于判断模型表现是好还是坏。
1.2 机器学习任务分类(部分)
监督学习(每个训练数据都有标签)
根据已有的数据集,知道输入和输出结果之间的关系。根据这种已知的关系,训练得到一个最优
的模型。也就是说,在监督学习中训练数据既有特征(feature)又有标签(label),通过训练,让机
器可以自己找到特征和标签之间的联系,在面对只有特征没有标签的数据时,可以判断出标签。
我们在监督(教)电脑做事
两个重要的任务:分类(classification,结果是某个/某些类别)和 回归(regression,结果是
某个/某些数):预测股票涨跌 和 预测房屋价格
例子(图中既有房屋面积这个feature,也有价格这个label):
无监督学习(每个训练数据都没有标签)
我们不知道数据集中数据、特征之间的关系,而是要根据聚类或一定的模型得到数据之间的关
系。
比起监督学习,无监督学习更像是自学,让机器学会自己做事情,是没有标签(label)的。
聚类(clustering,不知道每个数据应该是什么类别,根据数据本身来划分到不同类别中)
嵌入(embedding,把一个东西变成一个向量)
降维(dimensionality reduction,高维的变成低维,如把一张照片用一个长度为100的向量表
示)
强化学习(智能系统在与环境的连续交互中学习最佳行为策略)
半监督学习、主动学习……
1.3 和AI的关系
主流认为是AI包含ML
也有人认为ML只有“智能”的部分包括在AI中
Artificial Intelligence
A system's ability to correctly interpret external data, to learn from such data, and to use
those learnings to achieve specific goals and tasks through flexible adaptation.
解读【外部数据】&【学习】
达到某些目标和任务
flexible adaptation:灵活的适应
1.4 数据集划分
三部分:
训练集(training set):用于训练模型,比如获得较好的一组模型参数;
验证集(validation set):用于评估模型的设置是否合适,比如神经网络是2层好还是3层好,这里的
层数(是一个超参数(hyperparameter),不能在训练过程中更新)就是要用验证集调出来的;
测试集(test set):最终评估模型到底表现如何。
类比一下:
训练集(training set):平时学生接触到的课堂学习的例题、作业题;
验证集(validation set):平时的期中期末考试,帮助学生调整学习方法和状态;
测试集(test set):最后的高考,评估学生到底是什么水平。
一个划分方法:k-fold cross validation(用于训练的数据划分成k份,每次取其中一次作为验证集,剩下的
用于训练,评估结果取平均)
1.5 评价指标
详见【西瓜书2.3 性能度量】
1.5.1 分类任务
混淆矩阵:
剩余38页未读,继续阅读
我只匆匆而过
- 粉丝: 16
- 资源: 317
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0