没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
Restricted Information and Basic Personal Data
附录
历程位置: https://github.com/google/eng-edu/tree/main/ml/cc/exercises
简介
语法检测,人脸识别等通过大量数据来推断。
框架
什么是(监督)机器学习?简而言之,它是以下内容:
� ML 系统学习如何组合输入以对从未见过的数据产生有用的预测。
让我们探索基本的机器学习术语。
标签
标签是我们预测的东西——简单线性回归中的变量 y。标签可以是小麦的未来
价格、图片中显示的动物种类、音频剪辑的含义,或者任何东西。
特征
特征是一个输入变量——x 简单线性回归中的变量。一个简单的机器学习项目
可能使用单个特征,而更复杂的机器学习项目可能使用数百万个特征,具体如
下:
x1,x2,...xN
在垃圾邮件检测器示例中,功能可能包括以下内容:
� 电子邮件文本中的单词
� 寄件人地址
� 发送电子邮件的时间
� 电子邮件包含短语“一个奇怪的技巧”。
Restricted Information and Basic Personal Data
例子
一个示例是数据的特定实例 x。(我们 用粗体表示 x 表示它是一个向量。)我
们将示例分为两类:
� 标记示例
� 未标记的示例
带标签的示例包括特征和标签。那是:
labeled examples: {features, label}: (x, y)
使用带标签的示例来训练模型。在我们的垃圾邮件检测器示例中,标记示例是
用户明确标记为“垃圾邮件”或“非垃圾邮件”的单个电子邮件。
例如,下表显示了来自 包含加利福尼亚房价信息的数据集中的 5 个标记示
例:
住房中位年龄
(特征)
totalRooms
(功能)
总卧室
(特征)
中值房屋价值
(标签)
15
5612
1283
66900
19
7650
1901
80100
17
720
174
85700
14
1501
337
73400
20
1454
326
65500
未标记的示例包含特征但不包含标签。那是:
unlabeled examples: {features, ?}: (x, ?)
以下是来自同一住房数据集的 3 个未标记示例,其中不包括
medianHouseValue:
住房中位年龄
(特征)
totalRooms
(功能)
总卧室
(特征)
42
1686
361
34
1226
180
33
1077
271
一旦我们用标记的例子训练了我们的模型,我们就可以使用该模型来预测未标
记例子的标签。在垃圾邮件检测器中,未标记的示例是人类尚未标记的新电子
邮件。
Restricted Information and Basic Personal Data
模型
模型定义了特征和标签之间的关系。例如,垃圾邮件检测模型可能会将某些特
征与“垃圾邮件”密切相关。让我们重点介绍一下模型生命的两个阶段:
� 训练意味着创建或学习模型。也就是说,您向模型展示标记示例,并使
模型逐渐学习特征和标签之间的关系。
� 推理意味着将训练好的模型应用于未标记的示例。也就是说,您使用经
过训练的模型进行有用的预测 ( y')。例如,在推理过程中,您可以预测
medianHouseValue(中间值房价)新的未标记示例。
回归与分类
回归模型预测连续值。例如,回归模型做出的预测回答如下问题:
� 加州的房子值多少钱?
� 用户点击此广告的概率是多少?
分类模型预测离散值。例如,分类模型做出的预测回答如下问题:
� 给定的电子邮件是垃圾邮件还是不是垃圾邮件?
� 这是狗、猫还是仓鼠的图像?
开始 ML
线性回归
众所周知,蟋蟀(一种昆虫物种)在炎热的日子里比在凉爽的日子里更频繁地
鸣叫。几十年来,专业和业余科学家对每分钟啁啾和温度的数据进行了编目。
作为生日礼物,你的姨妈露丝给了你她的板球数据库,并要求你学习一个模型
来预测这种关系。使用这些数据,您想探索这种关系。
首先,通过绘制数据来检查您的数据:
Restricted Information and Basic Personal Data
图 1. 每分钟啁啾声与摄氏温度的关系。
正如预期的那样,该图显示温度随着啁啾的数量而上升。啁啾和温度之间的关
系是线性的吗?是的,您可以绘制一条如下所示的直线来近似这种关系:
Restricted Information and Basic Personal Data
图 2. 线性关系。
诚然,这条线并没有穿过每个点,但这条线确实清楚地显示了啁啾声和温度之
间的关系。使用直线方程,您可以将这种关系写成如下:
y=mx+b
在哪里:
� y 是摄氏温度——我们试图预测的值。
� m 是线的斜率。
� x 是每分钟啁啾的数量——我们输入特征的值。
� b 是 y 截距。
按照机器学习的惯例,您将编写模型的方程略有不同:
y′=b+w1x1
在哪里:
� y′是预测的标签(期望的输出)。
� b 是偏差(y 截距),有时称为 w0.
� w1 是特征 1 的权重。权重和“斜率”是同一个概念 m 在传统的直线方程中。
� x1 是一个特征(一个已知的输入)。
剩余60页未读,继续阅读
资源评论
弗泽智能
- 粉丝: 25
- 资源: 6
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 人工智能ai相关教学课程快
- Suno的冲击-AI音乐来了-学习备用.pdf
- KIMI大模型浏览器插件
- b61fa64a08a02de0e0d49d53bb84c444.amr
- 分布式系统中Java后端开发技术及其应用实践.pdf
- 5ffd9193f6aec31bbf16030a46680dc7.avi
- DA14531-蓝牙传感器连接传输数据固件
- 极限存在准则与两个重要极限
- logisim实验MIPS运算器(ALU)设计(内含4位先行进位74182、四位快速加法器、32位快速加法器)-Educoder_logisim里面连线,实现4位先行进位74182和4位快速加法器-C
- 高等数学第一章第二节数列的极限
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功