没有合适的资源?快使用搜索试试~ 我知道了~
有关机器学习网课笔记week1-2,可能会有错误,希望能够指出。
资源推荐
资源详情
资源评论
引言
本系列文章是本人对 的机器学习课程的一些笔记,如有错误,请
读者以课程为准。
在现实生活中,我们每天都可能在不知不觉中使用了各种各样的机器学习算法。
例如,当你每一次使用 时,它之所以可以运行良好,其中一个重要原
因便是由 实现的一种学习算法可以“学会”如何对网页进行排名。每当
你使用 或者 的照片处理应用时,它们都能自动识别出你朋
友的照片,这也是机器学习的一种。每当你阅读电子邮件时,你的垃圾邮件过
滤器将帮助你免受大量垃圾邮件的困扰,这也是通过一种学习算法实现的。
我们有这样一个梦想,就是有朝一日,可以创造出像人类一样聪明的机器。很
多人工智能专家认为实现这一目标最好的途径便是通过学习算法来模拟人类大
脑的学习方式。
机器学习发源于人工智能领域,我们希望能够创造出具有智慧的机器。我们可
以通过编程来让机器完成一些基础的工作,例如如何找到从 到 的最短路径。
但在大多数情况下,我们并不知道如何显式地编写人工智能程序来做一些更有
趣的任务,例如网页搜索、标记照片和拦截垃圾邮件等。人们意识到唯一能够
达成这些目标的方法就是让机器自己学会如何去做。
现今,已经发展成为计算机领域的一项新能力,并且与工
业界和基础科学界有着紧密的联系。在硅谷,机器学习引导着大量的课,如自
主机器人、计算生物学等。机器学习的实例还有很多,例如数据挖掘。
机器学习之所以变得如此流行,原因之一便是网络和自动化算法的爆炸性增长。
这意味着我们掌握了比以往多得多的数据集。举例来说,当今有数不胜数的硅
谷企业,在收集有关网络点击的数据 ,并试图在这些数
据上运用机器学习的算法来更好的理解和服务用户,这在硅谷已经成为了一项
巨大的产业。
随着电子自动化的发展,我们拥有了电子医疗记录,如果我们能够将这些记录
转变为医学知识,那么,我们就能对各种疾病了解的更深入。同时,计算生物
学也在电子自动化的辅助下快速发展,生物学家收集了大量有关基因序列以及
序列的数据,通过对其应用机器学习的算法可以帮助我们更深入地理解人
类基因组及其人类基因组对我们人类的意义。
几乎工程界的所有领域都在使用机器学习算法来分析日益增长的海量数据集。
有些机器应用我们并不能够通过手工编程来实现。比如说,想要写出一个能让
直升机自主飞行的程序几乎是不可能的任务。唯一可行的解决方案就是让一台
计算机能够自主地学会如何让直升机飞行。
再比如手写识别,如今将大量的邮件按地址分类寄送到全球各地的代价大大降
低,其中重要的理由之一便是每当你写下这样一封信时,一个机器学习的算法
已经学会如何读懂你的笔迹并自动地将你的信件发往它的目的地。
你也许曾经接触过自然语言处理和计算机视觉。事实上,这些领域都是试图通
过 来理解人类的语言和图像,如今大多数的自然语言处理和计算机视觉都是
对机器学习的一种应用。
机器学习算法也在 !"#中有着广泛的应用。每当你使
用亚马逊 $%或 &""的服务时,都会收到它们为你量身推荐的
电影或产品,这就是通过学习算法来实现的。很显然,这些应用都有着上千万
的用户,而针对这些海量的用户,编写千万个不同的程序显然是不可能的,唯
一有效的解决方案就是开发出能够进行自我学习,定制出符合你喜好的并据此
进行推荐的软件。
最后,机器学习算法已经被应用于探究人类的学习方式,并试图理解人类的大
脑。
What is machine learning
'(不同人对机器学习有不同的定义。下面是 亚瑟)
塞穆尔 "*"给出的机器学习的定义:
"*"+,-,.
/ "01"0
"%0.
亚瑟)塞穆尔将机器学习定义为:在没有明确为计算机编写(完成某项具体任务
的)程序的情况下,让计算机拥有 “学习” 能力的一个研究领域。
*"出名是因为在 -2 年代 ,他编程实现了一个玩西洋跳棋的程序。这个
跳棋程序的神奇之处在于,他让程序跟程序自身下了成千上万盘棋,跳棋程序
通过观察分析什么样的棋局更容易致胜,什么样的棋局更容易输,逐渐学会了
什么 是好 的棋 局, 什么 是坏 的棋 局 。最 终, 跳棋 程序 的下 棋水 平超 过了
*"。
这是一个相当了不起的成果,虽然 *"自己并不是一个很好的棋手,但因
为计算机(跳棋程序)可以跟自身对弈成千上万次,通过这样的训练,计算机
得到了很多的下棋经验,最终使得计算机最终成为了比 *"更好的棋手。
以上 是一 个不 太正 式并 且有 点老 的定 义, 下面 是一 个更 新的 定义 ,来 自
310的 &提出:
&+,,4.
'!5/"
% 6 &
"57 &7"057
1%6.
如果一个计算机程序在任务 &上的性能度量 5,通过经验 6而提高,那么我
们称这个计算机程序通过经验 6来学习。
具体到下跳棋的例子里面,训练经验 6指的是让计算机程序与 *"对弈
成千上万次的经验;任务 &指的的是下跳棋这个任务,性能标准 5
指的是跳棋程序在下一场面对新对手的比赛中获胜的概率。
学习算法分好几个类型,主要分成两大类,分别是监督学习 *"1
和无监督学习 3"1,在后面的博文中我将
介绍这些术语的具体含义。不过归根到底,Supervised Learning 就是我
们要明确告诉计算机如何做某件事情,而 Unsupervised Learning 则意
味着我们要让程序自己进行学习。
在 以 后 的 博 文 中 , 我 们 也 会 讨 论 一 些 其 他 术 语 , 比 如 强 化 学 习
8 和推荐系统 8*0,这些
其他类型的机器学习算法,我们在以后都会讨论,但两个最常用的学习算法实
际上就是就是 *"1和 3"1。
接下来,我们来讨论什么是 *"1,什么是 3"1
,并且会讨论在什么情况下使用这两种算法。
Supervised Learning
我们用一个例子开头,介绍什么是监督学习,正式的定义会在后面介绍。
假设你现在想要预测房价,并且拥有一些关于房价的数据,如下:
9
其中横轴表示房子的面积(单位是平方英尺),纵轴表示房价(单位是千美
元),假如你有一套 :-2 平方英尺大小的房子想要卖掉,那么基于以上数据,
你如何推测房子大概值多少钱。
对于这个问题,我们可以应用机器学习算法,在这组数据中画一条直线或者说
是拟合一条直线,根据这条线我们可以推测出这套房子可能卖;+-27222。当
然这不是唯一的算法,比如一个二次函数可能更适合已有的数据,我们使用这
个二次函数的曲线来进行预测可能效果会更好。
以 上 就 是 一 个 *"1 的 例 子 , 可 以 看 出 Supervised
Learning 指的就是我们给学习算法一个数据集,这个数据集由“正确答案”组
成。在房价的例子中,我们给了一系列房子的数据,我们给定数据集中每个样
本的正确价格,即它们实际的售价,然后运用学习算法,计算出更多的正确答
案,比如你的那个新房子的价格,用术语来讲,这叫做回归问题。
我们试着推测出一个连续值的结果,即房子的价格。一般房子的价格会记到美
分,所以房价实际上是一系列离散的值,但是我们通常又把房价看成实数,看
成是标量,因此又把它看成一个连续的数值,回归这个词的意思指的就是,我
们在试着推测出这一系列连续值属性。
回归问题:我们所预测的结果是连续的值。
我们再来讨论另外一个监督学习的例子,假使你希望通过查看病例来预测一个
乳腺癌是否是良性的,这个数据集中,横轴表示肿瘤的大小,纵轴上,我标出
+和 2来分别表示是恶性肿瘤或者不是恶性肿瘤。我们之前见过的肿瘤,如果
是恶性记为 +,不是恶性(或者说是良性)则记为 2。
假设现在我们有一个朋友很不幸检查出乳腺肿瘤,假设说她的肿瘤大概这么大,
那么机器学习的问题就在于,你能否估算出肿瘤是恶性的或是良性的概率。用
术语来讲,这是一个分类问题。
分类指的是我们试着推测出离散的输出值/2或 +、良性或恶性。而事实上在
分类问题中,输出可能不止两个值。比如说可能有三种乳腺癌,所以你希望预
测离散输出 2、+、<、=。其中 2代表良性,+表示第一类乳腺癌,<表示第
二类癌症,=表示第三类。但是,实际上这也是分类问题,因为这几个离散的
输出分别对应良性、第一类、第二类或者第三类癌症。
在分类问题中我们可以用另一种方式来绘制这些数据点。我们可以用不同的符
号来表示这些数据,既然我们把肿瘤的尺寸看做区分恶性或良性的特征,那么
我们可以这么画,用不同的符号来表示良性和恶性肿瘤,或者说是负样本和正
样本。现在我们不全部画 >,而是改成良性的肿瘤用 ? 表示,恶性的继续用 >
表示。我们所做的只是把上面的数据一一映射下来,映射到一根直线上,并且
用不同的符号 ?和 >来表示良性和恶性样本。
注意,在这个例子中,我们只用了肿瘤的尺寸这一种特征来预测肿瘤的恶性与
否,在其它一些机器学习问题中可能会遇到不止一种特征。举个例子,我们不
仅知道肿瘤的尺寸,还知道对应患者的年龄,那现在数据集看起来可能是如下
这个样子:
9
剩余43页未读,继续阅读
资源评论
qq_41711777
- 粉丝: 0
- 资源: 1
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- java 如何操作gbase8s的clob例子
- python opencv 图像转视频脚本工具
- HPMSM的飞轮储能并网控制simulink仿真 注意:MATLAB R2021b搭建(可转低版本,但是可能会出现器件不全)
- IPD400N06N-G-VB一种N-Channel沟道TO252封装MOS管
- Git 安装与配置全面指南
- Fluent电池包热管理-新能源汽车电池包热管理仿真 模型如何搭建,几何清理网格划分,重要分析参数如何设置,及不同电池包热分析工
- 两级三相光伏并网逆变器控制Matlab Simulink仿真模型,mppt控制有扰动观察法和电导增量法
- 暴风电视电视刷机数据 65X3 屏V650DJ4-QS5 机编60000AM0H00 屏参30172604 V4.0.31版本
- COMSOL裂隙动水注浆扩散数值模 拟针对动水注浆中常用的2种速凝浆液,水泥–水玻璃浆液与高聚物改性水泥浆液,考虑浆液黏度时变
- 利用EDATE函数计算退休日期的方法
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功