机器学习(高清中文电子版附目录)PDF

所需积分/C币:50 2018-04-04 14:47:16 37.57MB PDF

机器学习(高清中文电子版附目录)PDF电子版,适合机器学习入门,市面上目前就通俗易懂的中文机器学习指南书,包含完整的KNN、SVM、决策树、神经网络等算法原理。资源积分怎么无法修改,想免费分享的。
12基本术语 若将标记看作对象本身(x2,)表示第i个样例,其中v∈J是示例;的标记,y是所有标记的集合, 的一部分,则“样例”有 时也称为“样本” 亦称“标记空间”( abel space或“输出空间” 若我们欲预测的是离散值,例如“好瓜”“坏瓜”,此类学习任务称为 “分类”( classification);若欲预测的是连续值,例如西瓜成熟度0.95、0.37, 此类学习任务称为“回归”( regression).对只涉及两个类别的“二分 类”( binary classification)任务,通常称其中一个类为“正类”( (positive class), 亦称“负类” 另一个类为“反类”( negative class);涉及多个类别时,则称为“多分 类”( multi-class classification)任务.一般地,预测任务是希望通过对训练 集{(m1,yn),(z2y2),…,(am,3m)}进行学习,建立一个从输入空间x到输出 空间y的映射∫:礼→y.对二分类任务,通常令J={-1,+1}或{0,1};对 多分类任务,|y1>2;对回归任务,=R,R为实数集 学得模型后,使用其进行预测的过程称为“测试”( (testing),被预测的样本 亦称“测试示例”称为“测试样本”( (testing sample).例如在学得∫后,对测试例a,可得到其预 试例” 测标记y=f(ax) 我们还可以对西瓜做“聚类”( clustering),即将训练集中的西瓜分成若干 组,每组称为一个“簇”( (cluster);这些自动形成的簇可能对应一些潜在的概念 划分,例如“浅色瓜”“深色瓜”,甚至“本地瓜”“外地瓜”.这样的学习过 程有助于我们了解数据内在的规律,能为更深入地分析数据建立基础.需说明 否则标记信息直接形成的是,在聚类学习中,“浅色瓜”“本地瓜”这样的概念我们事先是不知道的, 簇划分;但也有例外情而且学习过程中使用的训练样本通常不拥有标记信息 况,参见136节 根据训练数据是否拥有标记信息,学习任务可大致划分为两大类:“监督 亦验“有号师学习和学习”( upervised learning和“无监督学习”( unsupervised learning,分类 和回归是前者的代表,而聚类则是后者的代表 更确切地说,是“未见 需注意的是,机器学习的目标是使学得的模型能很好地适用于“新样本” 示例”( unseen instance) 而不是仅仅在训练样本上工作得很好;即便对聚类这样的无监督学习任务,我 们也希望学得的簇划分能适用于没在训练集中出现的样本.学得模型适用于 新样本的能力,称为“泛化”( generalization)能力.具有强泛化能力的模型能 现实任务中样本空间的很好地适用于整个样本空间,于是,尽管训练集通常只是样本空间的一个很小 规模通常很大例如20个的采样,我们仍希望它能很好地反映出样本空间的特性,否则就很难期望在训 属性,每个属性有10个可 能取值,则样本空间的规练集上学得的模型能在整个样本空间上都工作得很好.通常假设样本空间中全 模已达1020) 体样本服从一个未知“分布”( distribution)D,我们获得的每个样本都是独立 地从这个分布上采样获得的,即“独立同分布”( (independent and identically distributed,简称id.).一般而言,训练样本越多,我们得到的关于D的信息 第1章绪论 越多,这样就越有可能通过学习获得具有强泛化能力的模型. 13假设空间 归纳( (induction)与演绎( deduction)是科学推理的两大基本手段.前者是从 特殊到一般的“泛化”( generalization)过程,即从具体的事实归结出一般性规 律;后者则是从一般到特殊的“特化”( specialization过程,即从基础原理推演 出具体状况.例如,在数学公理系统中,基于一组公理和推理规则推导出与之 相洽的定理,这是演绎;而“从样例中学习”显然是一个归纳的过程,因此亦称 “归纳学习”( inductive learning) 归纳学习有狭义与广义之分,广义的归纳学习大体相当于从样例中学习, 而狭义的归纳学习则要求从训练数据中学得概念( concept),因此亦称为“概念 学习”或“概念形成”.概念学习技术目前研究、应用都比较少,因为要学得 泛化性能好且语义明确的概念实在太困难了,现实常用的技术大多是产生“黑 箱”模型.然而,对概念学习有所了解,有助于理解机器学习的一些基础思想. 概念学习中最基本的是布尔概念学习,即对“是”“不是”这样的可表示 为0/1布尔值的目标概念的学习举一个简单的例子,假定我们获得了这样一 个训练数据集 表11西瓜数据集 编号色泽根蒂敲声好瓜 1青绿蜷缩浊响是 乌黑蜷缩浊响是 3青绿硬挺清脆否 4乌黑稍蜷沉闷否 这里要学习的目标是“好瓜”.暂且假设“好瓜”可由“色泽”“根蒂” “蔽声”这三个因素完全确定,换言之,只要某个瓜的这三个属性取值明确了 我们就能判断出它是不是好瓜.于是,我们学得的将是“好瓜是某种色泽、某 种根蒂、某种敲声的瓜”这样的概念,用布尔表达式写出来则是“好瓜(色 如的情几砖折泽=)A(根蒂=)A(敵声=?)”,这里“?”表示尚末确定的取值,而我们的任 合范式. 务就是通过对表11的训练集进行学习,把“?”确定下来 读者可能马上发现,表1.1第一行:“(色泽=青绿)∧(根蒂=蜷缩)∧(敲 声=浊响)”不就是好瓜吗?是的,但这是一个已见过的瓜,别忘了我们学习的 目的是“泛化”,即通过对训练集中瓜的学习以获得对没见过的瓜进行判断的 1.3假设空间 5 记住”训练样本,就能力.如果仅仅把训练集中的瓜“记住”,今后再见到一模一样的瓜当然可判 是所谓的“机械学习” Cohen and Feigenbaum,断,但是,对没见过的瓜,例如“(色泽=浅白)∧(根蒂=蜷缩)∧(敲声=浊响)” 19831或称“死记硬背式怎么办呢? 学习”,参见15节 我们可以把学习过程看作一个在所有假设( hypothesis)组成的空间中进行 搜索的过程,搜索目标是找到与训练集“匹配”(ft)的假设,即能够将训练集中 的瓜判断正确的假设.假设的表示一旦确定,假设空间及其规模大小就确定了 这里我们的假设空间由形如“(色泽=?)∧(根蒂=?)∧(敲声=?)”的可能取值 所形成的假设组成.例如色泽有“青绿”“乌黑”“浅白”这三种可能取值; 还需考虑到,也许“色泽”无论取什么值都合适,我们用通配符“*”来表示, 例如“好瓜φ(色泽=*)∧(根蒂一蜷缩)∧(敲声=浊响)”,即“好瓜是根蒂蜷 缩、敲声浊响的瓜,什么色泽都行”,此外,还需考虑极端情况:有可能“好 瓜”这个概念根本就不成立,世界上没有“好瓜”这种东西;我们用表示这 这里我们假定训练样个假设.这样,若“色泽”“根蒂”“敲声”分别有3、2、2种可能取值,则我 并且不 “非青绿”这样的一A操们面临的假设空间规模大小为4×3×3+1=37.图1.1直观地显示出了这个 作.由于训练集包含正例 因此必假设自然不出现 西瓜问题假设空间 (色泽=*;根蒂=*;敲声=* (色泽=青绿;根蒂=*;蔽敲声=*)【色泽=乌黑:根蒂=*;敲声=* 色泽一青绿;根蒂=蜷缩;敲声=*)(色泽=青绿;根蒂=硬挺;敲声=*)…… 〔色泽=青绿;根蒂=蜷缩;敲声=浊响)「(色泽=青绿;根蒂=蜷缩;敲声=沉闷) 图1.1西瓜问题的假设空间 可以有许多策略对这个假设空间进行搜索,例如自顶向下、从一般到特殊, 或是自底向上、从特殊到一般,搜索过程中可以不断删除与正例不一致的假 有许多可能的选择,如 在路径上自顶向下与自底 设、和(或)与反例一致的假设.最终将会获得与训练集一致(即对所有训练样本 向上同时进行,在操作上能够进行正确判断)的假设,这就是我们学得的结果 只删除与正例不一致的假 设等. 需注意的是,现实问题中我们常面临很大的假设空间,但学习过程是基于 有限样本训练集进行的,因此,可能有多个假设与训练集一致,即存在着一个与 训练集一致的“假设集合”,我们称之为“版本空间”( version space).例如, 在西瓜问题中,与表11训练集所对应的版本空间如图12所示 6 第1章绪论 (色泽二*根蒂=蜷缩;敲声=*)[(色泽二*;根蒂=*;敲声=清脆) (色泽=*;根蒂一蜷缩;敲声一清脆 图12西瓜问题的版本空间 4归纳偏好 通过学习得到的模型对应了假设空间中的一个假设.于是,图12的西瓜 版本空间给我们带来一个麻烦:现在有三个与训练集一致的假设,但与它们 对应的模型在面临新样本的时候,却会产生不同的输出.例如,对(色泽=青绿; 根蒂=蜷缩;敲声=沉闷)这个新收来的瓜,如果我们采用的是“好瓜4(色 泽=*)∧(根蒂=蜷缩)∧(敲声=*)”,那么将会把新瓜判断为好瓜,而如果采 用了另外两个假设,则判断的结果将不是好瓜.那么,应该采用哪一个模型(或 假设)呢? 若仅有表11中的训练样本,则无法断定上述三个假设中哪一个“更好” 然而,对于一个具体的学习算法而言,它必须要产生一个模型.这时,学习算 法本身的“偏好”就会起到关键的作用.例如,若我们的算法喜欢“尽可能特 尽可能特殊即“道用情殊”的模型,则它会选择“好瓜兮(色泽=*)∧(根蒂=蜷缩)∧(敲声=浊响) 般即“适用情形尽可能但若我们的算法喜欢“尽可能一般”的模型,并且由于某种原因它更“相信” 多 根蒂,则它会选择“好瓜艹(色泽=*)∧(根蒂一蜷缩)∧(敲声=*)”.机器学习 对“根蒂”还是对“敲 声”更重视,看起来和属 算法在学习过程中对某种类型假设的偏好,称为“归纳偏好”( (inductive bias), 性选择,亦称“特征选或简称为“偏好” 择”( eature selection)有 关,但需注意的是,机器学 任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看 习中的特征选择仍是基于似在训练集上“等效”的假设所迷惑,而无法产生确定的学习结果.可以想象, 对训练样本的分析进行的 而在此处我们并非基于特如果没有偏好,我们的西瓜学习算法产生的模型每次在进行预测时随机抽选 重视:这里对“根蒂”的训练集上的等效假设,那么对这个新瓜“(色泽=青绿;根蒂=蜷缩;敲声=沉 伦轨可把为子种领域闷)”,学得模型时而告诉我们它是好的、时而告诉我们它是不好的,这样的学 关于特征选择方面的内容习结果显然没有意义 参见第11章 归纳偏好的作用在图13这个回归学习图示中可能更直观.这里的每个训 练样本是图中的一个点(x,y),要学得一个与训练集一致的模型,相当于找到 条穿过所有训练样本点的曲线.显然,对有限个样本点组成的训练集,存在着 很多条曲线与其一致.我们的学习算法必须有某种偏好,才能产出它认为“正 确”的模型.例如,若认为相似的样本应有相似的输出(例如,在各种属性上都 14归纳偏好 B 图1.3存在多条曲线与有限样本训练集一致 很相像的西瓜,成熟程度应该比较接近),则对应的学习算法可能偏好图1.3中 比较“平滑”的曲线A而不是比较“崎岖”的曲线B 归纳偏好可看作学习算法自身在一个可能很庞大的假设空间中对假设进 行选择的启发式或“价值观”.那么,有没有一般性的原则来引导算法确立 “正确的”偏好呢?“奥卡姆剃刀”( Occams razor)是一种常用的、自然科学 研究中最基本的原则,即“若有多个假设与观察一致,则选最简单的那个”.如 果采用这个原则,并且假设我们认为“更平滑”意味着“更简单”(例如曲线 A更易于描述,其方程式是y=-x2+6x+1,而曲线B则要复杂得多),则在 图13中我们会自然地偏好“平滑”的曲线A 然而,奥卡姆剃刀并非唯一可行的原则.退一步说,即便假定我们是奥卡姆 剃刀的铁杆拥趸,也需注意到,奥卡姆剃刀本身存在不同的诠释,使用奥卡姆剃 刀原则并不平凡.例如对我们已经很熟悉的西瓜问题来说,“假设1:好瓜 (色泽=*)∧(根蒂=蜷缩)∧(敲声=浊响)”和假设2:“好瓜台〉(色泽=*)∧ 根蒂=蜷缩)∧(敲声=*)”这两个假设,哪一个更“简单”呢?这个问题并不 简单,需借助其他机制才能解决. 事实上,归纳偏好对应了学习算法本身所做出的关于“什么样的模型更 好”的假设.在具体的现实问题中,这个假设是否成立,即算法的归纳偏好是否 与问题本身匹配,大多数时候直接决定了算法能否取得好的性能 让我们再回头看看图1.3.假设学习算法基于某种归纳偏好产生了对应 于曲线A的模型,学习算法基于另一种归纳偏好产生了对应于曲线B的模 型.基于前面讨论的平滑曲线的某种“描述简单性”,我们满怀信心地期待算 法见比劝更好.确实,图1.4(a)显示出,与B相比,A与训练集外的样本更 致;换言之,A的泛化能力比B强 8 第1章绪论 (a)A优于B (b)B优于A 图14没有免费的午餐.(黑点:训练样本;白点:测试样本) 但是,且慢!虽然我们希望并相信比更好,但会不会出现图1.4(b)的 情况:与A相比,B与训练集外的样本更一致? 很遗憾,这种情况完全可能出现,换言之,对于一个学习算法,若它在某 些问题上比学习算法助b好,则必然存在另一些问题,在那里b比好.有趣 的是,这个结论对任何算法均成立,哪怕是把本书后面将要介绍的一些聪明算 法作为a而将“随机胡猜”这样的笨拙算法作为b,.惊讶吗?让我们看看下 面这个简短的讨论 这里只用到一些非常基 础的数学知识,只准备读 为简单起见,假设样本空间x和假设空间都是离散的.令P(bx,a 第1章且有“数学恐惧”代表算法基于训练数据X产生假设h的概率,再令∫代表我们希望学习的 的读者可以跳过这个部分 而不会影响理解,只需相真实目标函数.见的“训练集外误差”,即¤在训练集之外的所有样本上的 信,上面这个看起来“匪误差为 夷所思”的结论确实是成 立的 Ea(a|x,)=∑∑P(m)I(h(m)≠f(m)P(h|x,a),(1) ha∈x-X 其中政)是指示函数,若·为真则取值1,否则取值0 考虑二分类问题,且真实目标函数可以是任何函数→{0,1},函数空间 为{0,1}x.对所有可能的∫按均匀分布对误差求和,有 ∑B(l|X,)=∑∑∑P(a)I(h(al)≠f(x)P(hlx,a fhm∈x-X ∑P(a)∑P(h|x,S)∑h(m)≠f(x) c∈x-X 若∫均匀分布,则有 半的∫对c的预测与h(a) ∑P(a)∑Ph|X,)21 不一致 c∈-X ∑P(a)∑P(h|x ∈x-X 14归纳偏好 ∑ ∈x-X 式(1.2)显示出,总误差竟然与学习算法无关!对于任意两个学习算法和 b,我们都有 ∑B(glx,)=∑Ee(X, 也就是说,无论学习算法多聪明、学习算法为多笨拙,它们的期望性能竟 严格的NFL定理证明比然相同!这就是“没有免费的午餐”定理( No Free lunch theorem,简称NFL 这里的简化论述繁难得多,定理) Wolpert,1996; Wolpert and Macready,1995 这下子,读者对机器学习的热情可能被一盆冷水浇透了:既然所有学习算 法的期望性能都跟随机胡猜差不多,那还有什么好学的? 我们需注意到,NFL定理有一个重要前提:所有“问题”出现的机会相 同、或所有问题同等重要.但实际情形并不是这样.很多时候,我们只关注自 己正在试图解决的问题(例如某个具体应用任务),希望为它找到一个解决方案, 至于这个解决方案在别的问题、甚至在相似的问题上是否为好方案,我们并不 关心.例如,为了快速从A地到达B地,如果我们正在考虑的A地是南京鼓 楼、B地是南京新街口,那么“骑自行车”是很好的解决方案;这个方案对A 地是南京鼓楼、B地是北京新街口的情形显然很糟糕,但我们对此并不关心 事实上,上面NFL定理的简短论述过程中假设了∫的均匀分布,而实际情 形并非如此,例如,回到我们熟悉的西瓜问题,考虑{假设1:好瓜4(色泽=*) ∧(根蒂=蜷缩)∧(敲声=浊响)}和{假设2:好瓜分(色泽=*)∧(根蒂=硬挺) ∧(敲声=清脆)}.从NFL定理可知,这两个假设同样好.我们立即会想到符 合条件的例子,对好瓜(色泽=青绿;根蒂=蜷缩;敲声=浊响)是假设1更好,而 对好瓜(色泽一乌黑;根蒂=硬挺;敵声=清脆)则是假设2更好.看上去的确是 这样.然而需注意到,“(根蒂=蜷缩;敲声=浊响)”的好瓜很常见,而“(根 蒂=硬挺;敲声清脆)”的好瓜罕见,甚至不存在 所以,NFL定理最重要的寓意,是让我们清楚地认识到,脱离具体问题,空 泛地谈论“什么学习算法更好”毫无意义,因为若考虑所有潜在的问题,则所 有学习算法都一样好.要谈论算法的相对优劣,必须要针对具体的学习问题;在 某些问题上表现好的学习算法,在另一些问题上却可能不尽如人意,学习算法 自身的归纳偏好与问题是否相配,往往会起到决定性的作用 第1章绪论 5发展历程 机器学习是人工智能 artificial intelligence)研究发展到一定阶段的必然产 物.二十世纪五十年代到七十年代初,人工智能研究处于“推理期”,那时人们 以为只要能赋予机器逻辑推理能力,机器就能具有智能.这一阶段的代表性工 作主要有A.Newe和 H. Simon的“逻辑理论家”( Logic Theorist)程序以及 此后的“通用问题求解”( General Problem Solving程序等,这些工作在当时 取得了令人振奋的结果.例如,“逻辑理论家”程序在1952年证明了著名数学 家罗素和怀特海的名著《数学原理》中的38条定理,在1963年证明了全部52 条定理,特别值得一提的是,定理285甚至比罗素和怀特海证明得更巧妙.A Newell!和H. Simon因为这方面的工作获得了1975年图灵奖.然而,随着研究 向前发展,人们逐渐认识到,仅具有逻辑推理能力是远远实现不了人工智能的 E.A. feigenbaum等人认为,要使机器具有智能,就必须设法使机器拥有知识. 所谓“知识就是力量”·在他们的倡导下,从二十世纪七十年代中期开始,人工智能研究进入了“知识 1965年,F已gmhm主期”.在这一时期,大量专家系统问世,在很多应用领域取得了大量成果.EA 持研制了世界上第一个专 家系统 DENDRAL feigenbaum作为“知识工程”之父在1994年获得图灵奖.但是,人们逐渐认 识到,专家系统面临“知识工程瓶颈”,简单地说,就是由人来把知识总结出来 再教给计算机是相当困难的.于是,一些学者想到,如果机器自己能够学习知识 该多好 事实上,图灵在1950年关于图灵测试的文章中,就曾提到了机器学习的可 能;二十世纪五十年代初已有机器学习的相关研究,例如A. Samuel著名的跳 参见p2 棋程序.五十年代中后期,基于神经网络的“连接主义”( connectionism)学习 开始出现,代表性工作有F. Rosenblatt的感知机( Perceptron)、B. Widrow的 Adaline等.在六七十年代,基于逻辑表示的“符号主义”( symbolism)学习技 术蓬勃发展,代表性工作有P. Winston的“结构学习系统”、R.S. Michalski 等人的“基于逻辑的归纳学习系统”、E.B.Hunt等人的“概念学习系统 等;以决策理论为基础的学习技术以及强化学习技术等也得到发展,代表性工 作有N.J. Nilson的“学习机器”等;二十多年后红极一时的统计学习理论的 些奠基性结果也是在这个时期取得的 ⅣWML后来发展为国际 1980年夏,在美国卡耐基梅隆大学举行了第一届机器学习研讨会(IWML); 机器学习会议|CML 同年,《策略分析与信息系统》连出三期机器学习专辑;1983年, Tioga出版社 出版了R.S. Michalski、JG. Carbonell和T. Mitchel主编的《机器学习 种人工智能途径》 Michalski et al,1983],对当时的机器学习研究工作进行了 总结;1986年,第一本机器学习专业期刊 Machine Learning创刊;1989年,人

...展开详情

评论 下载该资源后可以进行评论 40

SQL_REG 非高清,明明是模糊的扫描版,不可复制不可搜索,跟免费下载的一样,垃圾,浪费13积分,不过csdn积分真的越来越没用,
2019-04-01
回复
lantianjialiang 谢谢谢谢谢
2019-03-21
回复
blackning123 感谢分享!
2019-03-20
回复
到老友 可以可以点赞
2019-03-19
回复
lizhengfeng 很完整,非常感谢!
2019-02-18
回复
img
nooccar

关注 私信 TA的资源

上传资源赚积分,得勋章
相关内容推荐