下载 > 资源分类 >  人工智能 >  机器学习 > 数学之美(第二版)-吴军

数学之美(第二版)-吴军

2017-09-17 上传大小:49.41MB
目录
第一版读者赞誉 
第二版出版说明 
第一版序言 
第二版序言 
第二版前言 
第1章 文字和语言 vs 数字和信息 1 
1 信息 
2 文字和数字 
3 文字和语言背后的数学 
4 小结 
第2章 自然语言处理——从规则到统计 15 
1 机器智能 
2 从规则到统计 
3 小结 
第3章 统计语言模型 27 
1 用数学的方法描述语言规律 
2 延伸阅读:统计语言模型的工程诀窍 
3 小
结 
第4章 谈谈分词 41 
1 中文分词方法的演变 
2 延伸阅读:如何衡量分词的结果 
3 小结 
第5章 隐含马尔可夫模型 50 
1 通信模型 
2 隐含马尔可夫模型 
3 延伸阅读:隐含马尔可夫模型的训练 
4 小结 
第6章 信息的度量和作用 60 
1 信息熵 
2 信息的作用 
3 互信息 
4 延伸阅读:相对熵 
5 小结 
第7章 贾里尼克和现代语言处理 72 
1 早年生活 
2 从水门事件到莫妮卡·莱温斯基 
3 一位老人的奇迹 
第8章 简单之美——布尔代数和搜索引擎 82 
1 布尔代数 
2 索引 
3 小结 
第9章 图论和网络爬虫 89 
1 图论 
2 网络爬虫 
3 延伸阅读:图论的两点补充说明 
4 小结 
第10章 PageRank——Google的民主表决式网页排名技术 98 
1 PageRank 算法的原理 
2 延伸阅读:PageRank的计算方法 
3 小结 
第11章 如何确定网页和查询的相关性 104 
1 搜索关键词权重的科学度量TF—IDF 
2 延伸阅读:TF—IDF的信息论依据 
3 小结 
第12章 有限状态机和动态规划——地图与本地搜索的核心技术 111 
1 地址分析和有限状态机 
2 全球导航和动态规划 
3 延伸阅读:有限状态传感器 
4 小结 
第13章 Google AK—47的设计者——阿米特·辛格博士 121 
第14章 余弦定理和新闻的分类 127 
1 新闻的特征向量 
2 向量距离的度量 
3 延伸阅读:计算向量余弦的技巧 
4 小结 
第15章 矩阵运算和文本处理中的两个分类问题 136 
1 文本和词汇的矩阵 
2 延伸阅读:奇异值分解的方法和应用场景 
3 小结 
第16章 信息指纹及其应用 142 
1 信息指纹 
2 信息指纹的用途 
3 延伸阅读:信息指纹的重复性和相似哈希 
4 小结 
第17章 由电视剧《暗算》所想到的——谈谈密码学的数学原理 153 
1 密码学的自发时代 
2 信息论时代的密码学 
3 小结 
第18章 闪光的不一定是金子——谈谈搜索引擎反作弊问题和搜索结果的权威性问题 162 
1 搜索引擎的反作弊 
2 搜索结果的权威性 
3 小结 
第19章 谈谈数学模型的重要性 171 
第20章 不要把鸡蛋放到一个篮子里——谈谈最大熵模型 177 
1 最大熵原理和最大熵模型 
2 延伸阅读:最大熵模型的训练 
3 小结 
第21章 拼音输入法的数学原理 186 
1 输入法与编码 
2 输入一个汉字需要敲多少个键——谈谈香农第一定理 
3 拼音转汉字的算法 
4 延伸阅读:个性化的语言模型 
5 小结 
第22章 自然语言处理的教父马库斯和他的优秀弟子们 197 
1 教父马库斯 
2 从宾夕法尼亚大学走出的精英们 
第23章 布隆过滤器 204 
1 布隆过滤器的原理 
2 延伸阅读:布隆过滤器的误识别问题 
3 小结 
第24章 马尔可夫链的扩展——贝叶斯网络 209 
1 贝叶斯网络 
2 贝叶斯网络在词分类中的应用 
3 延伸阅读:贝叶斯网络的训练 
4 小结 
第25章 条件随机场、文法分析及其他 217 
1 文法分析——计算机算法的演变 
2 条件随机场 
3 条件随机场在其他领域的应用 
4 小结 
第26章 维特比和他的维特比算法 227 
1 维特比算法 
2 CDMA技术——3G移动通信的基础 
3 小结 
第27章 上帝的算法——期望最大化算法 238 
1 文本的自收敛分类 
2 延伸阅读:期望最大化和收敛的必然性 
3 小结 
第28章 逻辑回归和搜索广告 244 
1 搜索广告的发展 
2 逻辑回归模型 
3 小结 
第29章 各个击破算法和Google云计算的基础 249 
1 分治算法的原理 
2 从分治算法到MapReduce 
3 小结 
第30章 Google大脑和人工神经网络 254 
1 人工神经网络 
2 训练人工神经网络 
3 人工神经网络与贝叶斯网络的关系 
4 延伸阅读:Google大脑 
5 小结 
第31章 大数据的威力——谈谈数据的重要性 273 
1 数据的重要性 
2 数据的统计和信息技术 
3 为什么需要大数据 
4 小结 
附录 计算复杂度 295 
第二版后记 299 
索引 302

序言
《数学之美》是一本非常值得读的书。这本书展现了吴军博士在他多年的科研经历中对科学问题的深人思考。
我于1991年从美国回到清华大学电子工程系工作,与吴军博士是同事,对他在汉语语音识别方面的深人研究印象非常深刻。后来他到美国工作,出版了一本介绍硅谷的书《浪潮之巅》,使我对他的写作激情和水平有了新的认识。
这些年来我在清华大学教书,一直思考着如何让学生能真正欣赏和热爱科学研究,这将有助于他们深人理解自己所从事的研究的价值,进而能逐渐成长为所在领域的大师和领军人物。在这一过程中,恰好发现了吴军博士在Google中国的官方博客——谷歌黑板报上连载的“数学之美”系列文章,我非常欣赏这些文章。因此,在很多场合都建议学生跟踪阅读这个系列的博客文章。今天本书出版,与原先的博客文章相比,其内容的系统性和深度又上升到了一个新的境界。
我读《数学之美》有下面几点体会,与大家分享。
1.追根溯源
《数学之美》用了大量篇幅介绍各个领域的典故,读来令人兴趣盎然。典故里最核心的是相关历史事件中的人物。我们必须要问:提出巧妙数学思想的人是谁?为什么是“他/她”提出了这个思想?其思维方法有何特点?成为一个领域的大师有其偶然性,但更有其必然性。其必然性就是大师们的思维方法。
2.体会方法
从事科学研究,最重要的是掌握思维方法。在这里,我举两个例子。
牛顿是伟大的物理学家和数学家,他在《自然哲学的数学原理》中叙述了四条法则。其中有“法则1:除那些真实而已足够说明其现象者外,不必去寻找自然界事物的其他原因”。这条法则后来被人们称作“简单性原则”。正如爱因斯坦所说:“从希腊哲学到现代物理学的整个科学史中,不断有人力图把表面上极为复杂的自然现象归结为几个简单的基本概念和关系。这就是整个自然哲学的基本原理。”这个原理也贯穿了《数学之美》本身。
WWW的发明人蒂姆·伯纳斯·李谈到设计原理时说过:“简单性和模块化是软件工程的基石;分布式和容错性是互联网的生命。”虽然在软件工程和互联网领域的从业人员数量极其庞大,但能够真正体会到这些核心思想的人能有多少呢?
我给学生出过这样的考题:把过去十年来重要IT杂志的封面上重点推荐的技术专题找来看看,瞧一瞧哪些技术成功了,哪些技术是昙花一现,分析一下原因?其答案很有意思:“有正确设计思想方法的技术”未必能够成功,因为还有非技术的因素;但“没有正确设计思想方法的技术”一定失败,无一例外。因此,我也建议本书的读者结合阅读,体会凝练创造《数学之美》的方法论。
3.超越欣赏
数学既是对自然界事实的总结和归纳,如英国的哲学家培根所说“一切多依赖于我们把眼睛紧盯在自然界的事实之上”;又是抽象思考的结果,如法国哲学家笛卡尔所说“我思故我在”。这两个方法成就了目前绚丽多彩、魅力非凡的数学,非常值得欣赏。《数学之美》把数学在IT领域,特别是语音识别和搜索引擎方面的美丽之处予以了精彩表达。但在这里
我想说的是:欣赏美不是终极目的,更值得追求的是创造美的境界。希望本书的读者,特别是年轻读者能够欣赏数学在IT技术中的美,学习大师们的思想方法,使自己成为大师,创造新的数学之美。
李星
2012年4月于北京
后记
很多朋友问我,为什么会想起来写“数学之美”系列博客?虽然谷歌黑板报的本意是希望我从一个Google科学家的角度介绍一下Google的技术,但是我更希望让做工程的年轻人看到在信息技术行业做事情的正确方法。无论是在美国还是在中国,我经常看到大部分软件工程师在一个未知领域都是从直观感觉出发,用“凑”的方法来解决问题,在中国尤其如此。这样的做法说得不好听,就是山寨。我刚到Google时,发现Google早期的一些算法(比如拼写纠错)根本没有系统的模型和理论基础,就是用词组或者词的二元组凑出来的。这些方法也算是聊胜于无,但是几乎没有完善和提高的可能,而且使得程序的逻辑非常混乱。随着公司的成长和实力的壮大,Google开始从全球最好的大学招揽理论基础优异的工程师,工程的正确性得到了很好保证。2006年后,我指导了三四个美国名校毕业的研究生,用隐含马尔可夫模型的框架把Google的拼写纠错模型统一起来。在那几年里,Google几乎重写了所有项目的程序,山寨的东西基本上看不到了。但是在其他公司,包括在美国一些还挂着高科技头衔的二流IT公司里,山寨情况依然很普遍。在国内,创业小公司做事情重量不重质,倒也无可厚非;但是,上了市、有了钱甚至利润成为在世界上也数得上的公司,做事情依然如此,就让人觉得境界低。另一方面,在修建大楼和装修高管办公室的投入上,这些公司倒是很快超越了许多跨国公司。这就像一个人有了钱,穿金戴银,内在的学问和修养却不见提高。因此,我写《数学之美》,也是希望这些IT公司的工程主管们能够带领部属,提高工程水平,逐渐远离山寨,这样才有可能真正接近世界一流IT公司的做事水准,避免大量低水平的重复建设导致的惊人浪费。
(无意中)采用错误的模型,在特定的场合或许勉强有效,就比如我们介绍的地心说一样,毕竟也使用了几千年。但是,错误的模型终究是远离真理的,其负面影响会渐渐表现出来。最终是不仅远离了正确的结果,而且常常把原本简单的事情弄得很复杂,以至于濒临崩溃(地心说对于日心说就是如此)。
人们要认识到正确的理论和方法,总有一个渐进的过程。任何事物都有它的发展规律,而这些规律都是可以认识的,在信息科学领域也不例外。当我们认识了规律后,就应该自觉地在工作中遵循而非违背规律。香农博士就是揭示了信息科学发展规律的人,他创建的信息论在很大程度上指出了我们今天信息处理和通信领域的本质和规律。这里所说的通信涵盖人类的一切交流,包括自然语言处理的所有应用。而当初我写这个系列博客,就是要介绍这些信息处理的规律性。
当然,将数学的东西讲清楚,让外行都能读懂,并非易事。我自认为擅长把技术原理讲解得深人浅出,但是当我第一次将所写的几章送给非工程专业的读者阅读时,他们还是表示理解起来非常费劲。为此,后来我下了很多功夫,设法将这个系列写得浅显易懂,这样很多细节便只能省略,使得一些专业的读者对此并不满意,希望我能多介绍点技术细节。在离开Google之后,我写作起来约束相对少了些,因此在将博客改写成书时,多介绍了一些技术细节,以照顾那些工程背景较好、愿意了解细节的读者。完成这本书时,我发现相比最初的系列博客,全书的内容几乎重写了一遍。在这次再版之际,我又增加了一些新的内容,并补充了更多的细节,希望对各个层次的读者都有帮助。
我写书很重要的目的,是向非IT行业的从业人员普及一些IT领域的数学知识,因此我希望这本书能够成为他们茶余饭后消遣的科普读物。透过对IT规律性的认识,读者可以举一反三地总结、学习、认识和自觉运用自己工作中的规律性,这样有助于将自己的境界提升一个层次。
对我这次写作帮助最大的是两本书和一个节目。我在初中时读了《从一到无穷大》1,这是一本介绍宇宙的科普读物。作者乔治·伽莫夫是美籍俄裔著名物理学家,他花了很多时间创作科普读物,影响了一代又一代人。第二本书是英国著名物理学家霍金的《时间简史》,霍金把深奥的宇宙学原理用最简单的语言讲出来,让这部科普读物成为全球畅销书。影响我的一个节目是美国著名演员摩根·弗里曼担任旁白和主持人的《穿越虫洞》(Through the Wormhole)。我的写作大多是在飞机上完成的,写作累了便看看电视节目,一次碰巧找到《穿越虫洞》,一个把当今最前沿的物理学做成了浅显易懂的节目。节目中有包括很多诺贝尔奖获奖者在内的一流物理学家和数学家介绍他们的工作,这些人有一个共同的本领,就是能用很简单的比喻将所在领域内最深奥的道理介绍清楚,让大众理解。我想这可能是他们成为世界高级科学家的原因,他们一方面对自己的领域非常精通,同时他们能用大白话把道理讲清楚。世界上最好的学者总是有办法深人浅出地把大道理讲给外行听,而不是故弄玄虚地把简单的问题复杂化。因此,在写作《数学之美》时,我一直以伽莫夫、霍金等科学家为榜样,力图将数学之美展现给所有普通读者,而不只是有相关专业背景的读者。为了方便读者利用零碎的闲暇时间阅读,我在写作时,尽量设法让各章相对独立,自成一体,这样读起来不会有多大压力,毕竟,让大部分读者从头到尾连续读一本以数学为主的书,总是有些困难的。
吴军
2014年10月于硅谷
...展开收缩
综合评分:5(1位用户评分)
直接下载 开通VIP会员 免积分下载

评论共有1条

name
stephenye822017-09-18 14:01:29
不错,确实是第二版的!

评论资源

您不能发表评论,可能是以下原因:

登录后才能评论

待评论资源
 

热门专辑

关闭
img

spring mvc+mybatis+mysql+maven+bootstrap 整合实现增删查改简单实例.zip

CSDN VIP年卡 4000万程序员的必选现在开通,立省522元
下载
img

数学之美(第二版)-吴军

会员到期时间:剩余下载个数:
VIP下载

积分不足!

资源所需积分 当前拥有积分
您可以选择
开通VIP年卡
4000万
程序员的必选
600万
绿色安全资源
现在开通
立省522元
或者
购买C币兑换积分 C币抽奖
img
资源所需积分 当前拥有积分
VIP年卡全年1200个资源免积分下载促销价78元,开通立省522元
下载
下载

兑换成功

你当前的下载分为234开始下载资源
你还不是VIP会员
开通VIP会员权限,免积分下载
立即开通

你下载资源过于频繁,请输入验证码

你下载资源过于频繁,请输入验证码

您因违反CSDN下载频道规则而被锁定帐户,如有疑问,请联络:webmaster@csdn.net!

举报

若举报审核通过,可奖励20下载分

  • 举报人:
  • 被举报人:
  • 举报的资源分:
  • *类型:
  • *详细原因: