用Python进行自然语言处理

所需积分/C币:9 2018-11-11 18:43:29 4.28MB PDF
30
收藏 收藏
举报

用Python进行自然语言处理(中文)
PYTHON自然语言处理中文翻译 作者: Steven bird, Ewan Klein& Edward Loper 英文版出版社: OREILLY 翻译:陈涛(weibo.com/chentaol999) 译者的话 作为一个自然语言处理的初学者,看书看到“训练模型”,这模型那模型的,一直不知 道模型究竞是什么东西。看了这夲书,从预处理数据到提取特征集,训练模型,测试修改等, 步一步实际操作了之后,才对模型一词有了直观的认识(算法的中间结果,存储在计算 中的一个个pk1文件,测试的时候直接用,前面计算过的就省了)。以后听人谈“模型”的 时侯也有了底气。当然,模型还有很多其他含义。还有动词的“配价”、各种搭配、客观逻 辑对根据文法生成的句子的约束如何实现?不上机动手做做,很难真下领悟。 自然语言处理理论书很多,讲实际操作的不多,能讲的这么系统的更少。从这个角度 讲,本书是目前世界上最好的自然语言处理实践教程。初学者若在看过理论之后能精读本书, 必定会有获益。这也是翻译本书的目的之 本书是译者课佘英文翻译练习,抛砖引玉。书中存在很多问题,尤其是第10章命题逻 辑和一阶逻辑推理在自然语言处理中的应用。希望大家多多指教。可以在微博上找到我(w eibo.com/chentao199)。虽然读中文翻译速度更快,但直接读原文更能了解作者的本意。 原书作者在书的最后列出了迫切需要帮助改进的条目,对翻译本书建议使用目标语言的 例子,目前本书还只能照搬英文的例子,希望有志原者能加入本书的中文化进程中,为中文 自然语言处理做出贡献。 将本书作学习和研究之用,欢迎传播、复制、修改。山寨产岀请留下详者姓名和微博。 用于商业目的,请与原书版权所有者联系,译者不承担由此产生的责仟。 译者 2012年4月7日 PYTHON自然语言处理 从输入法联想提小(pre果你对开发Web应用、分析多种语言的新 dictive text)、 email过滤到自闻来源或者收集濒危语言感兴趣,或者仅仅 动文本摘要、机器翻译,大对以程序员的视角看人类语言如何运作好 量的语言相关的技术都离不奇,你将发现《 PYTHON自然语言处理》 开自然语言处理的支持,而这本书提供了自不仅迷人而且极其有用。 然语言处理非常方便的入门指南。通过它, 你将学到如何写能处理人量非结构化文本 “少有的一本书,用如此清晰的方法如 的 Python程序。你将获得有丰富标注的涵此优美整洁的代码处理如此复杂的问 盖语言学各种数据结构的数据集,而且你将题…这是一本从中可以学习自然语言处 学到分析书面文档内容和结构的主要算法。理的。” 通过大量的例子和联系,《 PYTHON自 -Ken get 然语言处理》将会帮助你: MCW Technologies高级顾问 ●从非结构化文本中提取信息,无论是猜 测主题还是识别“命名实体 Steven bird是墨尔本大学计算机科学 ●分析文本的语言学结构,包括文法和语和软件工程系副教授,宾夕法尼亚大学语言 义分析 学数据联盟高级研究助理。 ●访问流行的语言学数据集,包括Word Ewan Klein是爱丁堡大学信息学院语 Ne和 tree banks 技术教授。 ●整合从语言学到人工智能的多个领域 Edward Loper是宾夕法尼业大学基 的技术 机器学习的自然语言处理方向的刚毕业的 通过使用 Python程序设计语言和自然博上,现在是波上顿的 bBn Technologies 语言工只包(NTLK)的开源函数库,本书的研究员 将帮助你获得自然语言处理的实际经验。如 oreilly.com US s44.99 CAN 3569 Safari e》 Free on line edit I5BN:978-0-596-51649-9 for 45 days with Books online purchase of this book. Details on last page PYTHON自然语言处理 Steven Bird, Ewan Klein d Edward Loper O REILLY 北京·剑桥·法纳姆·科隆·塞瓦斯托波尔·台北·东京 Python自然语言处理 by Steven Bird, Ewan Klein, and Edward Loper Copyright o 2009 Steven Bird, Ewan Klein, and Edward Loper. All rights reserved Printed in the unitcd statcs of america O'Rcilly Mcdia, Inc H /, 1005 Gravenstcin Highway North, Scbastopol, CA 95472 叮以购买O’ Reilly出版的书用」教育、尚业或者销售推广使用。大多数图书都有网络 版(htp:/ my. safaribooksonlinc com)。更多的信息请联系我们的企业机构销售部门:(800) 998-9938orcorporalel_@aoreilly.com.o 编辑: Julie steele 索引编者: Ellen Troutman Zaig 制作编辑: Loranah dimant 封面设计: Karen Montgomery 拷贝编辑: Gcncvicvc d'’ Entremont 内页设计: David futato 校对: Loranah dimant 插画: Robert romano 版本说明: 2009年六月:第一版 Nuts hell handbook, the Nutshell handbook标忐,以及O’ Reilly标忐是O’ Reilly me dia,lnc的注册商标。《 PYTHON自然语言处理》,露脊鲸图案以及相关的商品外观是O’Re lly Media,Ine的商标。 制造商和经销商为了区分他们的产品而声明一些名称为商标。这些名称也出现在本书 中,O’ Reilly media.ine:知道这是商标,使用盖帽或者小的盖帽来印刷。 在本书编写过程中已经采取一切可能的预防措施,所以出版商和作者对书中的错误和遗 漏以及使用此书包含的信息所造成的损害不承担责任。 ISBN:978-0-596-51649-9 [M] 1244726609 目录 PYTHON自然语言处理中文翻译.… 译者的话 PYTHON自然语言处理 3 目录 前 读者 15 强调 16 你将学到什么? 16 篇章结构. 16 为什么仗用 Python? 软件安装需求 18 自然语言工具包(NLTK) .18 教师请看 19 本书使用的约定 20 仗用例子代码 20 Salario联机丛书. 21 如何联系我们. 致谢 22 版 22 第1章语言处理与 Python 1.1语言计算:文木和单词 Python入门 NLIK入门 搜索文本. 计数词汇 .28 1.2近观 Python:将文木当做词链表 30 链表.…… 30 索引列表 .32 变量 字符串 .35 13计算语言:简单的统计. 36 频率分布 ·;4·;·+;·· ∴36 细粒度的选择词 词语搭配和双连词( bigrams)… 计数其他东西 39 14回到 Python:决策与控制 ,41 条件 41 对每个元索进行操作 嵌套代码块. ·······4:;·;;.;···········“· ;.·.····· 43 条件循环. 4 1.5自动理解自然语言 45 词意消歧… 指代消解 自动生成语言 机器翻译 ………………………………47 人机对话系统 文木的含义 NIP的局限性 4 1.6小结 50 1.7深入阅读… ………50 1.8练习. 第2章获得文木语料和词汇资源…. .54 2.1获取文本语料库 .54 古腾堡语料库. ,着···· 网络和聊大文木 布朗语料库 路透社语料片. 59 就职演说语料库. 标注文本语料斥. 在其他语言的语料库 ········ 62 文本语料库的结构 载入你自己的语料斥. 65 22条件频率分布.… 条件和事件 .66 按文体计数词汇 绘制分布图和分布表 .67 使用欢连词生成随机文本 23更多关于 Python:代码重用 70 使用文本编辑器创建程序 .70 函数 70 模块. 2.4词典资源 词汇列表语料库 ···················· ··················· ············ .73 发音的词典 比较词表 78 2.5 WordNet 79 意义与同义词 79 WordNet的层次结构… 81 更多词汇关系 语义相似度 .83 2.6小结 2.7深入阅读 85 2.8 练 85 7 第3章加工原料文本. 3.1从网络和硬盘访问文本 88 电子书. ··········4+·:;·················4 ;.·.····· 处理的HTML 90 处理搜索引擎的结果 读取木地文件. ···“············4::;·····················+:·:············ 从PDF、 MS Word及其他二进制格式中提取文本 93 捕获用户输入… NP的流程.… 93 3.2字符串:最底层的文本处理 94 字符串的基木操作… 95 输出字符串 访问单个字符 访问子字符串. 98 更多的字符串操作. ,着···· 链表与字符串的差异. 3.3使用 Unicode进行文字处理 100 什么是 Unicode? 100 从文件中提取已编码文本… 101 在 Python中使用本地编码 3.4使用止则衣达式检测词组搭配. 104 使用基本的元字符 104 沱围与闭包… 105 3.5正则表达式的有益应用 提取字符块 107 在字符块上做更多事情 查找词干 1·t .109 搜索已分词文本 110 3.6规范化文本.…….…..11 词干提取器 l12 词形归并. 3.7用正则表达式为文本分词 113 词的简单方法. .114 NLTK的正则表达式分词器 ··················· ············ 115 分词的进一步问题 1l6 38分割 116 断句. ···4:·;·+ 116 分词 l17 3.9格式化:从链表到字符串 .120 从链表到字符串 120 字符串与格式… 120 排列 122 将结果写入文件. 文本换行 124 3.10小结 124 3.11深入阅读 125 3.12练习 126 第4章编写结构化程序 31 4.1回到基}.… 131 赋值. ……………………131 等式 133 条件语句 4,2序列 l34 序列类型上的操作 ·····“··“ 135 合并不同类型的序列 136 产生器表达式 138 4.3风格的问题. 138 Python代码风格. 138 过程风格与声明风格. 139 计数器的一些合理用途 141 44函数:结构化编程的基础 142 函数的输入和输出! 142 参数传递…… 143 变量的作用域 参数类型检查 145 功能分解.… 145 文档说明函数 147 4.5更名关于两数 *+ 作为参数的函数 148 累计函数 149 高阶函数 1·t 参数的命名 150 4.6程序开发… 152 Python模块的结构 多模块程序 误差源头 154 调试技术 155 防御性编程. ···················· ··················· ············ 156 4.7算法设计. .157 157 权衡空间与时间. .159 动态规划 161 48 Python厍的样例 ……………163 Matplotlib绘图工具 163 Netw orkⅩ l65 CSV 166 其他 Python库 167

...展开详情
立即下载 身份认证VIP会员低至7折
一个资源只可评论一次,评论内容不能少于5个字
您会向同学/朋友/同事推荐我们的CSDN下载吗?
谢谢参与!您的真实评价是我们改进的动力~
上传资源赚钱or赚积分
最新推荐
用Python进行自然语言处理 9积分/C币 立即下载
1/0