python 自然语言处理中文版

所需积分/C币:8 2018-10-02 08:52:56 4.4MB PDF
17
收藏 收藏
举报

python 自然语言处理中文版 本书是一本实用的介绍 NLP 的书。你将通过例子来学习,编写真正的程序,体会到能 够通过实践验证自己想法的价值。如果你没有学过编程,本书将教你如何编程。与其他编程 书籍不同的是,我们提供了丰富的来自 NLP 领域的实例和练习。我们撰写本书的方法也是 讲究原则和条理的,无论是严谨的语言学还是计算分析学,我们不回避所涉及到的基础理论。 我们曾经试图在理论与实践之间寻求折中,确定它们之间的联系与边界。最终我们认识到只 要能从中受益而感到快乐这些都是无关紧要的,所以我们竭尽所能插入了很多既有益又有趣 的应用和例子,有些甚至有些异想天开。
PYTHON自然语言处理 从输入法联想提小(pre果你对开发Web应用、分析多种语言的新 dictive text)、 email过滤到自闻来源或者收集濒危语言感兴趣,或者仅仅 动文本摘要、机器翻译,大对以程序员的视角看人类语言如何运作好 量的语言相关的技术都离不奇,你将发现《 PYTHON自然语言处理》 开自然语言处理的支持,而这本书提供了自不仅迷人而且极其有用。 然语言处理非常方便的入门指南。通过它, 你将学到如何写能处理人量非结构化文本 “少有的一本书,用如此清晰的方法如 的 Python程序。你将获得有丰富标注的涵此优美整洁的代码处理如此复杂的问 盖语言学各种数据结构的数据集,而且你将题…这是一本从中可以学习自然语言处 学到分析书面文档内容和结构的主要算法。理的。” 通过大量的例子和联系,《 PYTHON自 -Ken get 然语言处理》将会帮助你: MCW Technologies高级顾问 ●从非结构化文本中提取信息,无论是猜 测主题还是识别“命名实体 Steven bird是墨尔本大学计算机科学 ●分析文本的语言学结构,包括文法和语和软件工程系副教授,宾夕法尼亚大学语言 义分析 学数据联盟高级研究助理。 ●访问流行的语言学数据集,包括Word Ewan Klein是爱丁堡大学信息学院语 Ne和 tree banks 技术教授。 ●整合从语言学到人工智能的多个领域 Edward Loper是宾夕法尼业大学基 的技术 机器学习的自然语言处理方向的刚毕业的 通过使用 Python程序设计语言和自然博上,现在是波上顿的 bBn Technologies 语言工只包(NTLK)的开源函数库,本书的研究员 将帮助你获得自然语言处理的实际经验。如 oreilly.com US s44.99 CAN 3569 Safari e》 Free on line edit I5BN:978-0-596-51649-9 for 45 days with Books online purchase of this book. Details on last page PYTHON自然语言处理 Steven Bird, Ewan Klein d Edward Loper O REILLY 北京·剑桥·法纳姆·科隆·塞瓦斯托波尔·台北·东京 Python自然语言处理 by Steven Bird, Ewan Klein, and Edward Loper Copyright o 2009 Steven Bird, Ewan Klein, and Edward Loper. All rights reserved Printed in the unitcd statcs of america O'Rcilly Mcdia, Inc H /, 1005 Gravenstcin Highway North, Scbastopol, CA 95472 叮以购买O’ Reilly出版的书用」教育、尚业或者销售推广使用。大多数图书都有网络 版(htp:/ my. safaribooksonlinc com)。更多的信息请联系我们的企业机构销售部门:(800) 998-9938orcorporalel_@aoreilly.com.o 编辑: Julie steele 索引编者: Ellen Troutman Zaig 制作编辑: Loranah dimant 封面设计: Karen Montgomery 拷贝编辑: Gcncvicvc d'’ Entremont 内页设计: David futato 校对: Loranah dimant 插画: Robert romano 版本说明: 2009年六月:第一版 Nuts hell handbook, the Nutshell handbook标忐,以及O’ Reilly标忐是O’ Reilly me dia,lnc的注册商标。《 PYTHON自然语言处理》,露脊鲸图案以及相关的商品外观是O’Re lly Media,Ine的商标。 制造商和经销商为了区分他们的产品而声明一些名称为商标。这些名称也出现在本书 中,O’ Reilly media.ine:知道这是商标,使用盖帽或者小的盖帽来印刷。 在本书编写过程中已经采取一切可能的预防措施,所以出版商和作者对书中的错误和遗 漏以及使用此书包含的信息所造成的损害不承担责任。 ISBN:978-0-596-51649-9 [M] 1244726609 目录 PYTHON自然语言处理中文翻译.… 译者的话 PYTHON自然语言处理 3 目录 前 读者 15 强调 16 你将学到什么? 16 篇章结构. 16 为什么仗用 Python? 软件安装需求 18 自然语言工具包(NLTK) .18 教师请看 19 本书使用的约定 20 仗用例子代码 20 Salario联机丛书. 21 如何联系我们. 致谢 22 版 22 第1章语言处理与 Python 1.1语言计算:文木和单词 Python入门 NLIK入门 搜索文本. 计数词汇 .28 1.2近观 Python:将文木当做词链表 30 链表.…… 30 索引列表 .32 变量 字符串 .35 13计算语言:简单的统计. 36 频率分布 ·;4·;·+;·· ∴36 细粒度的选择词 词语搭配和双连词( bigrams)… 计数其他东西 39 14回到 Python:决策与控制 ,41 条件 41 对每个元索进行操作 嵌套代码块. ·······4:;·;;.;···········“· ;.·.····· 43 条件循环. 4 1.5自动理解自然语言 45 词意消歧… 指代消解 自动生成语言 机器翻译 ………………………………47 人机对话系统 文木的含义 NIP的局限性 4 1.6小结 50 1.7深入阅读… ………50 1.8练习. 第2章获得文木语料和词汇资源…. .54 2.1获取文本语料库 .54 古腾堡语料库. ,着···· 网络和聊大文木 布朗语料库 路透社语料片. 59 就职演说语料库. 标注文本语料斥. 在其他语言的语料库 ········ 62 文本语料库的结构 载入你自己的语料斥. 65 22条件频率分布.… 条件和事件 .66 按文体计数词汇 绘制分布图和分布表 .67 使用欢连词生成随机文本 23更多关于 Python:代码重用 70 使用文本编辑器创建程序 .70 函数 70 模块. 2.4词典资源 词汇列表语料库 ···················· ··················· ············ .73 发音的词典 比较词表 78 2.5 WordNet 79 意义与同义词 79 WordNet的层次结构… 81 更多词汇关系 语义相似度 .83 2.6小结 2.7深入阅读 85 2.8 练 85 7 第3章加工原料文本. 3.1从网络和硬盘访问文本 88 电子书. ··········4+·:;·················4 ;.·.····· 处理的HTML 90 处理搜索引擎的结果 读取木地文件. ···“············4::;·····················+:·:············ 从PDF、 MS Word及其他二进制格式中提取文本 93 捕获用户输入… NP的流程.… 93 3.2字符串:最底层的文本处理 94 字符串的基木操作… 95 输出字符串 访问单个字符 访问子字符串. 98 更多的字符串操作. ,着···· 链表与字符串的差异. 3.3使用 Unicode进行文字处理 100 什么是 Unicode? 100 从文件中提取已编码文本… 101 在 Python中使用本地编码 3.4使用止则衣达式检测词组搭配. 104 使用基本的元字符 104 沱围与闭包… 105 3.5正则表达式的有益应用 提取字符块 107 在字符块上做更多事情 查找词干 1·t .109 搜索已分词文本 110 3.6规范化文本.…….…..11 词干提取器 l12 词形归并. 3.7用正则表达式为文本分词 113 词的简单方法. .114 NLTK的正则表达式分词器 ··················· ············ 115 分词的进一步问题 1l6 38分割 116 断句. ···4:·;·+ 116 分词 l17 3.9格式化:从链表到字符串 .120 从链表到字符串 120 字符串与格式… 120 排列 122 将结果写入文件. 文本换行 124 3.10小结 124 3.11深入阅读 125 3.12练习 126 第4章编写结构化程序 31 4.1回到基}.… 131 赋值. ……………………131 等式 133 条件语句 4,2序列 l34 序列类型上的操作 ·····“··“ 135 合并不同类型的序列 136 产生器表达式 138 4.3风格的问题. 138 Python代码风格. 138 过程风格与声明风格. 139 计数器的一些合理用途 141 44函数:结构化编程的基础 142 函数的输入和输出! 142 参数传递…… 143 变量的作用域 参数类型检查 145 功能分解.… 145 文档说明函数 147 4.5更名关于两数 *+ 作为参数的函数 148 累计函数 149 高阶函数 1·t 参数的命名 150 4.6程序开发… 152 Python模块的结构 多模块程序 误差源头 154 调试技术 155 防御性编程. ···················· ··················· ············ 156 4.7算法设计. .157 157 权衡空间与时间. .159 动态规划 161 48 Python厍的样例 ……………163 Matplotlib绘图工具 163 Netw orkⅩ l65 CSV 166 其他 Python库 167 49小结 167 4.10深入阅读… 168 4.11练习 第5章分类和标注词汇 5.1使用词性标注器.. b申··当··自·c·“ 172 52标注语料库… .……………………173 表示已标注的标识符 173 读取凵标注的语料库. 174 简化的词性标记集. 175 名词 ·····“··“ 176 动词 形容词和副词. 未简化的标记 ∴.178 探索已标注的语料库. 179 53使用 Python字典映射词及其属性.…… l81 索引链表VS宇典… 81 Python字典 l82 定义字典 默认宁典 递增地更新字典 185 复杂的键和值 187 颠倒字典. 187 54自动标注… 默认标注器 189 正则表达式标注器 189 查询标注器 190 评估.… 1·t 55N-gram标注 元标注( Unigram Tagging)… 分离训练和测试数据 193 般的N-gram的标注 组合标注器. 194 标注生词 195 存储标注器.… ···················· ··················· ············ 195 性能限制 .196 跨句子边界标注 197 56基于转换的标注 ············ .197 57如何确定一个词的分类 199 形态学线索 .199 句法线索 199 语义线索 200 新词 200 词性标记集中的形态学 200 58小结 201

...展开详情
试读 127P python 自然语言处理中文版
立即下载 身份认证VIP会员低至7折
一个资源只可评论一次,评论内容不能少于5个字
您会向同学/朋友/同事推荐我们的CSDN下载吗?
谢谢参与!您的真实评价是我们改进的动力~
  • 签到达人

关注 私信
上传资源赚钱or赚积分
最新推荐
python 自然语言处理中文版 8积分/C币 立即下载
1/127
python 自然语言处理中文版第1页
python 自然语言处理中文版第2页
python 自然语言处理中文版第3页
python 自然语言处理中文版第4页
python 自然语言处理中文版第5页
python 自然语言处理中文版第6页
python 自然语言处理中文版第7页
python 自然语言处理中文版第8页
python 自然语言处理中文版第9页
python 自然语言处理中文版第10页
python 自然语言处理中文版第11页
python 自然语言处理中文版第12页
python 自然语言处理中文版第13页
python 自然语言处理中文版第14页
python 自然语言处理中文版第15页
python 自然语言处理中文版第16页
python 自然语言处理中文版第17页
python 自然语言处理中文版第18页
python 自然语言处理中文版第19页
python 自然语言处理中文版第20页

试读结束, 可继续阅读

8积分/C币 立即下载