统计自然语言处理基础(中文版)

所需积分/C币:50 2015-04-23 16:14:32 25.75MB PDF

内容简介 ······ 《统计自然语言处理基础:国外计算机科学教材系列》是一本全面系统地介绍统计自然语言处理技术的专著,被国内外许多所著名大学选为计算语言学相关课程的教材。《统计自然语言处理基础:国外计算机科学教材系列》涵盖的内容十分广泛,分为四个部分,共16章,包括了构建自然语言处理软件工具将用到的几乎所有理论和算法。全书的论述过程由浅入深,从数学基础到精确的理论算法,从简单的词法分析到复杂的语法分析,适合不同水平的读者群的需求。同时,《统计自然语言处理基础:国外计算机科学教材系列》将理论与实践紧密联系在一起,在介绍理论知识的基础上给出了自然语言处理技术的高层应用(如信息检索等)
国外计算机科学教材系列 统计自然语言处理基础 Foundations of Statistical Natural Language Processing [t Christopher D. Manning [德] Hinrich schutze 著 苑春法李庆中 王昀李伟曹德芳等译 電子工業出版社 Publishing House of Electronics Industry 北京·BEIJⅠNG 内容简介 近年来,自然语言处理中的统计学方法已经逐渐成为主流。本书是一本全面系统地介绍统计自然珸言处理 技术的专著,被国内外许多所著名大学选为计算语言学相关课程的教材。本书涵盖的内容十分广泛,分为四个 部分,共16章,包括了构建自然语言处理软件工具将用到的几乎所有理论和算法。全书的论述过程由浅人深, 从数学基础到精确的理论算法,从简单的词法分析到复杂的语法分析,适合不同水平的读者群的需求。同时, 本书将理论与实践紧密联系在一起,在介绍理论知识的基础上给岀了自然语言处理技术的高层应用(如信息检 索等)。在本书的配套网站上提供了许多相关资源和工具,便于读者结合书中习题,在实践中获得提高 本书不仅适合作为自然语言处理方向的研究生的教材,也非常适合作为自然语言处理相关领城的研究人员 和技术人员的参考资料。 Filth printing, 2002 o 1999 Massachusetts Institute of Technology Second printing with corrections, 200O All rights reserved. No part of this book may be reproduced in any form by any electronic or mechanical means (including photocopying, recording, or information storage and retrieval )without permission in writing from the publisher Chinese Simplified language edition published by Publishing House of Electronics Industry, Copyright 2005 本书中文简体版专有出版权由 MIT Press授予电子工业出版社,末经许可,不得以任何方式复制或抄袭本书的 任何部分。 版权贸易合同登记号图字:01-2002-6457 图书在版编目(G|P)数据 统计自然语言处理基础/(美)曼宁( Manning,C.D.)等著;苑春法等译 北京:电子工业出版社,2005.1 (国外计算机科学教材系列) 书名原文: Foundations of Statistical Natural Language Processing ISBN7-5053_9921-7 1.统.Ⅱ.①曼.②苑..Ⅲ.统计方法-应用-自然语言处理一-教材IV.TP391 中国版本图书馆CP数据核字(204)第129789号 责任编辑:马岚 特约编辑:马爱文 印刷:北京兴华印刷厂 出版发行:电子上业出版社 北京市海淀区万寿路173信箱邮编:100036 经销:各地新华书店 廾本:787×0921/16印张:27字数:691千字 印次:2005年1月第1次印刷 定价:5500元 凡购买电子工业出版社的图书,如有缺损问题,请向购买书店调换;若书店售缺,请与本社发行部联系。联系 电话:(010)6827907质量投诉请发邮件至@phei.com.cn,,盗版侵权举报请发邮件至l@pliei.comil.cn。 出版说明 21纪初的5至10年是我国国民经济和社会发展的重要时期,也是信息产业快速发展的关键 时期。在我国加人WTO后的今天,培养一支适应国际化竞争的一流T人才队伍是我国高等教育的 重要任务之一。信息科学和技术方面人才的优劣与多寡,是我国面对国际竞争时成败的关键因素 当前,正值我国高等教育特别是信息科学领域的教育调整、变革的重大时期,为使我国教育体 制与国际化接轨,有条件的高等院校正在为某些信息学科和技术课程使用国外优秀教材和优秀原版 教材,以使我国在计算机教学上尽快赶上国际先进水平。 电子工业出版社秉承多年来引进国外优秀图书的经验,翻译出版了“国外计算机科学教材系 列”丛书,这套教材覆盖学科范围广、领域宽、层次多,既有本科专业课程教材,也有研究生课程 教材,以适应不同院系、不同专业、不同层次的师生对教材的需求,广大师生可自由选择和自由组 合使用。这些教材涉及的学科方向包括网络与通信、操作系统、计算机组织与结构、算法与数据结 构、数据库与信息处理、编程语言、图形图像与多媒体、软件工程等。同时,我们也适当引进了 些优秀英文原版教材,本着翻译版本和英文原版并重的原则,对重点图书既提供英文原版又提供相 应的翻译版本 在图书选题上,我们大都选择国外著名出版公司出版的高校教材,如 Pearson Education培生教 育岀版集团、麦格劳-希尔教育出版集团、麻省理工学院出版社、剑桥大学出版社等。撰写教材的 许多作者都是蜚声世界的教授、学者,如道格拉斯·科默( Douglas e. Comer)、威廉·斯托林斯( William Stallings)、哈维·戴特尔( Harvey M. Deitel)、尤利斯·布莱克( Uyless black)等 为确保教材的选题质量和翻译质量,我们约请了清华大学、北京大学、北京航空航天大学、复 旦大学、上海交通大学、南京大学、浙江大学、哈尔滨工业大学、华中科技大学、西安交通大学、 国防科学技术大学、解放军理工大学等著名高校的教授和骨干教师参与了本系列教材的选题、翻译 和审校工作。他们中既有讲授同类教材的骨干教师、博士,也有积累了几十年教学经验的老教授和 博士生导师。 在该系列教材的选题、翻译和编辑加工过程中,为提高教材质量,我们做了大量细致的工作, 包括对所选教材进行全面论证;选择编辑时力求达到专业对口;对排版、印制质量进行严格把关 对于英文教材中出现的错误,我们通过与作者联络和网上下载勘误表等方式,逐一进行了修订 此外,我们还将与国外著名出版公司合作,提供一些教材的教学支持资料,希望能为授课老师 提供帮助。今后,我们将继续加强与各高校教师的密切联系,为广大师生引进更多的国外优秀教材 和参考书,为我国计算机科学教学体系与国际教学体系的接轨做出努力。 电子工业出版社 教材出版委员会 主任杨芙清北京大学教授 中国科学院院士 北京大学信息与工程学部主任 北京大学软件工程研究所所长 委员王珊中国人民大学信息学院院长、教授 胡道元清华大学计算机科学与技术系教授 国际信息处理联合会通信系统中国代表 钟玉琢清华大学计算机科学与技术系教授 中国计算机学会多媒体专业委员会主任 谢希仁中国人民解放军理工大学教授 全军网络技术研究中心主任、博士生导师 尤晋元上海交通大学计算机科学与工程系教授 上海分布计算技术中心主任 施伯乐上海国际数据库研究中心主任、复旦大学教授 中国计算机学会常务理事、上海市计算机学会理事长 邹鹏国防科学技术大学计算机学院教授、博士生导师 教育部计算机基础课程教学指导委员会副主任委员 张昆藏青岛大学信息工程学院教授 译者序 近年来,统计自然语言处理(或称统计语言学)异军突起,现已成为自然语言处理研究中的主 流。在统计自然语言处理学科成长的过程中,有四个因素起着推动作用 由于计算机硬件的发展,使大容量的存储和高速计算已经成为可能 2.由于计算机网络的普及,大量电子文本在网络上的涌现,使语料的获取不再困难; 3.机器学习学科本身的发展日趋成熟,并在许多领域得到了广泛应用,因此它在自然语言处 理中的应用已经成为很自然的事情 4.由于自然语言本身的复杂性,即使是语言学家也很难用纯粹的人工规则(或规律)来刻画 它,这就迫使我们从实际语料中学习语言规律。 统计自然语言处理的研究涉及了传统自然语言处理的各个方面,例如语言分析、机器翻译、信 息检索、文本分类等。可以毫不夸张地说,统计学习方法的引入大大促进了这些领域的研究和发展。 目前国内几乎所有著名大学的计算机系都在从事这方面的研究(或开设了类似专业)。但是,系统 地讲授或阅读这方面的专著并未得到学术界同行们的重视。在一次学术会议上,某校一位教授深有 感触地说,“研究生在校学习期间一定要认真读一本专著。”我们对这位教授的发言深有同感。研究 生们一定要看最新的参考文献,包括学术会议文章和杂志文章,但只看这些资料,不看(或学习) 一两本专著,所学知识可能是支离破碎的,也未免有急功近利之嫌,尤其是对一些新兴学科更是如 此。在这样的情况下的研究往往底气不足,不容易出一些像样的成果。在学术交流中,往往大家没 有共同的语言,甚至闹出笑话 本书是本系统介绍统计自然语言处理(或统计语言学)的专著,在国外已经被许多大学用来 作为教材。在国内,大家已经开始认识到了这本书的价值,不少大学将本书的英文版作为研究生教 材。将这本专著翻译并介绍给国内广大从事自然语言处理研究的读者,具有重要的现实意义。本书 覆盖了统计自然语言处理的各个领域中最重要的主题,内容详尽,层次清楚。无论是对于从事信息 检索、机器翻译、文本分类和语言分析等方面的研究的人员,还是对于计算语言学专业的本科生和 研究生,本书都有着非常重要的参考价值。 本书由清华大学计算机系的苑春法组织翻译。苑春法长期从事统计自然语言处理相关领域的 研究和教学工作,对该领域里的问题有一定深度的了解。参译者也都在该领域里具有一定的研究 基础和经历。夲书第2章和第13章~第16章由李庆中初译,第1章和第5章~第8章由王昀初译, 第3章和第9章~第12章由李伟初译,前言部分和第4章由曹德芳初译。最后,全书由苑春法负责 统一修改、审阅并定稿。在翻译本书的过程中,大家力求忠实于原著,在此基础上尽量把概念表达 准确、清晰。黄昌宁教授对于本书的翻译工作给予了指导,闻扬、周剑辉、徐薇、翁耀、钱冬蕾和 林静等人也做了部分内容的翻译和辅助性工作,在此一并表示感谢。 本书采用英文版第5次印刷的版本进行翻译,已经对照作者在网站上提供的勘误表对相关内容 进行了更正或注解。由于译者水平有限,翻译中难免会出现一些不妥之处,希望广大读者批评指正。 前言 现在是一个在线信息、电子通信和互联网流行的年代,一本详细介绍统计自然语言处理的 教材的需求程度可能并非那么迫切。但是,我们应该看到,商业部门、政府机构以及个人正面 对着越来越多与工作、生活密切相关的文本信息,而如何从这些大量文本中挖掘潜在的有使用 价值的信息,仍然是一个难题。 与此同时,由于大规模的文本语料的可获得性,人们已经改变了语言学和认知科学中研究 自然语言的方法理论。以前一些无足轻重的研究领域,以及一些支离破碎,显得很无趣或者难 以觉察的语言现象,都逐渐成为当前研究的热点。然而,在20世纪90年代早期,定量方法还 没有引起语言学研究者的足够关注,在当时的一本数理语言学权威教材中甚至根本没有提及 这种方法,但现在它已经被看做语言学理论研究中极为重要的手段之一。 本书希望在理论和实践之间以及直觉和严密之间尽可能地达到一种平衡。具体地讲,就 是我们以数学和语言学作为基础来阐述各种理论方法,同时为了避免材料过于枯燥,努力做到 理论方法和实际问题的紧密结合。为了给读者奠定必要的基础知识我们首先介绍概率论、统 计学信息论和语言学方面的重要概念,使读者能够正确理解并增加这些领域的知识;然后介 绍统计自然语言处理中存在的问题,比如标注和消歧问题还将选择一些重要的研究问题进行 讲述,从而使读者能够进一步理解语言学研究中存在的特殊问题,为更加深人的研究工作提供 必要基础。 当初我们设计本书的基本结构时,对于应该包含什么素材以及如何组织这些素材都进行 了细致的考虑。其中一个重要的标准就是尽量不要使本书篇幅过长(我们没有完全成功做到 这一点)。另外,本书并不打算全面地介绍概率论、信息论、统计学和统计自然语言处理中涉及 的其他领域的数学知识。但是,我们尽力做到使本书覆盖统计自然语言处理各个领域中最重 要的主题。对于那些对数学基础有特殊兴趣的读者来说,需要参考本书之外的其他资料来进 行更加深入的研究 我们也尽量避免使用均匀的笔墨来描述统计自然语言处理以及用到的数学工具和理论。 虽然一个内在一致的数学理论很重要,但实际上这种理论在这个领域中并不存在,这就导致了 在一些地方使用了折中的混合理论。但是,我们可以肯定地说,在自然语言处理中的某种方法 也许是对的,但就此断定该方法优于其他方法还为时过早。 本书没有包含语音识别的内容也许会让读者有些出乎预料。这样安排主要是因为我们考 虑到,对于自然语言处理来说语音识别是作为一个相对独立的领域从电气工程专业分离出来 的,拥有自己的会议和期刊以及自己的相关研究。然而,最近几年随着研究领域的交叉和互相 渗透统计方法在语音识别中的成功应用激发了自然语言处理中应用统计方法的热潮,本书介 绍的许多技术方法都是首先在语音识别中应用,然后慢慢扩展到自然语言处理领域的。特别 是语音识别中语言模型的有关工作和本书中语言模型的讨论,在很多方面有共同之处。甚至 可以这么说,语音识别是自然语言处理领域中当前最为成功而且应用最为广泛的。但是,有些 合理的理由把语音识别排除在本书内容之外:已经有一些比较好的关于语音的教材,而且语音 也不是我们专门研究或者特别擅长的领域,况且即使本书不包括语音的内容也显得有些篇幅 过长。另外,虽然两者内容有所交叉,但是差别也很明显:语音识别的教材需要包含信号分析 和声学模型方面的内容,对于一个具有计算机科学或者自然语言处理背景的人来说,这些内容 并非他们感兴趣或者可以理解的;反之,许多研究语音识别的人可能对我们提到的自然语言处 理的主题并不感兴趣。 和统计自然语言处理稍微有些关联的其他领域包括机器学习、文本分类、信息检索和认知 科学。在所有这些领域中,都可以找到一些本书中没有包含但是却非常适合本书的例子。由 于篇幅所限,我们没有包含一些重要的概念、方法和程序,比如最小描述长度、回溯算法、Roc chio算法,以及和语言处理的频率效应相关的心理学和认知科学文献。 如何严格区分统计和非统计自然语言处理是一件很困难的事情。开始写这本书的时候, 我们相信,两者之间有一条很明显的分界线,但是最近这条线变得越来越模糊了。越来越多的 非统计学研究者们采用了语料库证据和一体化的定量方法。在统计自然语言处理中,大家逐 渐接受了这样一种观点:当处理某种语言现象时,可以使用和该现象相关的所有可获得的科学 知识来构造一个概率模型或者其他模型,而不是简单地采用所谓忽视这类已知知识的方法。 许多自然语言处理的研究者们都对单独编写一本统计方法书籍是否必要提出了质疑。在 本书中,最后一件工作就是要改变认为语言学理论与符号计算工作和统计自然语言处理无关 的错误看法。然而我们相信,由于需要涉及这么复杂的基础材料,所以很难写出一本篇幅可 以控制,让读者满意并且详细介绍所有自然语言处理知识的教材。此外,还存在许多其他很好 的文章,如果对统计和非统计的方法之间需要更多的平衡我们推荐阅读这些补充资料。 最后要说一下本书的书名“ Foundations of Statistical Natural Language Processing”那些从标 准统计学了解统计方法的定义的人可能会对书名有些疑问。我们定义的统计自然语言处理由 所有的自动语言处理的定量方法组成,包括概率模型、信息论和线性代数。概率论是统计推理 的基础,本书中把术语“统计”的基本含义稍微扩大了一点,即包含处理数据的所有定量方法 (一个可以在几乎任何词典中确认的定义)。统计自然语言处理在过去20年中是使用得最广 泛的一个术语,用它来代表自然语言处理中非符号化和非逻辑的工作,尽管有潜在的可能引起 模棱两可的理解,但我们还是决定继续使用这个术语。 致谢 在撰写本书的这3年中,许多同事和朋友都为早期的草稿做过注释或者提出过建议。我 们想向他们表达感激之情特别是要感谢: Einat Amitay, Chris brew, Thorsten Brants, Andreas Eisele, Michael Emst, Oren Etzioni, Marc Friedman, Eric Gaussier, Eli Hagen, Marti Hearst, Nitin Indurkhya, Michael Inman, Mark Johnson, Rosie Jones, Tom Kalt, Andy Kehler, Julian Kupiec Michael Littman, Aman Maghbouleh, Amir Najmi, Kris Popat, Fred Popowich, Geoffrey Sampson, Ha dar shemtov, Scott stoness, David Yarowsky和 Jakub Zavrel另外,我们要特别感谢Mm出版社的 Bob Carpenter, Eugene Charmiak, Raymond Mooney以及一位不知姓名的审稿者,他们对内容和说 明都提出了许多改进建议,本书由于他们的建议在整体质量和可用性方面都有了很大的改进。 我们希望即使没有特意致谢,当他们注意到书中有些想法来自于他们的建议后,也会感受到我 们的感激之情。 我们也同样要感谢: francine chen, Kris halvorsen和 Xerox parc,感谢他们对本书第二作者 的支持;感谢 Jane manning对第一作者的爱和支持,感谢 robert Dale和 Dikran Karagueuzian对这 本书的设计建议,感谢 Amy brand作为编辑对我们的经常性的帮助和协助。 反馈 我们尽力使本书做到通俗易懂、内容广泛且正确,但毫无疑问,在许多地方我们还可以做 得更好。我们非常欢迎读者发Emai提出反馈意见 manning@ acm. org FA hinrich hotmail com 总之,我们希望本书可以让有潜力的学生获益并得到启发。本书收集了统计自然语言处 理领域的许多方法,并且用一种容易理解的方式呈现出来。希望本书能够对这个领域的持续 快速发展起到一定的作用。 Christopher D. Ma annii Hinrich schutz 1999年2月

...展开详情

评论 下载该资源后可以进行评论 12

qq_29086455 有点老了,还以为第二版
2016-09-08
回复
senketh 很好的书,谢谢分享
2016-06-28
回复
加伦 作者很有名气,听的公开课就是他讲的
2016-04-14
回复
KrisRoofe 不错的资源
2016-04-09
回复
Cheng_huiquan_72 是好书,必须点个赞。
2016-04-01
回复
img
lengwuqin

关注 私信 TA的资源

上传资源赚积分,得勋章
最新资源