自然语言处理综论.pdf

所需积分/C币:19 2014-04-18 15:43:58 40.43MB PDF

[自然语言处理综论].Daniel.Jurafsky等.扫描版
国外计算机科学教材系列 自然语言处理综论 Speech and Language Processing An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition Daniel Jurafsky [炭丶 James h. Martin 著 冯志伟孙乐译 電子工業出版社 Publishing House of Electronics Industry 北京· BEWJING 内容简介 本书是一本全面系统地讲述计算机自然语言处理的优秀教材。本书英文版出版之后好评如潮,国外许多著 名大学纷纷把本书选为自然语言处理和计算语言学课程的主要教材,该书被誉为该领域教材的“黄金标准”。本 书包含的内容十分丰富,分为四个部分,共21章,深入细致地探讨了计箅机处理自然语言的词汇、句法、语 义、语用等各个方面的问题,介绍了自然语言处理的各种现代技术。从层次的角度看,本书的论述是按照自然 语言的不同层面逐步展开的,首先论述单词的自动形态分析,接着论述自动句法分析,然后论述各种语言单位 的自动语义分析,最后论述连贯文本的自动分析对话与会话的智能代理以及自然语言生成。从技术的角度看, 本书介绍了正则表达式、有限状态自动机、文本-语音转换、发音与拼写的概率模型、词类自动标注、N元语 法、隐马尔可夫模型、上下文无关语法、特征与合一、词汇化剖析与概率剖析、一阶谓词演算、词义排歧、修 辞结构理论、机器翻译等非常广泛的内容。本书具有“覆盖全面、注重实用、强调评测、语料为本”四大特色。 在本书的配套网站上,还提供了相关的资源和工具,便于读者在实践中进一步提高。 本书不仅可以作为高等学校自然语言处理和计箅语言学等课程的本科生和研究生教材,而且也是从事自然 语言处理相关领域的研究人员和技术人员的必备参考。 Simplified Chinese edition Copyright o 2005 by PEARSON EDUCATION ASIA LIMITED and Publishing House of Elec- tronics Industry peech and Language Processing: Aa Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, ISBN:0130950696 by Daniel Jurafsky. James H. Martin, Copyright 2000 All Rights Reserved Published by arrangement with the original publisher, Pearson Education, Inc, publishing as Prentice Hall This edition is authorized for sale only in the People's Republic of China(excluding the Special Administrative Region of Hong Kong and Macau) 本书中文简体字翻译版由电子工业出版社和 Pearson education培生教育出版亚洲有限公司合作出版。未经出版 者预先书面许可,不得以任何方式复制或抄袭本书的任何部分。 本书封面贴有 Pearson education培生教育出版集团激光防伪标签,无标签者不得销售。 版权贸易合同登记号图字:01-2003-0357 图书在版编目(CP)数据 自然语言处理综论/〔美)朱夫斯凯( Jurafsky,D.)等著;冯志伟,孙乐译 北京:电子工业出版社,2005 国外计算机科学教材系列) 书名原文: Speech and language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition ISBN7-121-00776-2 I.自.Ⅱ.①朱…②冯.③孙,Ⅲ自然语言处理-高等学校-教材Ⅳ.TP39I 中国版本图书馆CIP数据核字(2005)第047102号 责任编辑:马岚 特约编辑:马爱文 印刷:北京市天竺颖华印刷厂 出版发行:电子工业出版社 北京市海淀区万寿路173信箱邮编:100036 经销:各地新华书店 开本:787×10921/16印张:3825字数:1079千字 印次:2005年6月第1次印刷 定价:78.00元 凡购买电子工业出版社的图书,如有缺损问题,请向购买书店调换;若书店售缺,请与本社发行部联系。联系 电话:(010)68279077质量投诉请发邮件至ts@Pphei.com.cn,盗版侵权举报请发邮件至dbgq@Pphei.com.cn 出版说明 21世纪初的5至10年是我国国民经济和社会发展的重要时期,也是信息产业快速发展的关键 时期。在我国加入WT0后的今天,培养一支适应国际化竞争的一流T人才队伍是我国高等教育的 重要任务之一。信息科学和技术方面人才的优劣与多寡,是我国面对国际竞争时成败的关键因素。 当前,正值我国高等教育特别是信息科学领域的教育调整、变革的重大时期,为使我国教育体 制与国际化接轨,有条件的高等院校正在为某些信息学科和技术课程使用国外优秀教材和优秀原版 教材,以使我国在计算机教学上尽快赶上国际先进水平。 电子工业出版社秉承多年来引进国外优秀图书的经验,翻译出版了“国外计算机科学教材系 列”丛书,这套教材覆盖学科范围广、领域宽、层次多,既有本科专业课程教材,也有研究生课程 教材,以适应不同院系、不同专业、不同层次的师生对教材的需求,广大师生可自由选择和自由组 合使用。这些教材涉及的学科方向包括网络与通信、操作系统、计算机组织与结构、箅法与数据结 构、数据库与信息处理、编程语言、图形图像与多媒体、软件工程等。同时,我们也适当引进了 些优秀英文原版教材,本着翻译版本和英文原版并重的原则,对重点图书既提供英文原版又提供相 应的翻译版本。 在图书选题上,我们大都选择国外著名出版公司出版的高校教材,如 Pearson Education培生教 育出版集团、麦格劳-希尔教育出版集团、麻省理工学院出版社、剑桥大学出版社等。撰写教材的 许多作者都是蜚声世界的教授、学者,如道格拉斯·科默( Douglas e. Comer)、威廉·斯托林斯 William Stallings)、哈维·戴特尔( Harvey M. Deitel)、尤利斯·布莱克( Uyless Black)等。 为确保教材的选题质量和翻译质量,我们约请了清华大学、北京大学、北京航空航天大学、复 旦大学、上海交通大学、南京大学、浙江大学、哈尔滨工业大学、华中科技大学、西安交通大学、 国防科学技术大学、解放军理工大学等著名高校的教授和骨干教师参与了本系列教材的选题、翻译 和审校工作。他们中既有讲授同类教材的骨干教师、博士,也有积累了几十年教学经验的老教授和 博士生导师 在该系列教材的选题、翻译和编辑加工过程中,为提高教材质量,我们做了大量细致的工作, 包括对所选教材进行全面论证;选择编辑时力求达到专业对口;对排版、印制质量进行严格把关。 对于英文教材中出现的错误,我们通过与作者联络和网上下载勘误表等方式,逐一进行了修订。 此外,我们还将与国外著名出版公司合作,提供—一些教材的教学支持资料,希望能为授课老师 提供帮助。今后,我们将继续加强与各高校教师的密切联系,为广大师生引进更多的国外优秀教材 和参考书,为我国计算机科学教学体系与国际教学体系的接轨做出努力。 电子工业出版社 3 教材出版委员会 主任杨芙清北京大学教授 中国科学院院士 北京大学信息与工程学部主任 北京大学软件工程研究所所长 委员王珊中国人民大学信息学院院长、教授 胡道元清华大学计算机科学与技术系教授 国际信息处理联合会通信系统中国代表 钟玉琢清华大学计算机科学与技术系教授 中国计算机学会多媒体专业委员会主任 谢希仁中国人民解放军理工大学教授 全军网络技术研究中心主任、博士生导师 尤晋元上海交通大学计算机科学与工程系教授 上海分布计算技术中心主任 施伯乐上海国际数据库研究中心主任、复旦大学教授 中国计算机学会常务理事、上海市计算机学会理事长 邹鹏国防科学技术大学计算机学院教授、博士生导师 教育部计算机基础课程教学指导委员会副主任委员 张昆藏青岛大学信息工程学院教授 中文版序言 The goal of a textbook author is the same as the goal of any teacher: passing on our love for our field to a new generation of students, encouraging them to do innovative and creative new work, and helping them to advance the state of human knowledge For a textbook in the interdisciplinary area of speech and language processing, there are the additional goals of enabling students from differing backgrounds(computer science, linguistics, electrical engineering) to acquire the know ledge and tools of the new interdisciplinary field, and to develop an appreciation for the beauty and complexity and variety of human language We therefore feel extremely lucky that Feng Zhiwei Laoshi, aided by Dr Sun Le, undertook the arduous job of translating this book. Feng Laoshi is the perfect scholar for the job of translating such a book, because of his long experience in our field, his wide breadth of research interests throughout computational linguistics in general and Chinese computational linguistics specifically, his remarkable familiarity with the state of our field across the world, from China to France, from Korea to Germany, and of course his expertise on translation as a research area! We are also very excited that this translation into Chinese is the first transla tion of our book out of English. China s long history of the study of language is of course well known, and in this new century the young scientists of China are already playing a key role in the important scientific advances of our field. We look forward to even more amazing contributions from China and hope that our small book, now with the help of Feng Laoshi and Dr Sun, can provide a small aide in the great role that Chinese scientists are playing on the world scientific stage Daniel Jurafsky and James H, Martin Palo Alto, California, and Boulder, Colorado 译文 教材的作者与所有教师有着相同的目标,即把我们对于本专业的热爱传达给新一代的学生,鼓 励他们进行创新性研究和探索,帮助他们把人类知识进一步向前推进。由于语音和语言的计算机 处理属于交叉学科的领域,所以这本关于该交又学科领域的教材还有其特定的目标。这些特定的目 标就是使来自不同知识背景(计算机科学、语言学和电子工程)的学生掌握这门新的交叉学科的基 本知识和工具,并在学习过程中循序渐进地感受人类语言的美妙性、复杂性和多样性。因此,当了 解到冯志伟老师在孙乐博士的协助下承担了把这本教材翻译成中文的艰辛工作时,我们感到无比荣 幸。我们认为,冯志伟老师是翻译这本教材的最理想的学者,因为他在这个专业领域具有多年的经 验:他的研究兴趣涉及面广,既包括普通的计算语言学研究,也包括具体的汉语计算语言学的研 究;他对于这个学科在全世界的情况了如指掌,从中国到法国,从韩国到德国,他都亲身参与了这 些国家的计算语言学研究工作;并且,翻译一直是冯老师长期从事的一个研究领域,他当然也是精 研通达的翻译内行!这个中译本是英文原著的第一个外文译本,它的出版使我们非常激动和振奋。 众所周知,中国在语言研究方面有着悠久的历史,在21世纪,中国年轻一代的科学工作者在这个 领域的一些重要科学进展方面已经起着关键性的作用我们期待着中国在这个领域里进一步做出更 加出色的贡献。我们也希望,在中国科学工作者为全世界的科学进步事业所发挥的巨大作用中,由 于冯老师和孙乐博士的帮助,拙著也能够为此尽我们的绵薄之力! 译者序 采用计算机技术来研究和处理自然语言是20世纪40年代末期和20世纪50年代才开始的,50 多年来,这项研究取得了长足的进展,成为了计算机科学中一门重要的新兴学科自然语言处理 ( Natural Language Processing,简称NLP)b 我们认为,计算机对自然语言的研究和处理,一般应经过以下4方面的过程: 把需要研究的问题在语言学上加以形式化,使之能以一定的数学形式,严密而规整地表示 出来 2.把这种严密而规整的数学形式表示为算法,使之在计算上形式化; 3.根据箅法编写计算机程序,使之在计算机上加以实现; 4.对于所建立的自然语言处理系统进行评测,使之不断地改进质量和性能,以满足用户的要求。 美国计算机科学家 Bill manaris在 Advanced in Computers(《计算机进展》)第47卷的 Natural language processing: A human-computer interaction perspective(《从人机交互的角度看自然语言处理》 文中曾经给自然语言处理提出了如下的定义 自然语言处理可以定义为研究在人与人交际中以及在人与计算机交际中的语言问题的一门学 科。自然语言处理要研制表示语言能力( linguistic competence)和语言应用( linguistic performance) 的模型,建立讦算框架来实现这样的语言模型,提岀相应的方法来不断地完善这样的语言模型,根 据这样的语言模型设计各种实用系统,并探讨这些实用系统的评测技术。 Bill manaris关于自然语言处理的这个定义,比较全面地表达了计算机对自然语言的研究和处 理的上述四个方面的过程。我们认同这样的定义。 根据这样的定义,我们认为,建立自然语言处理模型需要如下不同平面的知识 .声学和韵律学的知识:描述语言的节奏、语调和声调的规律,说明语音怎样形成音位。 2音位学的知识:描述音位的结合规律,说明音位怎样形成语素。 3.形态学的知识;描述语素的结合规律,说明语素怎样形成单词。 4.词汇学的知识:描述词汇系统的规律,说明单词本身固有的语义特性和语法特性。 5.句法学的知识:描述单词(或词组)之间的结构规则,说明单词(或词组)怎样形成句子。 6语义学的知识:描述句子中各个成分之间的语义关系,这样的语义关系是与情景无关的,说 明怎样从构成句子的各个成分推导出整个句子的语义 7话语分析的知识:描述句子与句子之间的结构规律,说明怎样由句子形成话语或对话。 8.语用学的知识:描述与情景有关的情景语义,说明怎样推导出句子具有的与周围话语有关 的各种涵义。 9外界世界的常识性知识:描述关于语言使用者和语言使用环境的一般性常识,例如,语言 使用者的信念和目的,说明怎样推导出这样的信念和目的内在的结构。 当然,关于自然语言处理所涉及的知识平面还有不同的看法,不过,一般而言,大多数的自然 语言处理研究人员都认为,这些语言学知识至少可以分为词汇学知识、句法学知识、语义学知识和 语用学知识等平面。每一个平面传达信息的方式各不相同。例如,词汇学平面可能涉及具体的单 词的构成成分(如语素)以及它们的屈折变化形式的知识;句法学平面可能涉及在具体的语言中 单词或词组怎样结合成句子的知识;语义学平面可能涉及怎样给具体的单词或句子指派意义的知 识;语用学平面可能涉及在对话中话语焦点的转移以及在给定的上下文中怎样解释句子的涵义的 知识。 下面我们具体说明在自然语言处理中这些知识平面的一般情况。如果对计算机发一个口头的指 令: Delete file x(删除文件X),为了通过自然语言处理系统让计算机理解这个指令的涵义,并且 执行这个指令,一般来说需要经过如图0.所示的处理过程。 话语 Delete file x 音位学平面 音位 diletwfailleks 形态学平面 语素 "delete""file""x 词汇学平面 单词 ("delete"VERB)("file"NOUN)(xID) 句法学平面 s 句法结构 「vERB nOUN delete file 语义学平面 语义解释 delete-file (x") 语用学平面 语用解释 a rm+ix 图0.1自然语言处理系统中的知识平面 从图中可以看出,自然语言处理系统首先把指令 Delete file x在音位学平面转化成音位系列 dilet'#;#tks,然后在形态学平面把这个音位系列转化为语素系列 delete,fle和x,接着在词汇学 平面把这个语素系列转化为单词系列并标注相应的词性:(" delete"VERB)("file"NOUN)("x"ID),在 句法学平面进行句法分析,得到这个单词系列的句法结构,用树形图表示,在语义学平面得到这个 句法结构的语义解释 delete-file("x"),在语用学平面得到这个指令的语用解释mix,最后让计算 机执行这个指令。 这个例子来自美国自然语言处理学者 Wilensky为UNX设计的一个语音理解界面,叫做UNIX Consultant。这个语音理解界面使用了上述的第1个至第6个平面的知识,得到口头指令 Delete file x

...展开详情

评论 下载该资源后可以进行评论 12

ouyangwudi123 很有用的资源
2019-04-19
回复
liuyeben 很不错谢谢分享
2017-01-03
回复
GYGYGYGYGYGY 虽然是影印版但是有目录,非常好用,太感谢了
2016-12-02
回复
blueskyshy 很不错的学习资料,谢谢楼主分享
2016-05-10
回复
yizhengucla 多谢楼主! 好书
2016-01-21
回复
img
wodaoai

关注 私信 TA的资源

上传资源赚积分,得勋章
最新资源