没有合适的资源?快使用搜索试试~ 我知道了~
【R085】自然语言处理导论【张奇&桂韬&黄萱菁】.pdf
需积分: 5 65 下载量 56 浏览量
2023-05-07
11:30:02
上传
评论 4
收藏 35.01MB PDF 举报
温馨提示
试读
603页
【R085】自然语言处理导论【张奇&桂韬&黄萱菁】.pdf
资源推荐
资源详情
资源评论
自然语言处理导论
张奇 桂韬 黄萱菁
网络预览版
2023 年 4 月 20 日
·
序
很高兴为张奇教授、挂韬研究员、黄萱菁教授等的“自然语言处理导论”一书写序。
当前由于 ChatGPT 的面世并迅速风靡全球,让 AI 又一次进入寻常百姓家。而 ChatGPT 的一
个重要支持正是自然语言处理中的大规模语言模型 GPT。
所谓“自然语言”指的就是人们日常使用的语言,如中文、英文等等
¬
。形象他说,自然语言
处理研究的就是如何让计算机能够像人类一样,具有使用自然语言的能力,能于人类用自然语言
进行交流。
由于自然语言是人类最方便和重要的交流方式,是描述知识、传承文化的重要工具,因此对
它的研究几乎从计算机一出现就开始了。这一领域也一直是人工智能研究的重要分支。自然语言
处理发展的历史很长,涉及的的面很广,积累的成果很多且分散在多个不同的领域。所以能有一
本全面、系统介给自然语言处理的书是十分需要的。这同时也是一个艰巨的任务。它需要从大量
已有成果中筛选出既有代表性,且能全面反映领城发展全貌的材料,并把它些材合理的组织起来。
本书作者们都长期从事自然语言处理方面的教学和科研工作,积累了丰富的经验,用了近三
年时间多次对内容和结构的讨论和修改,终于在今年初完成了初稿。
全书共 14 章。第一章为绪论介绍了自然语言处理的基本概念和简要历史。其余 13 章分为三
个部分:基础技术、核心技术和模型分析。第一部分讨论的是语言学中的问题,按处理对象粒度
从小到大,依次为词汇分析、句法分析、语义分析、篇章分析和语言模型。其中第六章“语言模
型”有关 ChatGPT 的基础 GPT 的介绍和 ChatGPT 实现过程的介绍。第二部分分别介绍自然语言
处理的主要应用及相应的技术,包括信息抽取、机器翻译、情感分析、智能问答、文本摘要和知
识图谱。
本书以问题或任务为主线进行安排,可以让读者更好地了解到,同一种问题是可以用不同的
视角和方法解决的。从比较这些不同方法的优劣中加深对任务和方法的理解,并提升鉴赏能力及
举一反三能力。
从结果看,目前基于大语言模型的机器学习法在几乎所有的自然语言处理任务上都取得了很
好的效果,有些甚至超过了人类,因而已成为当前的主流方法。但这种基于大模型的方法也有它
自身的局限性。一个明显的问题是它的参数极多,目前已高达数千亿,人们根本极难理解这些参
¬ 本书不讨论语音问题。这里的语言就是指书面语。将语音转化为文字(语音识别)和文字转化为语音(语音生成)由语
音处理研究
ii 自然语言处理导论 -- 张奇、桂韬、黄萱菁
数的含义。结果虽好,但难理解和解释。另外也发现有些精度很高的大模型,仅改变它的几个参
数,就会使它的性能下降很多。换言之,不稳健。上述两点正是本书第三部分要介绍的内容,即
模型的稳健性和可解释性。
总之,自然语言处理是人工智能的一个十分重要的组成部分。本书全面系统地介绍了自然语
言处理的基础概念、任务和方法,可作为高校有关专业高年级学生和研究生教材,也可供对这一
领域有兴趣的读者参考。
由 ChatGPT 引起的 AI 热潮还在继续,相信随大量人力、物力的进入,AI 研究和应用的又一
个春天正在到来。
吴立德
2023 年 3 月 10 日
前言
时光荏苒,自 2003 年我师从吴立德教授,开启自然语言处理学习与研究之路,转眼已近二十
载春秋。回想当年第一次听到自然语言处理的目标 ──“让机器理解人类语言”时的兴奋,第一次
看到《大规模中文文本处理》教材时的茫然,仿佛黄萱菁教授对我研究生入学的电话面试就在昨
天,每周与吴老师固定交流前的紧张感依然清晰。从求学到任教,深刻感受到自然语言处理的快
速发展,从基于特征的统计机器学习方法到深度神经网络模型,再到大规模预训练方法,自然语
言处理研究范式的更新迭代速度也在不断加快。在本科生和研究生的自然语言处理课程教学过程
中,虽然通过不断补充国际国内的近期研究进展,将最新的理论和方法通过课件和面授的形式介
绍给同学们,但是系统全面的书籍仍然是不可或缺的重要资料。于是,自 2020 年起与黄萱菁教授
和桂韬研究员一起开始着手本书的准备,在经过几十次的讨论和大纲和结构反复修改后,自 2021
年暑假起开始了本书的写作。2022 年本书入选复旦大学七大系列百本精品教材项目和复旦大学研
究生规划系列教材项目,进一步督促我们加快进度。从规划到完成,历时近三年之久,这本拙作
终于完成。
自然语言处理研究融合了语言学、计算机科学、机器学习等多学科内容。自然语言处理的研
究内容从语言单位上划分涵盖字、词、短语、句子、段落到篇章等不同粒度,从类型上划分包含
处理、理解到生成等不同种类。研究内容涉及的知识点多且复杂。自然语言研究大体经历了 20 世
纪 50 年代末到 80 年代基于规则的研究范式,20 世纪 90 年代到 2010 年前基于特征的统计机器学
习研究范式,2010 年到 2018 年基于深度神经网络研究范式,以及 2018 年至今基于大规模和超大
规模预训练模型的研究范式等几个阶段。每个阶段的研究范式都有非常鲜明的特点,但也与机器
学习研究有着十分紧密的联系。自然语言处理研究内容繁杂以及与机器学习方法交织导致本书的
写作难度远超最初的预想。由于很多自然语言处理任务都转换为了机器学习问题,因此很多机器
学习算法可以应用于多个自然语言处理任务。比如,条件随机场模型可用于中文分词,也可以用
于词性标注,还可以用于命名实体识别。在这些任务中,条件随机场模型也都取得了不错的效果。
我们花费大量的时间讨论如何设计本书的结构,在避免重复的同时能够使得读者更好的了解更多
的自然语言处理研究内容和算法。
本书的目标是介绍自然语言处理的基本任务和主要处理算法。为了能够让读者更好的了解任
务的特性和算法设计的主要目标,在介绍每个自然语言处理任务时,除了介绍任务的目标之外,还
会介绍该任务所涉及的主要语言学理论知识以及任务的主要难点。针对自然语言处理历史发展过
剩余602页未读,继续阅读
资源评论
Maxliubl
- 粉丝: 3
- 资源: 7
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功