《自然语言处理-基于预训练模型的方
法》笔记
 
《
自
然
语
言
处
理
-
基
于预
训
练
模
型
的
方
法
》
笔
记
〇.写在前面
一、绪论
(一) NLP 任务体系
I.任务层级
II.任务类别
III.研究层次
(二) 预训练的时代
二、NLP 基础
(一) 文本表示
I.独热向量
II.分布式表示
III.词嵌入表示
IV.词袋表示
(二) NLP 任务
I.语言模型
II. 基础任务
III. 应用任务
(三) 基本问题
I. 文本分类问题
II. 结构预测问题
III. 序列到序列问题
(四) 评价指标
I. 标准答案明确的情况
II. 标准答案不明确的情况
(五) 总结
三、基础工具集与常用数据集
(一) 工具集
(二) 数据集
(三) Wikipedia 数据集使用方法
I. 原始数据获取
II. 语料处理方法
(四)  Hugging Face Datasets 使用方法
I. 数据集获取
II. 调用 datasets
III. 调用 metrics
四、NLP 的神经网络基础

(一)  理论学习
(二) 代码学习
(三) 项目实战
五、静态词向量预训练模型
(一) 简单的词向量预训练
I. 预训练任务
II. 前馈神经网络预训练词向量
III. 循环神经网络预训练词向量
(二) Word2Vec 词向量
I. CBOW 模型
II. Skip-gram 模型
III. 参数估计与预训练任务
IV. 负采样
V. 模型实现
(三) GloVe 词向量
I. 基本思想
II. 预训练任务
III. 参数估计
IV. 模型实现
(四) 评价与应用
I. 内部任务评价法
II. 外部任务评价法
(五) 总结
六、动态词向量预训练模型
(一) 从静态到动态
(二) ELMo 词向量
I. 双向语言模型
II. ELMo 词向量
III. ELMo 词向量的特点
IV. 模型实现
V. 应用与评价
七、预训练语言模型
(一) 概述
(二) GPT
I. 无监督预训练
II. 有监督下游任务精调
III. 下游任务适配
(三) BERT
(四) 更多掩码策略
I. 整词掩码 WWM
II. N-gram 掩码 NM
(五) 预训练模型应用
I. 概述
II. 单句文本分类 SSC
III. 句对文本分类 SPC

IV. 抽取式阅读理解 Span-extraction Reading Comprehension
V. 命名实体识别 NER
(六) 深入理解 BERT
I. 可解释性概述
II. 定性：自注意力可视化分析
III. 定量：探针实验
八、预训练语言模型进阶
(一) 模型优化
I. XLNet
II. RoBERTa
III. ALBERT
IV. ELECTRA
V. MacBERT
VI. 总结
(二) 长文本处理
I. Transformer-XL
II. Reformer
III. Longformer
IV. BigBird
V. 总结
(三) 模型蒸馏与压缩
I. DistilBERT
II. TinyBERT
III. MobileBERT
IV. 总结
(四) 生成模型
I. BART
II. UniLM
III. T5
IV. GPT-3
V. 可控文本生成
CTRL 
PPLM 
九、多模态融合的预训练模型
(一) 多语言融合
I. mBERT
II. XLM
III. XLM-R
IV. 总结
(二) 多媒体融合
I. VideoBERT
II. VL-BERT
III. DALL·E
IV. ALIGN
(三) 异构知识融合

I. 融入知识的预训练
命名实体之术语
命名实体之百度 ERNIE
命名实体之 KnowBERT
知识图谱之术语
知识图谱之清华 ERNIE
知识图谱之 K-BERT
II. 多任务学习
MT-DNN
百度 ERNIE 2.0
III. 总结
(四) 更多模态的预训练模型
I. 页面布局信息
II. 表格信息


〇.写在前面  
本笔记为哈工大“《自然语言处理-基于预训练模型的方法》——车万翔  郭江  崔一鸣 著  
2021 年 7 月第一版” 的笔记，记录比较详细。不过，仍然强烈建议诸君购买原书进行学习！ 
因为本笔记只是笔记，很多地方只是总结性的！
在阅读本笔记前，可能需要您具备一定的深度学习基础和代码能力基础，对于比较欠缺的同
学，我给出了一定的学习指示与推荐，包括代码学习的材料以及理论学习的材料。不过无论如
何，本笔记都需要一定的神经网络知识基础。详细请看本笔记第四章。
本笔记除了记录了书中知识点之外，还对书中的少量错误进行了修正，同时还进行了少量的扩
展。
对于代码学习部分，我给出了代码的链接，都在本人的代码笔记本当中，但是，在查找代码之
前，请先查看代码笔记本项目的 README/Checklist，确保相应代码已经被记录。
当然，本人才疏学浅，如有错误在所难免，恳请指正交流，不胜感激，嘤鸣求友！
Github : ZenMoore   Zhihu : ZenMoore   Twitter : @ZenMoore1
in Markdown    Homepage    in HTML  in PDF,  关于使用哪种格式，请看这里
Email : zenmoore@yeah.net, zenmoore@buaa.edu.cn



一、绪论  
(一) NLP 任务体系  
I.任务层级  
1. 资源建设：语言学知识库 (词典、规则库)；语料库。
词
典
：
也
称
 Thesaurus, 
可
以
提
供
音
韵
、
句
法
、
语
义
解
释
、
词
汇
关
系
、
上
下
位
同
反
义
等
2. 基础任务：分词，词性标注，句法分析、句义分析等
3. 应用任务：信息抽取、情感分析、问答系统、机器翻译、对话系统等
4. 应用系统：教育、医疗、司法、金融、机器人等
II.任务类别  
1. 回归问题：输出为连续数值
2. 分类问题
3. 匹配问题：判断关系
4. 解析问题：标注、词间关系
5. 生成问题
III.研究层次  
1. 形式：符号
2. 语义：符号+实
3. 推理：符号+实+知 (常识知识、世界知识、领域知识)
4. 语用：符号+实+知+环境
(二) 预训练的时代  
预训练+精调范式，预训练说是无监督并不准确，因为下一词预测这一个预训练任务仍然有监
督，应该说成是自监督学习。


二、NLP 基础  
(一) 文本表示  
I.独热向量  
1. one-hot vector
2. 可以引进额外特征表示共同语义 (如 WordNet 同义词等),转为特征工程