目录
序言
序一
序二
第2版前言
第1版前言
第1章 绪论
1.1 基本概念
1.1.1 语言学与语音学
1.1.2 自然语言处理
1.1.3 关于“理解”的标准
1.2 自然语言处理研究的内容和面临的困难
1.2.1 自然语言处理研究的内容
1.2.2 自然语言处理涉及的几个层次
1.2.3 自然语言处理面临的困难
1.3 自然语言处理的基本方法及其发展
1.3.1 自然语言处理的基本方法
1.3.2 自然语言处理的发展
1.4 自然语言处理的研究现状
1.5 本书的内容安排
第2章 预备知识
2.1 概率论基本概念
2.1.1 概率
2.1.2 最大似然估计
2.1.3 条件概率
2.1.4 贝叶斯法则
2.1.5 随机变量
2.1.6 二项式分布
2.1.7 联合概率分布和条件概率分布
2.1.8 贝叶斯决策理论
2.1.9 期望和方差
2.2 信息论基本概念
2.2.1 熵
2.2.2 联合熵和条件熵
2.2.3 互信息
2.2.4 相对熵
2.2.5 交叉熵
2.2.6 困惑度
2.2.7 噪声信道模型
2.3 支持向量机
2.3.1 线性分类
2.3.2 线性不可分
2.3.3 构造核函数
第3章 形式语言与自动机
3.1 基本概念
3.1.1 图
3.1.2 树
3.1.3 字符串
3.2 形式语言
3.2.1 概述
3.2.2 形式语法的定义
3.2.3 形式语法的类型
3.2.4 CFG识别句子的派生树表示
3.3 自动机理论
3.3.1 有限自动机
3.3.2 正则文法与自动机的关系
3.3.3 上下文无关文法与下推自动机
3.3.4 图灵机
3.3.5 线性界限自动机
3.4 自动机在自然语言处理中的应用
3.4.1 单词拼写检查
3.4.2 单词形态分析
3.4.3 词性消歧
第4章 语料库与语言知识库
4.1 语料库技术
4.1.1 概述
4.1.2 语料库语言学的发展
4.1.3 语料库的类型
4.1.4 汉语语料库建设中的问题
4.1.5 典型语料库介绍
4.2 语言知识库
4.2.1 WordNet
4.2.2 FrameNet
4.2.3 EDR
4.2.4 北京大学综合型语言知识库
4.2.5 知网
4.2.6 概念层次网络
4.3 语言知识库与本体论
第5章 语言模型
5.1 n元语法
5.2 语言模型性能评价
5.3 数据平滑
5.3.1 问题的提出
5.3.2 加法平滑方法
5.3.3 古德-图灵(Good-Turing)估计法
5.3.4 Katz平滑方法
5.3.5 Jelinek-Mercer平滑方法
5.3.6 Witten-Bell平滑方法
5.3.7 绝对减值法
5.3.8 Kneser-Ney平滑方法
5.3.9 算法总结
5.4 其他平滑方法
5.4.1 Church-Gale平滑方法
5.4.2 贝叶斯平滑方法
5.4.3 修正的Kneser-Ney平滑方法
5.5 平滑方法的比较
5.6 语言模型自适应方法
5.6.1 基于缓存的语言模型
5.6.2 基于混合方法的语言模型
5.6.3 基于最大熵的语言模型
第6章 概率图模型
6.1 概述
6.2 贝叶斯网络
6.3 马尔可夫模型
6.4 隐马尔可夫模型
6.4.1 求解观察序列的概率
6.4.2 维特比算法
6.4.3 HMM的参数估计
6.5 层次化的隐马尔可夫模型
6.6 马尔可夫网络
6.7 最大熵模型
6.7.1 最大熵原理
6.7.2 最大熵模型的参数训练
6.8 最大熵马尔可夫模型
6.9 条件随机场
第7章 自动分词、命名实体识别与词性标注
7.1 汉语自动分词中的基本问题
7.1.1 汉语分词规范问题
7.1.2 歧义切分问题
7.1.3 未登录词问题
7.2 汉语分词方法
7.2.1 N-最短路径方法
7.2.2 基于词的n元语法模型的分词方法
7.2.3 由字构词的汉语分词方法
7.2.4 基于词感知机算法的汉语分词方法
7.2.5 基于字的生成式模型和区分式模型相结合的汉
语分词方法
7.2.6 其他分词方法
7.2.7 分词方法比较
7.3 命名实体识别
7.3.1 方法概述
7.3.2 基于CRF的命名实体识别方法
7.3.3 基于多特征的命名实体识别方法
7.4 维吾尔语人名识别方法研究
7.5 词性标注
7.5.1 概述
7.5.2 基于统计模型的词性标注方法
7.5.3 基于规则的词性标注方法
7.5.4 统计方法与规则方法相结合的词性标注方法
7.5.5 词性标注中的生词处理方法
7.6 词性标注的一致性检查与自动校对
7.6.1 词性标注一致性检查方法
7.6.2 词性标注自动校对方法
7.7 关于技术评测
第8章 句法分析