【免费】项目报告1120181319崔晨曦071118051资源-CSDN文库

需积分: 0 188 浏览量 2022-08-03 14:13:40 上传评论收藏 640KB PDF 举报

该项目是一个自然语言处理的课程大作业，由崔晨曦完成，编号1120181319，主要涉及分词、词性标注和命名实体识别。项目使用Python实现了一个词法分析工具包，包含了多种算法的实现。在数据预处理阶段，项目使用了北大语料库作为数据集，该数据集包含了1998年人民日报的内容，已经过切分和词性标注，共有100多种词性标签。数据集被划分为训练集和测试集，比例为8.7:1。预处理包括按句分行，以便于统计模型如HMM和CRF++的使用。分词模块通过split方法处理数据，得到不含词性标签的训练和测试数据；词性标注模块则对原始的100多个词性标签进行了合并，简化为33个标签；命名实体识别模块则通过正则表达式匹配记录命名实体的位置。在分词部分，项目提供了三种算法：基于隐马尔可夫模型（HMM）、基于N-最短路算法和逆向最大匹配。HMM算法先为字符打上BMES标签，然后训练模型得到转移矩阵、发射矩阵和初始状态向量，通过维特比算法找到最优路径。N-最短路算法通过构建图并使用Dijkstra算法寻找最短路径，本项目还引入随机性以获取多样化的分词结果。逆向最大匹配算法则采用贪心策略，从后向前匹配最长词。词性标注部分，项目实现了HMM和条件随机场（CRF++）两种算法，其中CRF++利用C++接口，提供高效性能。命名实体识别同样使用了HMM和CRF++，重点关注人名、地名和机构名。项目没有提供完整的性能指标，但提到了准确率、召回率和F1分数，以及效率（kb/s），这表明项目在处理速度和准确性上进行了评估。这个项目涵盖了自然语言处理中的基础任务，通过多种算法实现，旨在提高分词、词性标注和命名实体识别的性能。通过实际数据集的训练和测试，项目不仅展现了理论知识的应用，还展示了在Python环境中实现这些算法的能力。

资源详情

资源评论

资源推荐

自然语言理解课程大作业一

分词与词性标注

07111805 1120181319 崔晨曦

一、项目概况

本项目是一个使用 python 实现的词法分析工具包，集成了分词，词性标注以及命名实

体识别等功能。项目处理流程如上图所示。

对于分词，本项目提供了三种不同的算法实现：隐马尔可夫(HMM)，N-最短路和逆向最

大匹配。其中隐马尔可夫是基于统计的算法，而 N-最短路及逆向最大匹配均是基于词典的

算法。

对于词性标注，本项目提供了两种算法实现，HMM 和条件随机场(CRF++)。其中 CRF++

使用 python 作为胶水语言，调用底层的开源 C++接口，拥有较高的效率。

对于命名实体识别(NER)，本项目同样提供了 HMM 和 CRF++的两种实现。

二、项目实现

2.1 数据及预处理

2.1.1 数据集

本项目的数据集使用的是“北大语料库加工规范：切分·词性标注·注音”(2003 规范)，

https://klcl.pku.edu.cn/gxzy/231686.htm。大小约 9MB，共 23268 行，内容来源于 1998 年的

人民日报。语料已经完成切分和词性标注，含 100 多种词性标签。

本项目使用的词典通过对训练语料处理计数后得到。此外还使用了 hanlp 中内置的

CoreNatureDictionary.txt 作为对照，其大小约 2MB，共收录 153091 个词。

将数据集的前 20869 行作为训练集，后 2398 行作为测试集，比例约为 8.7：1。

2.1.2 数据预处理

由于原始数据集中一行内含有多个句子，故预处理的第一步便是按句进行分行，保证前

后词之间具有语义上的关联性，这对于 HMM 和 CRF++这种统计模型较为重要，按句分行

后训练集约有 49000 个句子，测试集约有 4300 个句子。

对于分词模块的数据，主要使用 split 方法进行字符串分割，辅以相关操作，得到按词

划分，不含词性标签的训练数据集和测试数据集，存放于项目的./corpus/segment 路径下。

对于词性标注模块的数据，首先对原始数据集中出现的 100 多个词性标签按词性相近

程度进行合并，有助于算法运行速度和准确率的提升。合并后共计 33 个标签：

标签

词性

标签

词性

方位词

人名

状态词

代词

名词

语气词

拟声词

前接成分

量词

名形词

连词

副词

副形词

处所词

非汉字的字符串

时间词

副动词

动词

助词

后接成分

习用语

简称

成语

数词

介词

叹词

其他专有名词

机构名

地名

形容词

区别词

名动词

标点符号

之后进行分割，分离文本和标签等操作，处理后的数据文件保存在./corpus/pos 路径下。

对于 NER 模块的数据，使用正则表达进行匹配，记录命名实体在句子中的起始终止位

置，形成元组。本项目主要关注人名，地名，机构名等三类命名实体，处理后的数据文件保

存在./corpus/NER 路径下。

2.2 分词

2.2.1 基于隐马尔可夫的分词

使用基于 HMM 的分词算法，首先按字符为数据打上 BMES 标签，B(begin)代表词汇的

第一个字符，M(middle)代表词汇中间的字符，E(end)代表词汇末尾的字符，S(single)代表单

字成词。

随后训练模型得到转移矩阵，发射矩阵和初始状态向量。然后对矩阵中的参数进行正则

化处理，对发射矩阵进行平滑，将原本为 0 的项进行加 1 处理，最后再对所有参数取对数，

目的是将之后的累乘操作用累加来替代，避免概率值趋近于 0.

运用动态规划的维特比算法找到概率值最大的路径，回溯得到结果。

2.2.2 基于 N-最短路的分词

对于长度为 n 的句子，N-最短路分词首先构造一条有 n+1 个节点，n 条边的链。句子

中的每个单字依次构成组成链的边。

然后，枚举句子中所有的起止位置，并在词典中搜索，若起止位置之间的字符串能构成

词，则在之前得到的图中新添加一条边，从词语的第一个字的对应边的起始节点出发，指向

词语末字的对应边所指向的节点。

图构建完成后，简单起见，为每条边赋权值为 1。随后在图上运行 dijkstra 算法，得到

一条最短路径，该路径对应了一种分词结果。

此外本项目中还稍作改进，在 dijkstra 算法中加入随机性，使得结果为多条最短路中的

任意一条，不同次分词的结果可能有所不同。

2.2.3 基于逆向最大匹配的分词

运用贪心的思想，从后向前，每次均选择从词典中匹配到的最长的词进行划分，得到分

词结果。

2.2.4 算法性能分析

准确率

召回率

效率

(kb/s)

未登录词

召回率

登录词召

回率

HMM

80.39

80.56

80.47

207.39

52.35

81.66

N-最短路

(使用数据

集统计字

典)

89.98

93.52

91.72

233.08

2.11

97.12

随机化 N-

最短路(使

用数据集统

计字典)

89.92

93.46

91.66

225.03

2.11

97.05

逆向最大匹

配(使用数

据集统计字

典)

89.88

93.46

91.63

697.26

2.11

97.06

可以看出，在分词模块中，基于字典的分词方法的总体准确率，召回率，以及效率均要

高于基于统计的分词方法，其中逆向最大匹配更是凭借简单的算法获得了极高的效率。

然而 HMM 对于未登录词的召回率远高于基于词典的方法，这说明基于字典的方法对于

之前没有出现过的新词基本上是无能为力的，而 HMM 却有着相对不错的效果，这便是基于

统计的方法的优势。

2.3 词性标注

2.3.1 基于隐马尔可夫的词性标注

大致流程及算法原理与 HMM 分词相同，只是此时处理的最小单位为词汇，标签数也提

升为 33 个，对应 33 种不同的词性。

2.3.2 基于条件随机场的词性标注

首先训练 CRF++模型，将训练数据调整为 CRF++的输入格式，每个词占一行，第一列

为词汇，第二列为词性，句子之间以空行划分。

剩余13页未读，继续阅读

评论收藏

内容反馈

那你干哈

粉丝: 32
资源: 289

项目报告 1120181319 崔晨曦 071118051

评论0

最新资源

项目报告 1120181319 崔晨曦 071118051

评论0

晨曦航空：2021年半年度报告.PDF

最新晨曦工程计价2017 v19.5.1.1驱动.rar

晨曦工程量计算式

晨曦铃声系统 V1.0

晨曦计价软件

晨曦校园铃声系统v2.0

智能财务决策分析软件-天财晨曦C9系统

晨曦航空：2021年半年度报告.rar

易语言晨曦多页浏览器开源

晨曦校园铃声系统v2.0破解版

3月3日晚梦回晨曦老师代码课录

晨曦08清单_1.3.19破解补丁

晨曦铃声广播系统

晨曦三维算量软件操作说明.doc

晨曦酒店管理系统

晨曦工作室 v1.00 正式版

晨曦航空：2018年年度报告.PDF

晨曦工程算量2008手稿软解.rar

计算机系统结构ppt 张晨曦

张晨曦体系结构课件及试题

晨曦工程量计算式破解版.zip

建筑小程序 晨曦工程量计算式

C#晨曦超市管理系统

计算机体系结构第二版（张晨曦） 习题答案

晨曦记账本(流水账记录器)V5.0绿色免费版

晨曦小竹常用工具集

（少年）小晨曦卡IPhone在线

晨曦小帐本4.8永久免费版.rar

晨曦铃声系统（定时闹铃）

最新资源

建筑小程序晨曦工程量计算式

计算机体系结构第二版（张晨曦）习题答案