人工智能自然语言处理应用-基于HMM与CRF的命名实体识别

共41个文件

ipynb：10个

py：9个

pyc：6个

python

自然语言处理

5星 · 超过95%的资源需积分: 28 82 浏览量 2023-01-12 18:05:48 上传评论 3 收藏 19.54MB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

命名实体识别.zip （41个子文件）

CRF

data.txt 14.32MB

estimation.py 2KB

evaluate.py 3KB

预处理.ipynb 6KB

dh_msra.txt 14.32MB

main_crf.py 4KB

.idea

untitled.iml 291B

workspace.xml 2KB

misc.xml 288B

inspectionProfiles

profiles_settings.xml 174B

modules.xml 275B

.gitignore 184B

encodings.xml 159B

test_data.txt 4.31MB

k-fold.png 34KB

model

crf.pkl 8.61MB

crf.py 1KB

train_data.txt 10.01MB

__pycache__

evaluate.cpython-38.pyc 3KB

crf.cpython-38.pyc 2KB

yuchuli.py 822B

HMM

utils.py 2KB

evaluating1.py 3KB

ckpts

hmm.pkl 130KB

data

data.txt 14.32MB

evaluating.py 3KB

单句测试.ipynb 4KB

标注分布.ipynb 11KB

模型训练及评估.ipynb 93KB

models

hmm.py 6KB

__pycache__

hmm.cpython-38.pyc 4KB

__pycache__

evaluating.cpython-38.pyc 3KB

utils.cpython-38.pyc 2KB

evaluating1.cpython-38.pyc 3KB

.ipynb_checkpoints

Untitled-checkpoint.ipynb 21KB

标注分布-checkpoint.ipynb 11KB

模型训练及评估-checkpoint.ipynb 93KB

单句测试-checkpoint.ipynb 4KB

Untitled2-checkpoint.ipynb 72B

Untitled1-checkpoint.ipynb 55KB

报告.pdf 1.14MB

一、选题分析

命名实体识别（Named entity identification，简称 NER）是信息提取、问答系统、句法分

析、机器翻译、面向 Semantic Web 的元数据标注等应用领域的重要基础工具，在自然语言

处理技术走向实用化的过程中占有重要地位；命名实体识别在处理英文实体时较为容易，由

于英文具有大小写的特征，并且单词之间具有明显的分隔标志——空格，而在中文里面，中

文没有明显的实体界限，并且中文实体没有统一的特征，无法使用固定模板进行特征的提取，

再加上近些年来网络用语的兴盛，中文经常夹杂着英文，这对中文命名实体识别带来了很大

的困难；为了简化问题，我们小组经过商议决定，不针对词组进行中文命名实体的识别，而

是针对每一个字符进行实体识别的标注，如此便可以避免模型在分词方面所带来的误差，我

们期望能够通过构造模型，将输入的中文文本进行逐字符地实体标注，以达到识别文本里面

的中文命名实体的效果。NER 一直是自然语言处理（NLP）领域中的研究热点，从早期基于

词典和规则的方法，到传统机器学习的方法，到近年来基于深度学习的方法，NER 研究进

展的大概趋势大致如图１所示，最终我们小组决定使用隐马尔可夫模型与条件随机场模型进

行中文命名实体识别。

（图１）

本人在实验中负责数据集的搜集、预处理，由于隐马尔可夫模型存在缺陷，为了解决其

缺陷，我决定使用条件随机场模型进行实验，我负责构造条件随机场模型，针对条件随机模

型进行参数的调整，并通过模型针对数据集进行预测，最后对模型进行五折交叉验证，负责

数据可视化部分。

二、实验基本原理与设计

⚫ 数据收集：将问题进行简化，即针对中文文本进行逐字的中文实体标注，所以在收集数

据集时针对本问题找到了逐字标注的数据集，其来源于 Github 上面的开原数据集（连

接：https://github.com/SophonPlus/ChineseNlpCorpus），该数据集包含 5 万多条中文命名

实体识别标注数据（IOB2 格式，符合 CoNLL 2002 和 CRF++标准，格式如图２，其形

式为每行一个字符，后接其对应的实体类型标注。本数据集的标注分为四大类：包括人

名实体（PER）、地名实体（LOC）、机构名实体（ORG）以及其他非实体（O），其中前

三种实体又分为实体头（B-实体）、实体剩余部分（I-实体），如图３。

（图２）

（图３）

⚫ 数据预处理：

由于后续模型所使用的数据为每行作为一个输入整体，因此针对数据集进行了预处理，

将原数据集每行一个字的格式处理为每行一句话的格式，并且每个字符与其标注之间通

过“／”进行分隔，如图４所示：

（图４）

其次，用随机划分数据集的方式对模型进行训练，因此提前将数据集按照８：２的比例

分为了训练集与测试集，并且针对隐马尔可夫模型模型，为其构建了字符与索引的匹配

字典、标注与索引的匹配字典，如图５所示：

（图５）

⚫ 数据建模：

◼ 项目流程：

（图６）

◼ 模型一：隐马尔可夫模型（HMM）

隐马尔可夫模型是一种概率生成模型，选用本模型的原因是该模型可读性强，

实现简单，并且模型的执行速度较高。针对本问题，它假设输入文本为马尔科夫链，

假设其符合观测独立性与齐次马尔可夫性（如图７），将问题转化为求模型的三个

参数（初始状态概率矩阵 π、状态转移概率矩阵 A、发射概率矩阵 B），参数计算公

式如图８。

（图７）

（图８）

隐马尔可夫模型的解码使用维特比算法求得全局最优解。维特比算法是一种

动态规划算法，其核心思想为计算每一个观测变量对应所有隐状态的概率，并且记

录其隐状态的转移路径，通过最后一个观测变量的最大概率隐状态进行回溯，得到

观测变量的全局最优隐状态标注：

假设给定隐式马尔可夫模型（HMM）状态空间 S，共有 k 个状态，初始状态 i

的概率为



，从状态 i 到状态 j 的转移概率为



。令观察到的输出为



。产生

观察结果的最有可能的状态序列由递推关系给出：





 

󰇛









󰇜

 



（公式１）





 

󰇛









󰇜

 







 



   （公式２）

此处









 





是前 t 个最终状态为 k 的观测结果最有可能对应的

状态序列的概率。通过保存向后指针记住在第二个等式中用到的状态 x 可以获得维

特比路径。通过下面的公式得到 t 时最有可能的状态：





 







 （公式３）





 󰇛



󰇜 （公式４）

◼ 模型二：条件随机场模型（CRF）

◆ 原因：

通过上述分析可以看出，虽然 HMM 模型实现容易、运算速度高，但是其对输

入文本做出了两个假设——齐次马尔可夫性与观测独立性，从实际来看，这两个假

设是不合理的，因为实际文本的上下文是互相关联的，并且每两个字之间的标签对

应的转移概率也不是相等的（不满足齐次马尔可夫性），因此为了克服 HMM 的缺

陷，我们考虑到最大熵隐马尔科夫模型（ＭＥＭＭ，如图９），但是该模型仅克服

了 HMM 的观测独立性假设，并没有克服齐次马尔可夫性，如此便会造成一个严重

的问题——标注偏置问题（label_bias）,其产生的原因就是为了满足齐次马尔可夫

性，模型会做多次局部归一化，导致了 MEMM 模型会产生标注偏置问题得到局部

最优解，所以我选择了条件随机场模型，该模型使用无向图原理，延续了 MEMM

的优点，并且克服了 HMM 的齐次马尔可夫性（如图 10），考虑到了文本上下文之

间的联系，能够取得更好的效果。

（图 9）

（图 10）

◆ 基础原理：

给出线性链条件随机场的参数化形式：



󰇛

  



  

󰇜





󰇛󰇜

󰇛











󰇛











󰇜















󰇛







󰇜



󰇜 （公式 5）

其中

󰇛



󰇜





󰇛











󰇛











󰇜















󰇛







󰇜



󰇜



为规范化因子，



和



均为特征函数，



和



是对应的权值，可以将



理解为转移特征、将



理解为状态

特征。

设转移特征为



个，状态特征为



个，令  



 



，记





󰇛











󰇜

 





󰇛











󰇜

  









󰇛







󰇜

  



   



（公式 6）





󰇛



󰇜









󰇛











󰇜



   （公式 7）

则用



表示特征函数



󰇛



󰇜

的权值：





 





  









  



   



（公式 8）

则

󰇛

  



  

󰇜



󰇛󰇜

















󰇛



󰇜

（公式 9）



󰇛



󰇜





















󰇛



󰇜



（公式 10）

记  󰇛











󰇜



󰇛󰇜  󰇛











󰇜



（公式 11）

则

󰇛







󰇜





󰇛󰇜









 

󰇛



󰇜



 

󰇛



󰇜













 

󰇛



󰇜





（公式 12）

参数计算：  



󰇛







󰇜





（公式 13）

即

󰆹

 







󰇛







󰇜





（公式 14）

可得：

󰆹

 





󰇛



󰇛







󰇜󰇜













󰇛















󰇜





（公式 15）

➢ 求解：梯度下降法、拟牛顿类方法、BFGS、L-BFGS

本人一开始学习了大量理论推导资料、视频，希望能够自己实现 CRF 模型，但是

由于上述分析中的特征函数的构建以及最终参数的最优化问题求解所对应的编程

量过大，考虑到汇报时间问题，本人最终采用了 sklearn 库内的 crfsuit 提供的 CRF

模型。

◆ 模型流程图：

（图 11）

◆ 模型构建：

➢ 参数：

algorithm：模型算法，取'lbfgs' - 采用 L-BFGS 方法的梯度下降

c1：L1 正则化系数，取 0.05

c2：L2 正则化系数，取 0.1

max_iterations：最大迭代次数，取 70，通过绘制模型 loss 曲线进行分析

verbose：显示训练过程

➢ c1、c2 的选择：使用 RandomizedSearchCV 进行模型调参

由于我们的数据集较大，所以本人使用 RandomizedSearchCV 进行三折交叉

验证，迭代 20 次，获得最优的参数 c1 与 c2

➢ 训练：fit(X,y)函数，X:文本特征，y:文本标签

➢ 测试：predict(X)函数，X:文本特征

➢ 特征提取：本人所使用的第三方库提供的 CRF 模型不会为文本自动提取特

征，所以需要自己设计特征提取函数，考虑到 CRF 的基本原理，以及无向图

的最大团原理，本人使用每个字符与相邻字符共同构造特征，构造逻辑如图

12，例对于序列“ABCD”中的“B”进行特征提取，本人考虑了图中的几种

方式进行对比，选取了效果最好的特征提取方式

（图 12）

◼ 模型评估：

◆ 概述：选择使用精确率（p）、召回率（r）、 f1 值、混淆矩阵进行模型的评估。

◆ p、r、f1：如公式 16，紧紧计算 p 与 r 不具有说服性，而应该使用 f1 值（即

p 和 r 的调和平均数）对函数进行更加客观的评估。

在计算这三个指标时，我们小组采用的方式是针对不同的标签进行数目统计，

将每种标签预测准确的个数算出，进而算出每种标签的三个指标，然后根据每

种的三个指标以及标签的数目，求得加权平均值即该模型的指标。

 





 















（公式 16）

◆ 混淆矩阵：

由于在计算前面三个指标时是针对每种标签进行统计的，因此可以根据前面统

计的数目求得混淆矩阵，方式为：混淆矩阵的横轴表示实际标签，纵轴表示模

型预测结果，矩阵元素的含义为模型将横轴标签预测为纵轴标签的数量，通过

混淆矩阵我们可以看出模型对于哪些标签的效果更好，方便于进一步调整模

型。

◼ 交叉验证：

本次实验的交叉验证部分也是由本人完成的，由于我们选择的数据集较大，因此我

们设置的交叉验证轮次为 5，本人采取的思路为将预处理好的数据读入，平均分为

五份，循环五次执行模型，每次将分割完的数据集中的一份作为测试集，其余四份

作为训练集，每次都保留模型的三个指标的取值，最终通过 matplotlib 库绘制出

五折交叉验证曲线，并且求出五次的平均值。

评论收藏

内容反馈

yxldr

2023-06-08

整个文章布局清晰，让读者更好地理解每一个部分。
甜甜不加糖

2023-06-08

这篇文章对于命名实体识别算法有很详细的介绍和解释。
吉利吉利

2023-06-08

文章中对于不同领域的命名实体识别也做了分类处理，很实用。
月小烟

2023-06-08

文章结合HMM与CRF两种算法进行识别，提高了准确性。
精准小天使

2023-06-08

实验结果表明，该方法在实际应用中效果较好。

前往

页

谛凌

粉丝: 1w+
资源: 45

人工智能自然语言处理应用-基于HMM与CRF的命名实体识别

NER-CRF-HMM-master_HMM_HMM-CRF用于命名实体识别_语音识别_

python实现的中文命名实体识别模型（包括多种模型HMM、CRF、BiLSTM、BiLSTM+CRF的具体实现）.zip

named_entity_recognition：中文命名实体识别（包括多种模型：HMM，CRF，BiLSTM，BiLSTM + CRF的具体实现）

自然语言处理 命名实体识别

基于半监督学习与CRF的应急预案命名实体识别

基于CRF算法的航天命名实体识别

基于HMM的京剧机构命名实体识别算法 (2013年)

基于CRF的电子病历命名实体识别研究

Android代码-Java 实现的自然语言处理中文分词

python开发的中文命名实体识别模型（包括多种模型HMM、CRF、BiLSTM、BiLSTM+CRF的具体实现）+数据集+模型

HanLP：汉语语言处理-源码

基于自然语言处理医学知识.rar

精选_基于CRF+BiLSTM的命名实体识别_源码打包

基于LSTM的CRF命名实体识别算法.zip

基于CRF的电子病历命名实体识别.rar

基于 Bert + Bi-LSTM + CRF 的命名实体识别(TensorFlow)

基于BiLSTM-CRF的中文分词及命名实体识别.zip

General Conditional Random Field (CRF) Toolbox for Matlab

基于python的自然语言基础模型

CRF原理应用及举例.pdf

Python-自然语言基础模型

自然语言处理文本信息抽取.pptx

论文研究-基于CRF的中文命名实体识别 .pdf

基于Bert+BiLSTM+CRF的命名实体识别.zip

基于BiLSTM-CRF的命名实体识别 附完整代码.zip

基于门控CNN-CRF的中文命名实体识别

基于NER的文本纠错项目python源码+使用说明+数据+模型.zip

hmm的matlab代码-HanLP:HanLP项目修改，主要是为了可以在Maven下引用，引用该作者的项目，在此表示致谢

最新资源

自然语言处理命名实体识别

基于BiLSTM-CRF的命名实体识别附完整代码.zip