基于自然语言的中文命名实体识别算法可以微调和直接推理.zip资源-CSDN文库

共30个文件

py：13个

png：6个

pkl：4个

版权申诉

深度学习

机器学习

48 浏览量 2023-12-12 10:53:14 上传评论收藏 24.46MB ZIP 举报

《中文命名实体识别：深度学习与机器学习的融合应用》命名实体识别（Named Entity Recognition, NER）是自然语言处理领域的一个核心任务，它旨在从文本中抽取出具有特定意义的实体，如人名、地名、组织名等。在中文环境中，由于语言结构的复杂性，这一任务更具挑战性。本项目提供的资源，包括数据集和教程，将帮助初学者和研究人员快速了解并实践基于自然语言的中文命名实体识别。 1. **深度学习在NER中的应用**：深度学习模型，尤其是卷积神经网络（CNN）和循环神经网络（RNN），以及它们的变种如长短期记忆网络（LSTM）和门控循环单元（GRU），在NER任务上表现卓越。更进一步，预训练模型如BERT、RoBERTa等Transformer架构的模型，因其强大的上下文理解能力，近年来已经成为NER的标准工具。这些模型可以通过微调，即在特定任务的数据集上进行二次训练，来适应中文NER任务，提高性能。 2. **机器学习基础**：在深度学习兴起之前，机器学习方法，如条件随机场（CRF）、支持向量机（SVM）和最大熵模型（MaxEnt），是NER的主流。这些方法依赖特征工程，通过手工设计特征来捕获语义信息。虽然在某些场景下可能不如深度学习模型效果好，但它们对数据的需求较小，理解和解释性更强。 3. **数据集的重要性**：数据集是训练和评估模型的关键。项目中提供的数据集是进行中文NER实验的基础，通常包含已标注的实体类型，如PER（人名）、ORG（组织名）、LOC（地名）等。使用这些数据，我们可以评估模型的召回率、精确率和F1值，以衡量其性能。 4. **教程学习路径**：教程通常会引导用户从数据预处理、模型构建、训练到结果评估的全过程。对于深度学习模型，这可能包括词嵌入的获取、模型架构的选择、损失函数的设计以及优化器的选取。对于机器学习模型，教程可能涉及特征选择、模型选择及参数调整。 5. **微调与直接推理**：微调是指将预训练的深度学习模型在特定任务的数据集上进行少量的额外训练，以使其更好地适应新的任务。直接推理则是在预训练模型的基础上，不做或极少改动参数，直接用于新任务的预测，这在资源有限的情况下尤为有用。 6. **实际应用与未来趋势**： NER技术广泛应用于搜索引擎、智能客服、信息抽取等领域。随着预训练模型的不断发展，如GPT系列和T5，以及对多模态理解的进步，未来的中文NER可能会更加精准，同时考虑语音、图像等多种信息。这个项目提供了深入理解和实践中文命名实体识别的良好平台，无论是对深度学习的探索还是对机器学习的理解，都能从中受益。通过掌握这些知识，我们可以更好地挖掘和利用大量中文文本中的信息，推动人工智能技术的发展。

资源推荐

资源详情

资源评论

收起资源包目录

基于自然语言的中文命名实体识别算法可以微调和直接推理.zip （30个子文件）

基于自然语言的中文命名实体识别算法可以微调和直接推理

utils.py 2KB

ResumeNER

train.char.bmes 1.04MB

dev.char.bmes 117KB

test.char.bmes 132KB

evaluate.py 3KB

ckpts

crf.pkl 968KB

bilstm_crf.pkl 12.83MB

hmm.pkl 200KB

bilstm.pkl 12.81MB

main.py 2KB

evaluating.py 6KB

output.txt 31KB

requirement.txt 121B

data.py 1KB

models

__init__.py 0B

util.py 5KB

bilstm_crf.py 11KB

bilstm.py 1KB

hmm.py 6KB

crf.py 867B

config.py 262B

.gitignore 31B

imgs

biLSTM_NER.png 8KB

decode_crf.png 4KB

log_linear_crf.png 7KB

log_likehood_crf.png 7KB

func_set.png 3KB

w_crf.png 4KB

test.py 3KB

README.md 9KB

# 中文命名实体识别 ## 数据集本项目尝试使用了多种不同的模型（包括HMM，CRF，Bi-LSTM，Bi-LSTM+CRF）来解决中文命名实体识别问题，数据集用的是论文ACL 2018[Chinese NER using Lattice LSTM](https://github.com/jiesutd/LatticeLSTM)中收集的简历数据，数据的格式如下，它的每一行由一个字及其对应的标注组成，标注集采用BIOES，句子之间用一个空行隔开。 ``` 美 B-LOC 国 E-LOC 的 O 华 B-PER 莱 I-PER 士 E-PER 我 O 跟 O 他 O 谈 O 笑 O 风 O 生 O ``` 该数据集就位于项目目录下的`ResumeNER`文件夹里。 ## 运行结果下面是四种不同的模型以及这Ensemble这四个模型预测结果的准确率（取最好）： | | HMM | CRF | BiLSTM | BiLSTM+CRF | Ensemble | | ---- | ------ | ------ | ------ | ---------- | -------- | | 召回率 | 91.22% | 95.43% | 95.32% | 95.72% | 95.65% | | 准确率 | 91.49% | 95.43% | 95.37% | 95.74% | 95.69% | | F1分数 | 91.30% | 95.42% | 95.32% | 95.70% | 95.64% | 最后一列Ensemble是将这四个模型的预测结果结合起来，使用“投票表决”的方法得出最后的预测结果。（Ensemble的三个指标均不如BiLSTM+CRF，可以认为在Ensemble过程中，是其他三个模型拖累了BiLSTM+CRF）具体的输出可以查看`output.txt`文件。 ## 快速开始首先安装依赖项： ``` pip3 install -r requirement.txt ``` 安装完毕之后，直接使用 ``` python3 main.py ``` 即可训练以及评估模型，评估模型将会打印出模型的精确率、召回率、F1分数值以及混淆矩阵，如果想要修改相关模型参数或者是训练参数，可以在`./models/config.py`文件中进行设置。训练完毕之后，如果想要加载并评估模型，运行如下命令： ```shell python3 test.py ``` 下面是这些模型的简单介绍（github网页对数学公式的支持不太好，涉及公式的部分无法正常显示，[我的博客](https://zhuanlan.zhihu.com/p/61227299) 有对这些模型以及代码更加详细的介绍）： ## 隐马尔可夫模型（Hidden Markov Model，HMM）隐马尔可夫模型描述由一个隐藏的马尔科夫链随机生成不可观测的状态随机序列，再由各个状态生成一个观测而产生观测随机序列的过程（李航统计学习方法）。隐马尔可夫模型由初始状态分布，状态转移概率矩阵以及观测概率矩阵所确定。命名实体识别本质上可以看成是一种序列标注问题，在使用HMM解决命名实体识别这种序列标注问题的时候，我们所能观测到的是字组成的序列（观测序列），观测不到的是每个字对应的标注（状态序列）。 **初始状态分布**就是每一个标注的初始化概率，**状态转移概率矩阵**就是由某一个标注转移到下一个标注的概率（就是若前一个词的标注为$tag_i$ ，则下一个词的标注为$tag_j$的概率为 $M_{ij}$），**观测概率矩阵**就是指在某个标注下，生成某个词的概率。 HMM模型的训练过程对应隐马尔可夫模型的学习问题（李航统计学习方法），实际上就是根据训练数据根据最大似然的方法估计模型的三个要素，即上文提到的初始状态分布、状态转移概率矩阵以及观测概率矩阵，模型训练完毕之后，利用模型进行解码，即对给定观测序列，求它对应的状态序列，这里就是对给定的句子，求句子中的每个字对应的标注，针对这个解码问题，我们使用的是维特比（viterbi）算法。具体的细节可以查看 `models/hmm.py`文件。 ## 条件随机场（Conditional Random Field, CRF) HMM模型中存在两个假设，一是输出观察值之间严格独立，二是状态转移过程中当前状态只与前一状态有关。也就是说，在命名实体识别的场景下，HMM认为观测到的句子中的每个字都是相互独立的，而且当前时刻的标注只与前一时刻的标注相关。但实际上，命名实体识别往往需要更多的特征，比如词性，词的上下文等等，同时当前时刻的标注应该与前一时刻以及后一时刻的标注都相关联。由于这两个假设的存在，显然HMM模型在解决命名实体识别的问题上是存在缺陷的。条件随机场通过引入自定义的特征函数，不仅可以表达观测之间的依赖，还可表示当前观测与前后多个状态之间的复杂依赖，可以有效克服HMM模型面临的问题。为了建立一个条件随机场，我们首先要定义一个特征函数集，该函数集内的每个特征函数都以标注序列作为输入，提取的特征作为输出。假设该函数集为： ![函数集](./imgs/func_set.png) 其中$x=(x_1, ..., x_m)$表示观测序列，$s = (s_1, ...., s_m)$表示状态序列。然后，条件随机场使用对数线性模型来计算给定观测序列下状态序列的条件概率： ![log_linear_crf](./imgs/log_linear_crf.png) 其中$s^{'}$是是所有可能的状态序列，$w$是条件随机场模型的参数，可以把它看成是每个特征函数的权重。CRF模型的训练其实就是对参数$w$的估计。假设我们有$n$个已经标注好的数据$\{(x^i, s^i)\}_{i=1}^n$，则其对数似然函数的正则化形式如下： ![log_likehood_crf](./imgs/log_likehood_crf.png) 那么，最优参数$w^*$就是： ![w_crf](./imgs/w_crf.png) 模型训练结束之后，对给定的观测序列$x$，它对应的最优状态序列应该是： ![decode_crf](./imgs/decode_crf.png) 解码的时候与HMM类似，也可以采用维特比算法。具体的细节可以查看 `models/crf.py`文件。 ## Bi-LSTM 除了以上两种基于概率图模型的方法，LSTM也常常被用来解决序列标注问题。和HMM、CRF不同的是，LSTM是依靠神经网络超强的非线性拟合能力，在训练时将样本通过高维空间中的复杂非线性变换，学习到从样本到标注的函数，之后使用这个函数为指定的样本预测每个token的标注。下方就是使用双向LSTM（双向能够更好的捕捉序列之间的依赖关系）进行序列标注的示意图： ![biLSTM_NER](./imgs/biLSTM_NER.png) 基于双向LSTM的序列标注模型实现可以查看`models/bilstm.py`文件。 ## Bi-LSTM+CRF LSTM的优点是能够通过双向的设置学习到观测序列（输入的字）之间的依赖，在训练过程中，LSTM能够根据目标（比如识别实体）自动提取观测序列的特征，但是缺点是无法学习到状态序列（输出的标注）之间的关系，要知道，在命名实体识别任务中，标注之间是有一定的关系的，比如B类标注（表示某实体的开头）后面不会再接一个B类标注，所以LSTM在解决NER这类序列标注任务时，虽然可以省去很繁杂的特征工程，但是也存在无法学习到标注上下文的缺点。相反，CRF的优点就是能对隐含状态建模，学习状态序列的特点，但它的缺点是需要手动提取序列特征。所以一般的做法是，在LSTM后面再加一层CRF，以获得两者的优点。具体的实现请查看`models/bilstm_crf.py` ## 代码中一些需要注意的点 * HMM模型中要处理OOV(Out of vocabulary)的问题，就是测试集里面有些字是不在训练集里面的，这个时候通过观测概率矩阵是无法查询到OOV对应的各种状态的概率的，处理这个问题可以将OOV对应的状态的概率分布设为均匀分布。 * HMM的三个参数（即状态转移概率矩阵、观测概率矩阵以及初始状态概率矩阵）在使用监督学习方法进行估计的过程中，如果有些项从未出现，那么该项对应的位置就为0，而在使用维特比算法进行解码的时候，计算过程需要将这些值相乘，那么如果其中有为0的项，那么�

评论收藏

内容反馈

版权申诉