基于ELMo,tensorflow的中文命名实体标注ChineseNamedEntityRecognition

共13个文件

py：3个

ipynb：2个

train：1个

人工智能

深度学习

tensorflow

66 浏览量 2024-03-27 16:52:09 上传评论收藏 25.67MB ZIP 举报

**基于ELMo与TensorFlow的中文命名实体识别** 在当今的自然语言处理（NLP）领域，命名实体识别（NER）是一项重要的任务，它涉及到识别文本中的特定实体，如人名、地名、组织名等。这个项目是关于使用深度学习框架TensorFlow，结合预训练的ELMo模型来实现对中文文本的命名实体识别。 **1. 基本概念** **命名实体识别（NER）**：这是NLP中的一个子任务，旨在识别出文本中具有特定意义的实体，并将其分类到预定义的类别中，如人名（PER）、地名（LOC）、组织名（ORG）等。 **ELMo（Embeddings from Language Models）**：是由Allen AI研究所开发的一种上下文敏感的词向量表示方法。ELMo通过预训练的双向语言模型来获取每个词在上下文中的深层次表示，从而提高了模型对语义的理解能力。 **TensorFlow**：由Google开发的开源深度学习框架，用于构建和训练各种机器学习模型，包括神经网络。 **2. ELMo的原理** ELMo使用深度双向的语言模型，即在前向和后向两个方向上训练LSTM（长短时记忆网络）。每个词的向量表示是这两个LSTM状态的线性组合，这使得ELMo能够捕捉到词在句子中的上下文信息，提供了比传统词嵌入更丰富的语义信息。 **3. 实现步骤** - **数据预处理**：需要收集和准备中文NER的标注数据集，如MSRA NER或Weibo NER。数据预处理包括分词、去除停用词、标签映射等。 - **构建模型**：使用TensorFlow构建模型架构，将ELMo嵌入作为输入层，然后通过几层卷积层和循环层（如LSTM）来捕获特征，最后是分类层，用于预测每个词的实体标签。 - **集成ELMo**：ELMo的预训练模型可以从官方仓库下载，将其整合到TensorFlow模型中，通常需要使用`transformers`库来实现。 - **训练与优化**：使用反向传播算法进行模型训练，并选择合适的优化器（如Adam）和损失函数（如交叉熵）来最小化预测标签和真实标签之间的差异。 - **评估与调整**：在验证集上评估模型性能，使用指标如精确率、召回率和F1分数。根据评估结果调整模型参数，如学习率、层数、隐藏单元数量等。 **4. 应用场景** - **信息提取**：在新闻报道、社交媒体分析中，NER可以帮助提取关键实体，如事件参与者、地点和时间。 - **问答系统**：识别问题中的实体可以帮助系统更好地理解问题并提供准确答案。 - **机器翻译**：了解文本中的实体有助于保持翻译的准确性，尤其是在专有名词的处理上。 - **情感分析**：命名实体可以影响文本的情感极性，例如提及负面事件的组织名可能导致整个文本的负面情感。通过掌握ELMo和TensorFlow在中文NER中的应用，不仅可以提升模型在中文文本处理上的表现，还能为其他NLP任务提供有价值的参考。在实践中，不断优化模型，结合更多的语料和更先进的技术，如BERT、RoBERTa等，将进一步提高NER的性能。

资源推荐

资源详情

资源评论

收起资源包目录

基于ELMo, tensorflow的中文命名实体标注 Chinese Named Entity Recognition Based on ELMo.zip （13个子文件）

ELMoNER-master

test.ipynb 13KB

data

example.dev 1.32MB

example.test 1.34MB

analysis.ipynb 5KB

example.train 5.34MB

data.py 6KB

model

checkpoint 80B

model-150000.data-00000-of-00001 26.15MB

model-150000.meta 488KB

model-150000.index 1KB

images

ELMo.png 124KB

train.py 4KB

elmo.py 5KB

from collections import Counter import numpy as np TRAIN_DATA = "data/example.train" TEST_DATA = "data/example.test" DEV_DATA = "data/example.dev" class NERData(object): def __init__(self, batch_size, max_length=128): """ :param batch_size: 每个batch的大小 :param max_length: 每条语料的最大长度 """ self.batch_size = batch_size self.max_length = max_length self.train_data = self._load(TRAIN_DATA) self.test_data = self._load(TEST_DATA) self.dev_data = self._load(DEV_DATA) self.word_map, self.entity_map = self._bulid_map(self.train_data) self.vocab_size = len(self.word_map) + 1 self.train_X, self.train_length, self.train_targets, self.train_weights = self._data_encode(self.train_data) self.test_X, self.test_length, self.test_targets, self.test_weights = self._data_encode(self.test_data) self.dev_X, self.dev_length, self.dev_targets, self.dev_weights = self._data_encode(self.dev_data) self.epoch = 0 self.train_cursor = 0 self.test_cursor = 0 def get_train_batch(self): """从训练集中获取一个batch""" if self.train_cursor + self.batch_size > len(self.train_X): self.epoch += 1 self.train_cursor = 0 X = self.train_X[self.train_cursor: self.train_cursor + self.batch_size] length = self.train_length[self.train_cursor: self.train_cursor + self.batch_size] targets = self.train_targets[self.train_cursor: self.train_cursor + self.batch_size] weights = self.train_weights[self.train_cursor: self.train_cursor + self.batch_size] self.train_cursor += self.batch_size return X, length, targets, weights def get_test_batch(self): """从测试集中获取一个batch""" if self.test_cursor + self.batch_size > len(self.test_X): self.test_cursor = 0 X = self.test_X[self.test_cursor: self.test_cursor + self.batch_size] length = self.test_length[self.test_cursor: self.test_cursor + self.batch_size] targets = self.test_targets[self.test_cursor: self.test_cursor + self.batch_size] weights = self.test_weights[self.test_cursor: self.test_cursor + self.batch_size] self.test_cursor += self.batch_size return X, length, targets, weights def get_dev_data(self, batch_size): """从验证集中获取一个batch""" X = self.dev_X[: batch_size] length = self.dev_length[:batch_size] targets = self.dev_targets[:batch_size] return X, length, targets def word2id(self, word): """将字词转化为id""" return self.word_map.get(word, 0) def entity2id(self, entity): """将命名实体转化为id""" return self.entity_map.get(entity, 0) def idpyth2entity(self, Id): """将id还原为实体名""" return self.words[Id] def sentence_encode(self, sentence): """对一个句子编码，将其转化为可以直接输入elmo网络的数据""" word_ids = [0] * self.max_length for k, w in enumerate(sentence): word_ids[k] = self.word2id(w) X = np.reshape(np.array(word_ids, dtype=np.int32), (1, -1)) length = np.array([len(sentence)], dtype=np.int32) return X, length def entities_decode(self, entities): """对一段实体序列进行解码，用于将网络输出的结果还原维实体名称""" result = [] for e in entities: result.append(self.entities[e]) return result def _load(self, path): """加载语料库""" with open(path, "r", encoding="utf8") as f: raw_data = f.read() # 原始数据 data = [] raw_data = raw_data.split("\n\n") # 将两条不同的语料分开 for k, d in enumerate(raw_data): contents = [] for token in d.split("\n"): # 文字与实体标签 try: w, e = token.split() contents.append((w, e)) except: pass if 0 < len(contents) < self.max_length: # 只保留长度在0-max_length之间的语料 data.append(contents) print("成功加载语料%s, 语料数量%d" % (path, len(data))) return data def _bulid_map(self, data): """构建词语/实体索引字典""" words, entities = [], [] for d in data: for w, e in d: words.append(w) entities.append(e) words_total = Counter(words).most_common() # 按出现的频率从高到低排列 entities_total = Counter(entities).most_common() word_map = dict([(w[0], k+1) for k, w in enumerate(words_total)]) entity_map = dict([(e[0], k+1) for k, e in enumerate(entities_total)]) self.words = ["UKN"] + [w for w, _ in words_total] self.entities = ["UKN"] + [e for e, _ in entities_total] return word_map, entity_map def _data_encode(self, data): """对原始的训练集/测试集/验证集编码成向量形式""" X, length, targets = [], [], [] weights = np.zeros(shape=(len(data), self.max_length), dtype=np.float32) for i, d in enumerate(data): word_ids, entity_ids = [0] * self.max_length, [0] * self.max_length for j in range(len(d)): word_ids[j] = self.word2id(d[j][0]) entity_ids[j] = self.entity2id(d[j][1]) length.append(len(d)) weights[i, :len(d)] = 1. X.append(word_ids) targets.append(entity_ids) X = np.array(X, dtype=np.int32) length = np.array(length, dtype=np.int32) targets = np.array(targets, dtype=np.int32) return X, length, targets, weights

评论收藏

内容反馈