python利用已有Ner模型进行数据清洗合并代码资源-CSDN文库

python

数据清洗

192 浏览量 2020-09-18 05:51:45 上传评论收藏 28KB PDF 举报

资源推荐

资源详情

资源评论

python 利用已有利用已有Ner模型进行数据清洗合并代码模型进行数据清洗合并代码

今天小编就为大家分享一篇python 利用已有Ner模型进行数据清洗合并代码，具有很好的参考价值，希望对大家

有所帮助。一起跟随小编过来看看吧

我就废话不多说了，直接上代码吧！我就废话不多说了，直接上代码吧！

# -*- coding: utf-8 -*-

from kashgari.corpus import DataReader

import re

from tqdm import tqdm

def cut_text(text, lenth):

textArr = re.findall('.{' + str(lenth) + '}', text)

textArr.append(text[(len(textArr) * lenth):])

return textArr

def clean_data(source_file, target_file, ner_model):

data_x, data_y = DataReader().read_conll_format_file(source_file)

with tqdm(total=len(data_x)) as pbar:

for idx, text_array in enumerate(data_x):

if len(text_array) <= 100:

ners = ner_model.predict([text_array])

ner = ners[0]

else:

texts = cut_text(''.join(text_array), 100)

ners = []

for text in texts:

ner = ner_model.predict([[char for char in text]])

ners = ners + ner[0]

ner = ners

# print('[-----------------------', idx, len(data_x))

# print(data_y[idx])

# print(ner)

for jdx, t in enumerate(text_array):

if ner[jdx].startswith('B') or ner[jdx].startswith('I') :

if data_y[idx][jdx] == 'O':

data_y[idx][jdx] = ner[jdx]

# print(data_y[idx])

# print('-----------------------]')

pbar.update(1)

f = open(target_file, 'a', encoding="utf-8")

for idx, text_array in enumerate(data_x):

if idx != 0:

f.writelines([''])

for jdx, t in enumerate(text_array):

text = t + ' ' + data_y[idx][jdx]

if idx == 0 and jdx == 0:

text = text

else:

text = '\n' + text

f.writelines([text])

f.close()

data_x2, data_y2 = DataReader().read_conll_format_file(source_file)

print(data_x == data_x2, len(data_y) == len(data_y2), '数据清洗完成')

# -*- coding: utf-8 -*-

import kashgari

from data_tools import clean_data

time_ner = kashgari.utils.load_model('time_ner.h5')

clean_data('./data/example.dev', 'example.dev', time_ner)

以上这篇python 利用已有Ner模型进行数据清洗合并代码就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望

大家多多支持我们。

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余0页未读，立即下载

评论收藏

内容反馈

weixin_38708105

粉丝: 9
资源: 866

python 利用已有Ner模型进行数据清洗合并代码

python数据清洗：利用arima自回归模型对数据进行预测

利用已有的地铁流量历史数据建立模型，实现数据间存在的关联，为该城市未来一天的地铁流量进行一个较为准确的预测.zip

基于W2NER模型实现命名实体识别python源码+实验报告+数据.zip

Python-使用预训练语言模型BERT做中文NER

基于Python词汇信息融合的中文NER模型【100011832】

Python库 | python_mecab_ner-0.1.7-py3-none-any.whl

Python-用谷歌BERT模型在BLSTMCRF模型上进行预训练用于中文命名实体识别的Tensorflow代码

Python库 | mi-ner-0.2.1.tar.gz

Python实现基于词汇信息融合的中文NER模型.zip

基于NER的文本纠错项目python源码+使用说明+数据+模型.zip

ltp工具包包括ltp分词模型、pos模型、ner模型、解析模型等

Python-使用tfestimator和tfdata简单高效NER模型的Tensorflow实现

Tensorflow2.0 Bert模型NER 数据预处理.rar

BERT_NER模型权重

CRF-NER模型

人工智能NER作业-基于BiLSTM+CRF实现命名实体识别python源码+数据+实验报告.zip

人工智能NER作业-基于CRF实现命名实体识别python源码+数据+实验报告.zip

人工智能NER作业-基于HMM模型实现命名实体识别python源码+数据+实验报告.zip

基于crf的中文命名实体识别完整代码（含训练数据）

基于Python+pytorch的图像处理+附完整代码图像处理，能够轻松实现图像的读取、显示、裁剪等还有机器学习等操作

python大作业 含爬虫、数据可视化、地图、报告、及源码（2016-2021全国各地区粮食产量）.rar

《点燃我温暖你》中李峋的同款爱心代码

Python金融量化的高级库：TA-Lib-0.4.24（包含python3.7、3.8、3.9、3.10的32位和64位版本）

第十五届蓝桥杯大赛软件赛省赛-PythonB组题目

大麦网抢票脚本【Python脚本】

人脸识别系统OpenCV+dlib+python（含数据库）Pyqt5界面设计 项目源码 毕业设计

最新资源

python大作业含爬虫、数据可视化、地图、报告、及源码（2016-2021全国各地区粮食产量）.rar

人脸识别系统OpenCV+dlib+python（含数据库）Pyqt5界面设计项目源码毕业设计