基于python+Flask+Paddle-ERNIE实现的的自动派单系统源码+项目说明.zip资源-CSDN文库

共86个文件

py：50个

sh：9个

md：9个

版权申诉

课程设计

课程大作业

毕业设计

135 浏览量 2023-12-20 16:06:48 上传评论收藏 193KB ZIP 举报

《项目介绍》基于python+Flask+Paddle-ERNIE实现的的自动派单系统源码+项目说明.zip 基于fasttext的文本分类最初的派单项目是使用fasttext实现的文本分类模型实现的一级文本分类任务。在这个任务中，没有层级分类的概念，即各标签之间没有从属关系。 Fasttext的思想是：将工单文本切分成单个字的序列，例如：【我爱中国】切分成[我，爱，中，国]。模型训练一个词嵌入层，对输入的文本，切分成**字序列**后通入模型获取句子的**词向量序列**。分类过程：对词向量序列去平均，作为文本的特征向量，经过线性层映射到最后的类别分类向量，实现多分类。在最初的分类需求中，上家开发人员通过面向数据的编程，通过关键词检测等手段，处理一部分特征明显的工单，随后通过fasttext处理剩余的工单，在当时满足了客户的需求。基于fasttext的层级文本分类我们接手派单项目之后，通过分析上家的源码，发现存在几个可优化点： 1. 原方法从字的尺度对文本进行编码及特征提取，忽略了中文存在词尺度的上下文信息。举个例子：【我爱中国】切分成[我，爱，中，国]，相当于将【I love china】切分成[I, l, o, v, e, c, h, i, n, a]，随后进行fasttext文本特征提取，这造成了上下文信息丢失。 2. 原方法没有适配层级分类，新的需求要求对工单进行层级分类，不同层级之间具有依赖性，原方法显然不适用。在初步尝试阶段，根据上述分析，我们引入了Jieba分词库（一个应用广泛的中文分词库）以解决词尺度的上下文信息丢失。我们针对3个层级各训练了一个fasttext分类器，以解决层级分类的标签分层问题。在尝试中，我们发现，对非层级分类的场景中，引入Jieba分词的fasttext相较于纯fasttext有明显的性能提升。但是在层级分类场景中，仍未能很好地解决标签依赖的问题。例如：真实标签是**LABEL_lv_1-LABEL_lv_2-LABEL_lv_3_A**，是一个三级分类标签，在三个模型中的分类结果可能是：**LABEL_lv_1-LABEL_lv_2-LABEL_lv_3_B**。这是二级标签与三级标签不匹配的问题。现在的算法通过调研，我们选择了[基于Paddle的Encoder——ERNIE的层级分类模型][1]（简称Hierarchical），作文分类模型，相较于之前的工作，改善有： 1. Encoder类词嵌入模型特征提取能力比fasttext更强，Encoder拥有自带的预训练分词器，相较于基于统计的Jieba分词器会更适配多变的语境。同时预训练模型拥有大量语料库作为底模支撑，在finetune的过程中相对更不容易发生过拟合。 2. Hierarchical在设置标签的时候，引入了不同层级之间依赖关系，具体而言，是让三级标签的标签文本中包含前两级标签的文本，使用特定的分隔符分隔。 Hierarchical的分类机制：使用ERNIE对输入文本进行编码，提取出文本的特征向量；整合多级标签，进行编码得到标签特征向量。通过计算文本特征向量与标签特征向量的余弦相似度，获得文本属于该标签的置信度。在这一步中，因为低级标签包含高级标签的文本，因此可以实现模型提取层级标签之间的依赖关系信息。现有方法的弊端： 1. PaddlePaddle框架相较于PyTorch更难使用，如果使用现成开源代码开发，需要配置Paddle的环境，是相对麻烦的。可以用Docker解决这一个问题。 2. 我们目前还没有完全拆解分析ERNIE模型的源码及模型结构，暂时不能实现移植到Pytorch上用bert-base-chinese实现相似的功能。 API实现我们使用了Flask轻量化Web框架实现了简单的Web API接口化。将模型导出为静态图，实现计算结果后处理，并部署到客户的服务器上，告知客户访问服务的IP和端口号即可。模型静态图的导出使用Onnx作为导出规格，实现了在无GPU环境的BERT模型部署。在调用频率最高的一次测试中，客户一天调用了1.4万次接口，目前仍未收到客户对于处理速度的投诉。总体流程【注】 1.项目代码均经过功能验证ok，确保稳定可靠运行。欢迎下载使用体验！ 2.主要针对各个计算机相关专业，包括计算机科学、信息安全、数据科学与大数据技术、人工智能、通信、物联网等领域的在校学生、专业教师、企业员工。 3.项目具有丰富的拓展空间，不仅可作为入门进阶，也可直接作为毕设、课程设计、大作业、初期项目立项演示等用途。 4.当然也鼓励大家基于此进行二次开发。在使用过程中，如有问题或建议，请及时沟通。 5.期待你能在项目中找到乐趣和灵感，也欢迎你的分享和反馈！

资源推荐

资源详情

资源评论

收起资源包目录

基于python+Flask+Paddle-ERNIE实现的的自动派单系统源码+项目说明.zip （86个子文件）

utils.py 2KB

详细说明.md 4KB

test.ipynb 202KB

conda_env.sh 5KB

app.py 5KB

hierarchical

utils.py 4KB

retrieval_based

evaluate.py 3KB

export_model.py 2KB

predict.py 5KB

utils

__init__.py 610B

vector_insert.py 2KB

feature_extract.py 8KB

milvus_util.py 4KB

config.py 976B

model.py 2KB

base_model.py 6KB

run_system.py 2KB

recall.py 6KB

data.py 9KB

requirements.txt 242B

deploy

python

config_nlp.yml 2KB

predict.py 11KB

rpc_client.py 1KB

web_service.py 3KB

deploy.sh 42B

export_to_serving.py 3KB

train.py 13KB

README.md 18KB

scripts

predict.sh 627B

run_build_index.sh 580B

evaluate.sh 163B

export_model.sh 111B

train.sh 1KB

run.sh 279B

export_to_serving.sh 303B

few-shot

utils.py 2KB

infer.py 10KB

metric.py 3KB

requirements_gpu.txt 109B

requirements_cpu.txt 75B

train.py 5KB

README.md 17KB

详细说明.md 26KB

export_model.py 2KB

predict.py 4KB

analysis

evaluate.py 8KB

sent_interpret.py 6KB

sparse.py 12KB

dirty.py 6KB

aug.py 4KB

word_interpret.ipynb 40KB

README.md 25KB

metric.py 3KB

prune.py 5KB

deploy

triton_serving

models

seqcls

config.pbtxt 1KB

tokenizer

config.pbtxt 358B

model.py 5KB

seqcls_model

config.pbtxt 646B

seqcls_postprocess

config.pbtxt 377B

model.py 5KB

seqcls_grpc_client.py 4KB

README.md 7KB

paddle_serving

rpc_client.py 4KB

http_client.py 4KB

service.py 4KB

config.yml 2KB

README.md 8KB

simple_serving

server.py 965B

ernie_m_server.py 961B

client.py 2KB

README.md 953B

predictor

infer.py 4KB

predictor.py 9KB

README.md 7KB

train.py 9KB

export.ipynb 10KB

train-test.ipynb 12KB

templates

index.html 109B

model.py 6KB

ticket.txt 520B

facicon.ico 0B

data.py 9KB

data.ipynb 15KB

requirements.txt 2KB

onnxModel.py 3KB

config.py 210B

# 训练评估与模型优化指南 **目录** * [Analysis模块介绍](#Analysis模块介绍) * [环境准备](#环境准备) * [模型评估](#模型评估) * [可解释性分析](#可解释性分析) * [单词级别可解释性分析](#单词级别可解释性分析) * [句子级别可解释性分析](#句子级别可解释性分析) * [数据优化](#数据优化) * [稀疏数据筛选方案](#稀疏数据筛选方案) * [脏数据清洗方案](#脏数据清洗方案) * [数据增强策略方案](#数据增强策略方案) ## Analysis模块介绍 Analysis模块提供了**模型评估、可解释性分析、数据优化**等功能，旨在帮助开发者更好地分析文本分类模型预测结果和对模型效果进行优化。 - **模型评估：** 对整体分类情况和每个类别分别进行评估，并打印预测错误样本，帮助开发者分析模型表现找到训练和预测数据中存在的问题。 - **可解释性分析：** 基于[TrustAI](https://github.com/PaddlePaddle/TrustAI)提供单词和句子级别的模型可解释性分析，帮助理解模型预测结果。 - **数据优化：** 结合[TrustAI](https://github.com/PaddlePaddle/TrustAI)和[数据增强API](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/docs/dataaug.md)提供了**稀疏数据筛选、脏数据清洗、数据增强**三种优化策略，从多角度优化训练数据提升模型效果。 <div align="center"> <img src="https://user-images.githubusercontent.com/63761690/195241942-70068989-df17-4f53-9f71-c189d8c5c88d.png" width="600"> </div> 以下是本项目主要代码结构及说明： ```text analysis/ ├── evaluate.py # 评估脚本 ├── sent_interpret.py # 句子级别可解释性分析脚本 ├── word_interpret.py # 单词级别可解释性分析notebook ├── sparse.py # 稀疏数据筛选脚本 ├── dirty.py # 脏数据清洗脚本 ├── aug.py # 数据增强脚本 └── README.md # 训练评估与模型优化指南 ``` ## 环境准备需要可解释性分析和数据优化需要安装相关环境。 - trustai >= 0.1.7 - interpretdl >= 0.7.0 **安装TrustAI**（可选）如果使用可解释性分析和数据优化中稀疏数据筛选和脏数据清洗需要安装TrustAI。 ```shell pip install trustai==0.1.7 ``` **安装InterpretDL**（可选）如果使用词级别可解释性分析GradShap方法，需要安装InterpretDL ```shell pip install interpretdl==0.7.0 ``` ## 模型评估我们使用训练好的模型计算模型的在开发集的准确率，同时打印每个类别数据量及表现： ```shell python evaluate.py \ --device "gpu" \ --dataset_dir "../data" \ --params_path "../checkpoint" \ --max_seq_length 128 \ --batch_size 32 \ --bad_case_file "bad_case.txt" ``` 默认在GPU环境下使用，在CPU环境下修改参数配置为`--device "cpu"` 可支持配置的参数： * `device`: 选用什么设备进行训练，可选择cpu、gpu、xpu、npu；默认为"gpu"。 * `dataset_dir`：必须，本地数据集路径，数据集路径中应包含dev.txt和label.txt文件;默认为None。 * `params_path`：保存训练模型的目录；默认为"../checkpoint/"。 * `max_seq_length`：分词器tokenizer使用的最大序列长度，ERNIE模型最大不能超过2048。请根据文本长度选择，通常推荐128、256或512，若出现显存不足，请适当调低这一参数；默认为128。 * `batch_size`：批处理大小，请结合显存情况进行调整，若出现显存不足，请适当调低这一参数；默认为32。 * `dev_file`：本地数据集中开发集文件名；默认为"dev.txt"。 * `label_file`：本地数据集中标签集文件名；默认为"label.txt"。 * `bad_case_path`：开发集中预测错误样本保存路径；默认为"/bad_case.txt"。输出打印示例： ```text [2022-08-11 03:10:14,058] [ INFO] - -----Evaluate model------- [2022-08-11 03:10:14,059] [ INFO] - Dev dataset size: 1498 [2022-08-11 03:10:14,059] [ INFO] - Accuracy in dev dataset: 89.19% [2022-08-11 03:10:14,059] [ INFO] - Macro avg in dev dataset: precision: 93.48 | recall: 93.26 | F1 score 93.22 [2022-08-11 03:10:14,059] [ INFO] - Micro avg in dev dataset: precision: 95.07 | recall: 95.46 | F1 score 95.26 [2022-08-11 03:10:14,095] [ INFO] - Level 1 Label Performance: Macro F1 score: 96.39 | Micro F1 score: 96.81 | Accuracy: 94.93 [2022-08-11 03:10:14,255] [ INFO] - Level 2 Label Performance: Macro F1 score: 92.79 | Micro F1 score: 93.90 | Accuracy: 89.72 [2022-08-11 03:10:14,256] [ INFO] - Class name: 交往 [2022-08-11 03:10:14,256] [ INFO] - Evaluation examples in dev dataset: 60(4.0%) | precision: 91.94 | recall: 95.00 | F1 score 93.44 [2022-08-11 03:10:14,256] [ INFO] - ---------------------------- [2022-08-11 03:10:14,256] [ INFO] - Class name: 交往##会见 [2022-08-11 03:10:14,256] [ INFO] - Evaluation examples in dev dataset: 12(0.8%) | precision: 92.31 | recall: 100.00 | F1 score 96.00 ... ``` 预测错误的样本保存在bad_case.txt文件中： ```text Text Label Prediction 据猛龙随队记者JoshLewenberg报道，消息人士透露，猛龙已将前锋萨加巴-科纳特裁掉。此前他与猛龙签下了一份Exhibit10合同。在被裁掉后，科纳特下赛季大概率将前往猛龙的发展联盟球队效力。组织关系,组织关系##加盟,组织关系##裁员组织关系,组织关系##解雇冠军射手被裁掉，欲加入湖人队，但湖人却无意，冠军射手何去何从组织关系,组织关系##裁员组织关系,组织关系##解雇 6月7日报道，IBM将裁员超过1000人。IBM周四确认，将裁减一千多人。据知情人士称，此次裁员将影响到约1700名员工，约占IBM全球逾34万员工中的0.5%。IBM股价今年累计上涨16%，但该公司4月发布的财报显示，一季度营收下降5%，低于市场预期。组织关系,组织关系##裁员组织关系,组织关系##裁员,财经/交易有多名魅族员工表示，从6月份开始，魅族开始了新一轮裁员，重点裁员区域是营销和线下。裁员占比超过30%，剩余员工将不过千余人，魅族的知名工程师，爱讲真话的洪汉生已经从钉钉里退出了，外界传言说他去了OPPO。组织关系,组织关系##退出,组织关系##裁员组织关系,组织关系##裁员 ... ``` ## 可解释性分析 "模型为什么会预测出这个结果?"是文本分类任务开发者时常遇到的问题，如何分析错误样本(bad case)是文本分类任务落地中重要一环，本项目基于TrustAI开源了基于词级别和句子级别的模型可解释性分析方法，帮助开发者更好地理解文本分类模型与数据，有助于后续的模型优化与数据清洗标注。 ### 单词级别可解释性分析本项目开源模型的词级别可解释性分析Notebook，提供LIME、Integrated Gradient、GradShap 三种分析方法，支持分析微调后模型的预测结果，开发者可以通过更改**数据目录**和**模型目录**在自己的任务中使用Jupyter Notebook进行数据分析。运行 [word_interpret.ipynb](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/applications/text_classification/hierarchical/analysis/README.md) 代码，即可分析影响样本预测结果的关键词以及可视化所有词对预测结果的贡献情况，颜色越深代表这个词对预测结果影响越大： <div align="center"> <img src="https://user-images.githubusercontent.com/63761690/195334753-78cc2dc8-a5ba-4460-9fde-3b1bb704c053.png" width="1000"> </div> ### 句子级别可解释性分析本项目基于特征相似度（[FeatureSimilarity](https://arxiv.org/abs/2104.04128)）算法，计算对样本预测结果正影响的训练数据，帮助理解模型的预测结果与训练集数据的关系。待分析数据文件`interpret_input_file`应为�

评论收藏

内容反馈

版权申诉