这是一个基于深度学习分类模板_有监督的分类算法资源-CSDN文库

共43个文件

py：27个

sh：4个

txt：2个

需积分: 5 70 浏览量 2024-05-10 09:41:23 上传评论收藏 1021KB ZIP 举报

深度学习（DL，Deep Learning）是机器学习（ML，Machine Learning）领域中一个新的研究方向，它被引入机器学习使其更接近于最初的目标——人工智能（AI，Artificial Intelligence）。 [1] 深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字、图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法，在语音和图像识别方面取得的效果，远远超过先前相关技术。 [1] 深度学习在搜索技术、数据挖掘、机器学习、机器翻译、自然语言处理、多媒体学习、语音、推荐和个性化技术，以及其他相关领域都取得了很多成果。深度学习使机器模仿视听和思考等人类的活动，解决了很多复杂的模式识别难题，使得人工智能相关技术取得了很大进步。 [1] 深度学习是一类模式分析方法的统称，就具体研究内容而言，主要涉及三类方法： [2] （1）基于卷积运算的神经网络系统，即卷积神经网络（CNN）。 [2] （2）基于多层神经元的自编码神经网络，包括自编码（Auto encoder）以及近年来受到广泛关注的稀疏编码两类（Sparse Coding）。 [2] （3）以多层自编码神经网络的方式进行预训练，进而结合鉴别信息进一步优化神经网络权值的深度置信网络（DBN）。 [2] 通过多层处理，逐渐将初始的“低层”特征表示转化为“高层”特征表示后，用“简单模型”即可完成复杂的分类等学习任务。由此可将深度学习理解为进行“特征学习”（feature learning）或“表示学习”（representation learning）。 [3] 以往在机器学习用于现实任务时，描述样本的特征通常需由人类专家来设计，这成为“特征工程”（feature engineering）。众所周知，特征的好坏对泛化性能有至关重要的影响，人类专家设计出好特征也并非易事；特征学习（表征学习）则通过机器学习技术自身来产生好特征，这使机器学习向“全自动数据分析”又前进了一步。 [3] 近年来，研究人员也逐渐将这几类方法结合起来，如对原本是以有监督学习为基础的卷积神经网络结合自编码神经网络进行无监督的预训练，进而利用鉴别信息微调网络参数形成的卷积深度置信网络。与传统的学习方法相比，深度学习方法预设了更多的模型参数，因此模型训练难度更大，根据统计学习的一般规律知道，模型参数越多，需要参与训练的数据量也越大。 [2] 20世纪八九十年代由于计算机计算能力有限和相关技术的限制，可用于分析的数据量太小，深度学习在模式分析中并没有表现出优异的识别性能。自从2006年，Hinton等提出快速计算受限玻耳兹曼机（RBM）网络权值及偏差的CD-K算法以后，RBM就成了增加神经网络深度的有力工具，导致后面使用广泛的DBN（由Hin

资源推荐

资源详情

资源评论

收起资源包目录

这是一个基于深度学习分类模板 This is a classification template based on deep learning.zip （43个子文件）

content

data

data_cleaning.py 2KB

.dvcignore 139B

.dvc

.gitignore 26B

config 0B

run.py 24KB

requirments.txt 133B

deploy

__init__.py 0B

interface_debug.py 295B

run_app.sh 65B

custom_logging.py 3KB

app.py 1KB

access.log 0B

nli.py 8KB

data_model.py 309B

logging_config.json 341B

vocab.txt 107KB

config.py 1KB

run.sh 524B

optimize

__init__.py 0B

evaluate

evaluate_factory.py 3KB

__init__.py 0B

onnx_performance_time.py 2KB

evaluate_pytorch.py 2KB

__pycache__

evaluate_factory.cpython-38.pyc 2KB

evaluate_onnx.py 3KB

quantify

quantize.py 1KB

distilled_quantify.py 4KB

Bert-GLUE_OnnxRuntime_quantization.ipynb 47KB

distill

utils.py 1KB

__init__.py 0B

matches.py 9KB

utils_glue.py 21KB

distill.sh 2KB

distill.py 13KB

config.py 5KB

pruner

__init__.py 0B

model_pruner.py 3KB

README.md 2KB

acceleration

onnx.pdf 1.34MB

export_pytorch2onnx.py 2KB

export_onnx2fp16.sh 119B

README.md 6KB

accuracy.py 3KB

# 基于深度学习的分类模板 ## 1. 环境要求 ~~~ pip install -r requirments ~~~ ## 1.1 镜像配置 ~~~ pip config set global.index-url https://mirrors.aliyun.com/pypi/simple/ ~~~ ## 2. 数据样式数据表头为： * `index sentence label` * 数据和表头中间用 `\t` 分隔 ~~~ index sentence label 0 气死姐姐了，快二是阵亡了吗，尼玛，一个半小时过去了也没上车 3 1 妞妞啊，今天又承办了一个发文登记文号是126~嘻~么么哒~晚安哟 0 2 这里还值得注意另一个事实，就是张鞠存原有一个东溪草堂为其读书处。 1 3 这在前华约国家(尤其是东德)使用R-73的首次联合演习期间，被一些北约组织的飞行员所证实。 1 4 每天都以紧张的心情工作，真的是太累，太不放松了，想要爆发一下 3 ~~~ ## 3. 训练基于 `huggingface` 的 `transformers` 的 `example` 修改。参考链接：https://github.com/huggingface/transformers/tree/main/examples/pytorch 训练脚本：`train` 文件夹下的 `run.sh` ## 4.模型优化基于已训练完成的 `pytorch` 模型进行 `ONNX` `蒸馏` `量化` `裁剪` 操作。 - ##### 建议优化顺序： 1. 将已训练好的 `pytorch` 进行 `transformer裁剪`，将前馈全连接层设置为 `2048`，头的个数设置为 `8` 。 2. 对裁剪后的模型进行 `蒸馏`，其中学生模型可以设置为 `hfl-rbt3` 。 3. 对蒸馏后的模型转为 `ONNX`，然后做 `FP16` 和 `图融合` 的操作。 - ##### 以上每个步骤必须有评估指标，倘若评估结果无法达到产品落地要求，可适当减少优化步骤。 **<font color=red>注：以下过程必须进行评价指标的比较</font>** ### 4.1 模型加速模型加速采用 `ONNXRuntime` ，具体参考：[ONNXRUNTIME](https://onnxruntime.ai/) 1. 导出 `ONNX` ：`optimize` 文件夹下的 `acceleration` 文件夹下的 `export_pytorch2onnx.py` > 需要设定已训练好的 `pytorch` 模型**文件夹路径**，以及转换完成的 `onnx` 模型**文件路径**。 2. 将已导出的 `ONNX` 模型进行 `FP16` 转换：`optimize` 文件夹下的 `acceleration` 文件夹下的 `export_onnx2fp16.sh` > 需要设定**已转换**完成的 `onnx` 模型**文件路径**，以及以及转换完成的 `fp16.onnx` 模型**文件路径**。 ### 4.2 模型蒸馏使用哈工大讯飞联合实验室出品的 `TextBrewer` 作为模型蒸馏工具，经实验：蒸馏后的模型性能提升效果非常明显，精度降低 0.5~1 个点，但是蒸馏时间较长。参考链接：[TextBrewer](http://textbrewer.hfl-rc.com/) 1. 设置蒸馏脚本参数：`optimize` 文件夹下的 `distill` 文件夹下的 `distill.sh` ~~~shell # 必填路径参数 BERT_DIR=str # 教师模型文件夹 OUTPUT_ROOT_DIR=str # 输出文件夹 DATA_ROOT_DIR=str # 数据位置 trained_teacher_model=str # 教师模型文件 student_init_model=str # 学生模型文件 STUDENT_CONF_DIR=str # 学生模型配置文件夹 ~~~ 例如蒸馏一个已训练完成的 4 分类模型： ~~~shell # 必填路径参数 BERT_DIR=../../model/emotional_cls_4 # 教师模型文件夹 OUTPUT_ROOT_DIR=output_root_dir # 输出 DATA_ROOT_DIR=../../data # 数据位置 trained_teacher_model=../../model/emotional_cls_4/pytorch_model.bin # 教师模型文件 student_init_model=../../model/hfl_rbt3/pytorch_model.bin # 学生模型文件 STUDENT_CONF_DIR=../../model/hfl_rbt3/ # 学生模型文件夹 ~~~ <font color=red>需要根据教师模型设置 `num_labels` 的数量，且蒸馏完成后需要调整学生模型的`config`文件的 `num_labels` 的数量。</font> 2. 设置完成后运行 `distill.sh` 文件。 ### 4.3 模型量化参考链接：https://onnxruntime.ai/docs/performance/quantization.html 模型量化过程主要将权重转换为 `INT8`，在最终指标损失 0.1~0.3% 的基础上，提升模型推理速度，目前只能用于CPU 服务器，GPU 服务部署无法使用。 1. `ONNX`量化：`optimize` 文件夹下的 `quantify` 文件夹下的 `quantize.py` > 需要设定 `.onnx` 模型**文件路径**，以及以及量化完成的 `.onnx` 模型**文件路径**。 2. 蒸馏完成后量化：`optimize` 文件夹下的 `quantify` 文件夹下的 `distilled_quantify.py` > 按照文件内的 `main` 函数注释填写相关参数 ### 4.4 模型剪裁模型剪裁采用：https://github.com/airaria/TextPruner 经实验后证明，模型体积可适当减少，并且性能也相对较快。具体裁剪参数： - transformer裁剪中：`target_ffn_size=1536, target_num_of_heads=6` 精度损耗较为严重，即使设置32轮迭代依旧很低，建议采用：`target_ffn_size=2048, target_num_of_heads=8` > 每次裁剪完成后需通过 `optimize`文件夹下的 `evaluate`文件夹下的 `evaluate_pytorch.py` 文件。 ### 4.5 评估 #### 4.5.1 `ONNX` 1. 评估模型准确率：`optimize` 文件夹下的 `evaluate` 文件夹下的 `evaluate_onnx.py` > 填写需要评估的 `.onnx` 模型**文件路径**，以及 `验证数据` **文件路径**。 2. 评估模型性能：pass #### 4.5.2 `Pytorch` 1. `optimize` 文件夹下的 `evaluate` 文件夹下的 `evaluate_pytorch.py` > 填写需要评估的 `pytorch` 模型**文件夹路径**，以及 `验证数据` **文件路径**。 2. 评估模型性能：pass # 5. 部署部署脚本位置：`deploy` 下的 `run_app.sh`，根据所选模型调整脚本中对应的 `模型类型` ## 5.1 接口样式 ### 5.1.1 单条： - ##### request ~~~python { "text": str } ~~~ - ##### response ~~~python { "categories": int, "probabilities": float } ~~~ ### 5.1.2 批量： - ##### request ~~~python { "text": List[str] } ~~~ - ##### response ~~~python { "categories": List[int], "probabilities": List[float] } ~~~

评论收藏

内容反馈