### 文本分类
#### 数据预处理
要求训练集和测试集分开存储,对于中文的数据必须先分词,对分词后的词用空格符分开,并且将标签连接到每条数据的尾部,标签和句子用分隔符<SEP>分开。具体的如下:
* 今天 的 天气 真好<SEP>积极
transformer 代码详解见:[NLP【07】transformer原理、实现及如何与词向量做对接进行文本分类(附代码详解)](https://blog.csdn.net/qq_40859560/article/details/110825880)
rcnn 代码详解见:[NLP【06】RCNN原理及文本分类实战(附代码详解)](https://blog.csdn.net/qq_40859560/article/details/110738284)
#### 文件结构介绍
* config文件:配置各种模型的配置参数
* data:存放训练集和测试集
* ckpt_model:存放checkpoint模型文件
* data_helpers:提供数据处理的方法
* pb_model:存放pb模型文件
* outputs:存放vocab,word_to_index, label_to_index, 处理后的数据
* models:存放模型代码
* trainers:存放训练代码
* predictors:存放预测代码
#### 训练模型
进入main目录
* python train.py --config_path="config/textcnn_config.json"
#### 预测模型
* 预测代码都在predictors/predict.py中,初始化Predictor对象,调用predict方法即可。
#### 模型的配置参数详述
##### textcnn:基于textcnn的文本分类
* model_name:模型名称
* epochs:全样本迭代次数
* print_every:训练多少次batch,打印一次训练集评测结果
* eval_every:迭代多少步验证一次模型
* learning_rate:学习速率
* optimization:优化算法
* embedding_size:embedding层大小
* num_filters:卷积核的数量
* filter_sizes:卷积核的尺寸
* batch_size:批样本大小
* sequence_length:序列长度
* vocab_size:词汇表大小
* num_classes:样本的类别数,二分类时置为1,多分类时置为实际类别数
* keep_prob:保留神经元的比例
* l2_reg_lambda:L2正则化的系数,主要对全连接层的参数正则化
* max_grad_norm:梯度阶段临界值
* train_data:训练数据的存储路径
* eval_data:验证数据的存储路径
* stop_word:停用词表的存储路径
* output_path:输出路径,用来存储vocab,处理后的训练数据,验证数据
* word_vectors_path:词向量的路径
* ckpt_model_path:checkpoint 模型的存储路径
* pb_model_path:pb 模型的存储路径
##### bilstm:基于bilstm的文本分类
* model_name:模型名称
* epochs:全样本迭代次数
* checkpoint_every:迭代多少步保存一次模型文件
* eval_every:迭代多少步验证一次模型
* learning_rate:学习速率
* optimization:优化算法
* embedding_size:embedding层大小
* hidden_sizes:lstm的隐层大小,列表对象,支持多层lstm,只要在列表中添加相应的层对应的隐层大小
* batch_size:批样本大小
* sequence_length:序列长度
* vocab_size:词汇表大小
* num_classes:样本的类别数,二分类时置为1,多分类时置为实际类别数
* keep_prob:保留神经元的比例
* l2_reg_lambda:L2正则化的系数,主要对全连接层的参数正则化
* max_grad_norm:梯度阶段临界值
* train_data:训练数据的存储路径
* eval_data:验证数据的存储路径
* stop_word:停用词表的存储路径
* output_path:输出路径,用来存储vocab,处理后的训练数据,验证数据
* word_vectors_path:词向量的路径
* ckpt_model_path:checkpoint 模型的存储路径
* pb_model_path:pb 模型的存储路径
##### bilstm atten:基于bilstm + attention 的文本分类
* model_name:模型名称
* epochs:全样本迭代次数
* checkpoint_every:迭代多少步保存一次模型文件
* eval_every:迭代多少步验证一次模型
* learning_rate:学习速率
* optimization:优化算法
* embedding_size:embedding层大小
* hidden_sizes:lstm的隐层大小,列表对象,支持多层lstm,只要在列表中添加相应的层对应的隐层大小
* batch_size:批样本大小
* sequence_length:序列长度
* vocab_size:词汇表大小
* num_classes:样本的类别数,二分类时置为1,多分类时置为实际类别数
* keep_prob:保留神经元的比例
* l2_reg_lambda:L2正则化的系数,主要对全连接层的参数正则化
* max_grad_norm:梯度阶段临界值
* train_data:训练数据的存储路径
* eval_data:验证数据的存储路径
* stop_word:停用词表的存储路径
* output_path:输出路径,用来存储vocab,处理后的训练数据,验证数据
* word_vectors_path:词向量的路径
* ckpt_model_path:checkpoint 模型的存储路径
* pb_model_path:pb 模型的存储路径
##### rcnn:基于rcnn的文本分类
* model_name:模型名称
* epochs:全样本迭代次数
* checkpoint_every:迭代多少步保存一次模型文件
* eval_every:迭代多少步验证一次模型
* learning_rate:学习速率
* optimization:优化算法
* embedding_size:embedding层大小
* hidden_sizes:lstm的隐层大小,列表对象,支持多层lstm,只要在列表中添加相应的层对应的隐层大小
* output_size:lstm层的输出非线性映射的神经元大小
* batch_size:批样本大小
* sequence_length:序列长度
* vocab_size:词汇表大小
* num_classes:样本的类别数,二分类时置为1,多分类时置为实际类别数
* keep_prob:保留神经元的比例
* l2_reg_lambda:L2正则化的系数,主要对全连接层的参数正则化
* max_grad_norm:梯度阶段临界值
* train_data:训练数据的存储路径
* eval_data:验证数据的存储路径
* stop_word:停用词表的存储路径
* output_path:输出路径,用来存储vocab,处理后的训练数据,验证数据
* word_vectors_path:词向量的路径
* ckpt_model_path:checkpoint 模型的存储路径
* pb_model_path:pb 模型的存储路径
##### transformer:基于transformer的文本分类
* model_name:模型名称
* epochs:全样本迭代次数
* checkpoint_every:迭代多少步保存一次模型文件
* eval_every:迭代多少步验证一次模型
* learning_rate:学习速率
* optimization:优化算法
* embedding_size:embedding层大小
* filters:feed forward是用卷积实现的,这里为第一层卷积层的卷积核数量,第二层的卷积核数量要等于embedding size,在这里也可以用全连接层
* num_heads:self attention 的头数
* num_blocks:encoder块的数量,类似于卷积的层数
* ln_epsilon:layer norm中的除法中引入的极小数值
* batch_size:批样本大小
* sequence_length:序列长度
* vocab_size:词汇表大小
* num_classes:样本的类别数,二分类时置为1,多分类时置为实际类别数
* keep_prob:保留神经元的比例
* l2_reg_lambda:L2正则化的系数,主要对全连接层的参数正则化
* max_grad_norm:梯度阶段临界值
* train_data:训练数据的存储路径
* eval_data:验证数据的存储路径
* stop_word:停用词表的存储路径
* output_path:输出路径,用来存储vocab,处理后的训练数据,验证数据
* word_vectors_path:词向量的路径
* ckpt_model_path:checkpoint 模型的存储路径
* pb_model_path:pb 模型的存储路径
没有合适的资源?快使用搜索试试~ 我知道了~
NLP 相关的项目 如:词向量,文本分类,文本匹配,NER,信息抽取,文本生成以及NLP在电商中的应用.zip
共298个文件
py:125个
pyc:61个
md:58个
需积分: 0 1 下载量 60 浏览量
2023-11-04
22:03:31
上传
评论
收藏 34.88MB ZIP 举报
温馨提示
NLP 相关的项目 如:词向量,文本分类,文本匹配,NER,信息抽取,文本生成以及NLP在电商中的应用-NLP
资源推荐
资源详情
资源评论
收起资源包目录
NLP 相关的项目 如:词向量,文本分类,文本匹配,NER,信息抽取,文本生成以及NLP在电商中的应用.zip (298个子文件)
uploadB.bat 1KB
autoplay.bat 1KB
uploadB1.bat 564B
durlB.bat 360B
dload_task.bat 349B
get_core_data.bat 271B
test.csv 3.48MB
train.csv 1.38MB
train.csv 1.38MB
data_test.csv 243B
data_train.csv 201B
train-images-idx3-ubyte.gz 9.45MB
t10k-images-idx3-ubyte.gz 1.57MB
train-labels-idx1-ubyte.gz 28KB
t10k-labels-idx1-ubyte.gz 4KB
transformer_config.json 728B
textcnn_config.json 686B
bilstm_atten_config.json 679B
rcnn_config.json 672B
bilstm_config.json 656B
README.md 7KB
README.md 4KB
README.md 1KB
README.md 869B
README.md 867B
README.md 867B
README.md 718B
README.md 610B
README.md 601B
README.md 579B
README.md 549B
README.md 501B
README.md 486B
README.md 449B
README.md 448B
README.md 438B
README.md 396B
README.md 377B
README.md 247B
README.md 204B
README.md 132B
README.md 131B
README.md 122B
README.md 103B
README.md 102B
README.md 101B
README.md 100B
README.md 98B
README.md 98B
README.md 98B
README.md 98B
README.md 98B
README.md 98B
README.md 33B
README.md 31B
README.md 31B
README.md 31B
README.md 31B
README.md 31B
README.md 30B
README.md 30B
README.md 14B
README.md 12B
README.md 10B
README.md 10B
README.md 7B
README.md 7B
README.md 7B
README.md 7B
README.md 7B
README.md 7B
README.md 7B
README.md 7B
README.md 7B
README.md 7B
README.md 7B
README.md 7B
README.md 1B
network.png 768KB
demo.PNG 83KB
albert_modeling.py 45KB
modeling.py 37KB
modeling.py 37KB
robert_modeling.py 37KB
model.py 25KB
bert_model_for_bin_classify.py 17KB
action_video.py 17KB
model.py 16KB
bert_mask_ml.py 15KB
albert_tokenization.py 14KB
model.py 14KB
batchdy.py 13KB
robert_tokenization.py 13KB
feature_column.py 12KB
transformer.py 12KB
db.py 11KB
train.py 11KB
tokenization.py 10KB
tokenization.py 10KB
train_data.py 10KB
共 298 条
- 1
- 2
- 3
资源评论
武昌库里写JAVA
- 粉丝: 3401
- 资源: 1986
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功