【免费】NLP相关的项目如：词向量，文本分类，文本匹配，NER，信息抽取，文本生成以及NLP在电商中的应用.zip资源-CSDN文库

共298个文件

py：125个

pyc：61个

md：58个

需积分: 0 60 浏览量 2023-11-04 22:03:31 上传评论收藏 34.88MB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

NLP 相关的项目如：词向量，文本分类，文本匹配，NER，信息抽取，文本生成以及NLP在电商中的应用.zip （298个子文件）

uploadB.bat 1KB

autoplay.bat 1KB

uploadB1.bat 564B

durlB.bat 360B

dload_task.bat 349B

get_core_data.bat 271B

test.csv 3.48MB

train.csv 1.38MB

data_test.csv 243B

data_train.csv 201B

train-images-idx3-ubyte.gz 9.45MB

t10k-images-idx3-ubyte.gz 1.57MB

train-labels-idx1-ubyte.gz 28KB

t10k-labels-idx1-ubyte.gz 4KB

transformer_config.json 728B

textcnn_config.json 686B

bilstm_atten_config.json 679B

rcnn_config.json 672B

bilstm_config.json 656B

README.md 7KB

README.md 4KB

README.md 1KB

README.md 869B

README.md 867B

README.md 718B

README.md 610B

README.md 601B

README.md 579B

README.md 549B

README.md 501B

README.md 486B

README.md 449B

README.md 448B

README.md 438B

README.md 396B

README.md 377B

README.md 247B

README.md 204B

README.md 132B

README.md 131B

README.md 122B

README.md 103B

README.md 102B

README.md 101B

README.md 100B

README.md 98B

README.md 33B

README.md 31B

README.md 30B

README.md 14B

README.md 12B

README.md 10B

README.md 7B

README.md 1B

network.png 768KB

demo.PNG 83KB

albert_modeling.py 45KB

modeling.py 37KB

robert_modeling.py 37KB

model.py 25KB

bert_model_for_bin_classify.py 17KB

action_video.py 17KB

model.py 16KB

bert_mask_ml.py 15KB

albert_tokenization.py 14KB

model.py 14KB

batchdy.py 13KB

robert_tokenization.py 13KB

feature_column.py 12KB

transformer.py 12KB

db.py 11KB

train.py 11KB

tokenization.py 10KB

train_data.py 10KB

共 298 条

### 文本分类 #### 数据预处理要求训练集和测试集分开存储，对于中文的数据必须先分词，对分词后的词用空格符分开，并且将标签连接到每条数据的尾部，标签和句子用分隔符<SEP>分开。具体的如下： * 今天的天气真好<SEP>积极 transformer 代码详解见：[NLP【07】transformer原理、实现及如何与词向量做对接进行文本分类（附代码详解）](https://blog.csdn.net/qq_40859560/article/details/110825880) rcnn 代码详解见：[NLP【06】RCNN原理及文本分类实战(附代码详解)](https://blog.csdn.net/qq_40859560/article/details/110738284) #### 文件结构介绍 * config文件：配置各种模型的配置参数 * data：存放训练集和测试集 * ckpt_model：存放checkpoint模型文件 * data_helpers：提供数据处理的方法 * pb_model：存放pb模型文件 * outputs：存放vocab，word_to_index, label_to_index, 处理后的数据 * models：存放模型代码 * trainers：存放训练代码 * predictors：存放预测代码 #### 训练模型进入main目录 * python train.py --config_path="config/textcnn_config.json" #### 预测模型 * 预测代码都在predictors/predict.py中，初始化Predictor对象，调用predict方法即可。 #### 模型的配置参数详述 ##### textcnn：基于textcnn的文本分类 * model_name：模型名称 * epochs：全样本迭代次数 * print_every：训练多少次batch，打印一次训练集评测结果 * eval_every：迭代多少步验证一次模型 * learning_rate：学习速率 * optimization：优化算法 * embedding_size：embedding层大小 * num_filters：卷积核的数量 * filter_sizes：卷积核的尺寸 * batch_size：批样本大小 * sequence_length：序列长度 * vocab_size：词汇表大小 * num_classes：样本的类别数，二分类时置为1，多分类时置为实际类别数 * keep_prob：保留神经元的比例 * l2_reg_lambda：L2正则化的系数，主要对全连接层的参数正则化 * max_grad_norm：梯度阶段临界值 * train_data：训练数据的存储路径 * eval_data：验证数据的存储路径 * stop_word：停用词表的存储路径 * output_path：输出路径，用来存储vocab，处理后的训练数据，验证数据 * word_vectors_path：词向量的路径 * ckpt_model_path：checkpoint 模型的存储路径 * pb_model_path：pb 模型的存储路径 ##### bilstm：基于bilstm的文本分类 * model_name：模型名称 * epochs：全样本迭代次数 * checkpoint_every：迭代多少步保存一次模型文件 * eval_every：迭代多少步验证一次模型 * learning_rate：学习速率 * optimization：优化算法 * embedding_size：embedding层大小 * hidden_sizes：lstm的隐层大小，列表对象，支持多层lstm，只要在列表中添加相应的层对应的隐层大小 * batch_size：批样本大小 * sequence_length：序列长度 * vocab_size：词汇表大小 * num_classes：样本的类别数，二分类时置为1，多分类时置为实际类别数 * keep_prob：保留神经元的比例 * l2_reg_lambda：L2正则化的系数，主要对全连接层的参数正则化 * max_grad_norm：梯度阶段临界值 * train_data：训练数据的存储路径 * eval_data：验证数据的存储路径 * stop_word：停用词表的存储路径 * output_path：输出路径，用来存储vocab，处理后的训练数据，验证数据 * word_vectors_path：词向量的路径 * ckpt_model_path：checkpoint 模型的存储路径 * pb_model_path：pb 模型的存储路径 ##### bilstm atten：基于bilstm + attention 的文本分类 * model_name：模型名称 * epochs：全样本迭代次数 * checkpoint_every：迭代多少步保存一次模型文件 * eval_every：迭代多少步验证一次模型 * learning_rate：学习速率 * optimization：优化算法 * embedding_size：embedding层大小 * hidden_sizes：lstm的隐层大小，列表对象，支持多层lstm，只要在列表中添加相应的层对应的隐层大小 * batch_size：批样本大小 * sequence_length：序列长度 * vocab_size：词汇表大小 * num_classes：样本的类别数，二分类时置为1，多分类时置为实际类别数 * keep_prob：保留神经元的比例 * l2_reg_lambda：L2正则化的系数，主要对全连接层的参数正则化 * max_grad_norm：梯度阶段临界值 * train_data：训练数据的存储路径 * eval_data：验证数据的存储路径 * stop_word：停用词表的存储路径 * output_path：输出路径，用来存储vocab，处理后的训练数据，验证数据 * word_vectors_path：词向量的路径 * ckpt_model_path：checkpoint 模型的存储路径 * pb_model_path：pb 模型的存储路径 ##### rcnn：基于rcnn的文本分类 * model_name：模型名称 * epochs：全样本迭代次数 * checkpoint_every：迭代多少步保存一次模型文件 * eval_every：迭代多少步验证一次模型 * learning_rate：学习速率 * optimization：优化算法 * embedding_size：embedding层大小 * hidden_sizes：lstm的隐层大小，列表对象，支持多层lstm，只要在列表中添加相应的层对应的隐层大小 * output_size：lstm层的输出非线性映射的神经元大小 * batch_size：批样本大小 * sequence_length：序列长度 * vocab_size：词汇表大小 * num_classes：样本的类别数，二分类时置为1，多分类时置为实际类别数 * keep_prob：保留神经元的比例 * l2_reg_lambda：L2正则化的系数，主要对全连接层的参数正则化 * max_grad_norm：梯度阶段临界值 * train_data：训练数据的存储路径 * eval_data：验证数据的存储路径 * stop_word：停用词表的存储路径 * output_path：输出路径，用来存储vocab，处理后的训练数据，验证数据 * word_vectors_path：词向量的路径 * ckpt_model_path：checkpoint 模型的存储路径 * pb_model_path：pb 模型的存储路径 ##### transformer：基于transformer的文本分类 * model_name：模型名称 * epochs：全样本迭代次数 * checkpoint_every：迭代多少步保存一次模型文件 * eval_every：迭代多少步验证一次模型 * learning_rate：学习速率 * optimization：优化算法 * embedding_size：embedding层大小 * filters：feed forward是用卷积实现的，这里为第一层卷积层的卷积核数量，第二层的卷积核数量要等于embedding size，在这里也可以用全连接层 * num_heads：self attention 的头数 * num_blocks：encoder块的数量，类似于卷积的层数 * ln_epsilon：layer norm中的除法中引入的极小数值 * batch_size：批样本大小 * sequence_length：序列长度 * vocab_size：词汇表大小 * num_classes：样本的类别数，二分类时置为1，多分类时置为实际类别数 * keep_prob：保留神经元的比例 * l2_reg_lambda：L2正则化的系数，主要对全连接层的参数正则化 * max_grad_norm：梯度阶段临界值 * train_data：训练数据的存储路径 * eval_data：验证数据的存储路径 * stop_word：停用词表的存储路径 * output_path：输出路径，用来存储vocab，处理后的训练数据，验证数据 * word_vectors_path：词向量的路径 * ckpt_model_path：checkpoint 模型的存储路径 * pb_model_path：pb 模型的存储路径

评论收藏

内容反馈