# 文件介绍与运行说明
任务是基于图书的相关描述和图书的封面图片,自动给一个图书做类目的分类。这种任务是一个中文文本分类任务,也可以看作一个多模态分类任务。
## 具体给出的实现方式有三种:
#### 1. 特征工程(图片特征、Tfidf特征、LDA特征、窗口词向量、包括label交互词向量、bert预训练句向量、基本NLP特征)+ GBDT
#### 2. 机器学习模型(包括RandomForestClassifier随机森林,LogisticRegression逻辑回归,MultinomialNB朴素贝叶斯,SVC支持向量机,LightGBM梯度提升决策树等等)
#### 3. 深度学习模型(包括RNN、CNN、RCNN、RNN_ATT、Transformer、BERT、XLNet、Roberta等等)
## 运行说明:
#### 第一步,运行 `src/word2vec/embedding.py` 去生成各种各样的词嵌入(包括word2v3c,fasttext,tfidf以及lda)
#### 第二步,运行 `src/ML/main.py`参数选择 'feature_engineerning' 去进行特征工程 + GBDT
#### 第三步,运行 `src/ML/main.py`参数不选择 'feature_engineerning'可以尝试各种机器学习模型
#### 第四步,运行`src/DL/train.py`指定不同的model可以尝试不同的深度学习模型,例如`python3 train,py --model bert` 尝试bert模型。
## 代码结构介绍
`data`: 数据存放目录
`model` : 模型存放目录
`logs` : 日志存放目录
`src` : 核心代码部分
`app.py` : 代码部署部分
`src/data` : 数据处理部分
`src/data/dataset.py` : 主要用于深度学习的数据处理
`src/data/mlData.py` : 主要用于机器学习的数据处理
`src/DL/` : 包含各类深度学习模型, 运行主入口为`src/DL/train.py`
`src/ML/` : 包含各类机器学习模型, 运行主入口为`src/ML/main.py`
`src/utils/` : 包含配置文件,特征工程函数,以及通用函数
`src/word2vec/` : 包含各类embedding的训练,保存加载。运行主入口为`src/word2vec/embedding.py`
没有合适的资源?快使用搜索试试~ 我知道了~
中文文本分类的各种尝试,包含特征工程,机器学习以及深度学习。.zip
共79个文件
py:55个
pyc:18个
init:2个
需积分: 5 0 下载量 197 浏览量
2024-05-06
11:45:54
上传
评论
收藏 216KB ZIP 举报
温馨提示
中文文本分类的各种尝试,包含特征工程,机器学习以及深度学习。.zip
资源推荐
资源详情
资源评论
收起资源包目录
中文文本分类的各种尝试,包含特征工程,机器学习以及深度学习。.zip (79个子文件)
content
__init__.py 98B
src
__init__.py 209B
word2vec
__init__.py 155B
embedding.py 6KB
__pycache__
embedding.cpython-36.pyc 4KB
autoencoder.cpython-36.pyc 3KB
__init__.cpython-36.pyc 523B
.ipynb_checkpoints
embedding-checkpoint.py 7KB
__init__-checkpoint.py 368B
data
mlData.py 5KB
dictionary.py 2KB
__init__.py 292B
dataset.py 4KB
__pycache__
dataset.cpython-36.pyc 4KB
mlData.cpython-36.pyc 5KB
__init__.cpython-36.pyc 519B
dictionary.cpython-36.pyc 3KB
.ipynb_checkpoints
dictionary-checkpoint.py 2KB
mlData-checkpoint.py 5KB
dataset-checkpoint.py 4KB
__init__-checkpoint.py 505B
utils
__init__.py 1B
feature.py 11KB
tools.py 13KB
__pycache__
feature.cpython-36.pyc 15KB
tools.cpython-36.pyc 11KB
__init__.cpython-36.pyc 353B
config.cpython-36.pyc 2KB
.ipynb_checkpoints
tools-checkpoint.py 15KB
config-checkpoint.py 2KB
feature-checkpoint.py 13KB
__init__-checkpoint.py 215B
config.py 2KB
DL
__init__.py 155B
train_helper.py 6KB
transTrain.py 13KB
models
DPCNN.py 2KB
RNN_ATT.py 2KB
RCNN.py 977B
xlnet.py 980B
roberta.py 994B
CNN.py 1KB
Transformer.py 5KB
bert.py 1KB
RNN.py 784B
__pycache__
bert.cpython-36.pyc 1KB
Transformer.cpython-36.pyc 6KB
.ipynb_checkpoints
CNN-checkpoint.py 1KB
RCNN-checkpoint.py 1KB
RNN-checkpoint.py 1023B
xlnet-checkpoint.py 1KB
roberta-checkpoint.py 1KB
bert-checkpoint.py 884B
Transformer-checkpoint.py 5KB
DPCNN-checkpoint.py 2KB
train.py 5KB
__pycache__
train_helper.cpython-36.pyc 5KB
__init__.cpython-36.pyc 517B
.ipynb_checkpoints
train-checkpoint.py 4KB
train_helper-checkpoint.py 7KB
transTrain-checkpoint.py 13KB
__init__-checkpoint.py 368B
ML
__init__.py 155B
main.py 2KB
models.py 14KB
nohup.out 6KB
__pycache__
__init__.cpython-36.pyc 517B
models.cpython-36.pyc 10KB
.ipynb_checkpoints
main-checkpoint.py 2KB
models-checkpoint.py 16KB
fasttext-checkpoint.py 3KB
__init__-checkpoint.py 368B
fasttext.py 3KB
__pycache__
__init__.cpython-36.pyc 341B
data
init 0B
model
embedding
.w2v.bin.swp 820KB
logs
.nfs000000000179997a00000003 5KB
init 0B
README.md 2KB
共 79 条
- 1
资源评论
生瓜蛋子
- 粉丝: 3824
- 资源: 5235
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功