介绍
新闻资讯文本分类
基于 pytorch 实现的 TextCNN 模型,模型已训练好,可直接使用
环境
python 3.6
pytorch 1.8.1
jieba 0.42.1
gensim 4.0.1
数据集
分类包括:娱乐, 财经, 房地产, 旅游, 科技, 体育, 健康, 教育, 汽车, 新闻, 文
化, 女人共 12 类
我所使用的是搜狐新闻语料集,训练集有 23549 条新闻,测试集则有 12000
条。
各分类数量均匀,无明显差异
src/data/data.7z 解压即可得到我的原始数据
数据预处理
1.将原始新闻文本文件按行打乱