# ThucNewsBert
根据bert对thuc新闻数据集进行文本分类,只需要修改`run_classifer`即可
## 准备
* 下载数据集:[ThucNews](http://thuctc.thunlp.org/),大小为1.5G
* 下载[`bert源码`](https://github.com/google-research/bert)
* 下载中文预训练模型:[`BERT-Base, Chinese`](https://storage.googleapis.com/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip)
## 处理
* 使用Thuc全部数据会OOM,所以只用了部分数据,也可以修改`train_batch_size`
* 根据数据集形式,在`run_classifier`中仿照示例完成`ThucNewsProcess`模块,并加到`processors字典`
* 训练,`run.sh`
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
【资源说明】 Python基于bert对thuc新闻数据集进行文本分类源码+文本数据.zip 1、该资源内项目代码都是经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载使用,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果有一点儿基础,亦可在此代码基础上进行修改,以实现其他功能。
资源推荐
资源详情
资源评论
收起资源包目录
Python基于bert对thuc新闻数据集进行文本分类源码+文本数据.zip (9个子文件)
modeling.py 37KB
optimization.py 6KB
tokenization.py 12KB
run.sh 575B
dealData
dealNew.py 5KB
__init__.py 0B
deal.py 5KB
README.md 636B
run_classifier.py 37KB
共 9 条
- 1
资源评论
- 吃猫的鱼python2024-03-03资源是宝藏资源,实用也是真的实用,感谢大佬分享~
Make程序设计
- 粉丝: 5716
- 资源: 3568
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功