# chinese-text-classification
这份工程代码是CSDN博客:《[Python中文文本分类](http://blog.csdn.net/github_36326955/article/details/54891204)》的源代码.
其中,master分支是python3.6
python2.7的代码请到python2.7分支
这里仅仅为里演示代码原理,
因此只方进去原始数据集的一小部分,完成的数据集请到下面的链接里下载:
训练集
http://download.csdn.net/download/github_36326955/9747927
测试集
http://download.cs
如果你有任何的问题,请在本项目github主页中的issues栏中提出,或者方位上面的博客地址,在下方评论处发布问题。
step1: corpus_segment.py
step2: corpus2Bunch.py
请自觉创建目录train_word_bag和test_word_bag
step3: TFIDF_space.py
step4:NBayes_Predict.py
如果你觉得很棒棒,也许可以打个赏?
手机扫一扫:
<img src="http://img.blog.csdn.net/20170206162513453?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvZ2l0aHViXzM2MzI2OTU1/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" width=300 height=400 >
onnx
- 粉丝: 9986
- 资源: 5626
最新资源
- NSArgumentNullException如何解决.md
- VueError解决办法.md
- buvid、did参数生成算法
- tiny-cuda-cnn.zip
- 关于月度总结的PPT模板
- 手表品牌与型号数据集,手表型号数据
- 基于Java实现(IDEA)的贪吃蛇游戏-源码+jar文件+项目报告
- 数字按键3.2考试代码
- 颜色拾取器 for Windows
- 台球检测40-YOLO(v5至v11)、COCO、CreateML、Paligemma、TFRecord、VOC数据集合集.rar
- # 基于MATLAB的导航科学计算库
- Qt源码ModbusTCP 主机客户端通信程序 基于QT5 QWidget, 实现ModbusTCP 主机客户端通信,支持以下功能: 1、支持断线重连 2、通过INI文件配置自定义服务器I
- tesseract ocr 训练相关的环境部署包,包括jdk-8u331-windows-x64.exe、jTessBoxEditorFX-2.6.0.zip 等
- 好用的Linux终端管理工具,支持自定义多行脚本命令,密码保存、断链续接,SFTP等功能
- 大学毕业设计写作与答辩指南:选题、研究方法及PPT制作
- 小偏差线性化模型,航空发动机线性化,非线性系统线性化,求解线性系统具体参数,最小二乘拟合 MATLAB Simulink 航空发动机,非线性,线性,非线性系统,线性系统,最小二乘,拟合,小偏差,系统辨
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈