# README
> **项目所有者: CameronWang-cell(王艺驰)的代码仓库**
> **邮箱:1069836392@qq.com**
## 项目介绍
**简介:** 运用爬虫技术以及朴素贝叶斯分类对抓取的新闻进行分类, 分析每种新闻在网站中的占比
已定义的新闻类别: 财经 科技 汽车 房产 体育 娱乐 其他
#### 1. 环境以及依赖
- python环境
- python==3.9
- 依赖的第三方库:
- jieba
- parseurl
- bs4
- numpy
#### 2. 使用模型
朴素贝叶斯分类器
实现:纯python实现
#### 3. 数据来源
新闻共分7类,新闻信息在此采集:
1 财经
http://finance.qq.com/l/201108/scroll_17.htm
2 科技
http://tech.qq.com/l/201512/scroll_02.htm
3 汽车
http://auto.qq.com/l/201512/scrollnews_02_2.htm
4 房产
http://gd.qq.com/l/house/fcgdxw/more_7.htm
5 体育
http://sports.qq.com/l/201512/scrollnews_01_2.htm
6 娱乐
http://ent.qq.com/l/201108/scrollents_18_2.htm
7 其他
http://news.ifeng.com/listpage/16873/1/1/46629832/46630185/list.shtml
#### 4. 项目结构
目录
- bayes_training_outcome: 分类结果输出向量
- data: 朴素贝叶斯模型训练集
- test: 测试集(爬虫爬取)
- training: 训练集(网络下载数据集)
- medfiles: 词数统计(永久化储存)
- outcome: 最终格式化的输出结果
python文件
- bayesclassifier: 贝叶斯模型以及参数定义
- bayestraining: 模型训练过程定义
- fre: 统计词频
- parseurl: 爬虫 包括请求, 解析, 存储
- visualize: 可视化
纯python朴素贝叶斯分类器
需积分: 1 149 浏览量
2023-11-01
11:37:10
上传
评论 3
收藏 1.47MB ZIP 举报
crmeb专业二开
- 粉丝: 568
- 资源: 181
最新资源
- AT32与Sxx32/Gx32替换对照表
- STM32VET6单片机+XC3S250E(FPGA)+AD9708 DDS信号发生器MCU+FPGA源码+PDF硬件设计原理图
- SCIPOptSuite-9.0.0-win64-VS15.exe
- GIS10.4补丁文件
- fdgsfdgfdsgsf
- 基于CodeMirror5实现的mybatis+sql提示扩展功能,主要是用于在线设计开发场景中的动态sql部分.zip
- 计算机毕业设计-aSP.NET某中学学生成绩管理系统的设计(源代码+)-毕设源码实例.zip
- springboot集成mybatis动态sql.zip
- mybatis中的动态sql, 涉及 where trim set if foreach等
- 简单- 快递运输(Java & JS & Python & C).html
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈