# README
> **项目所有者: CameronWang-cell(王艺驰)的代码仓库**
> **邮箱:1069836392@qq.com**
## 项目介绍
**简介:** 运用爬虫技术以及朴素贝叶斯分类对抓取的新闻进行分类, 分析每种新闻在网站中的占比
已定义的新闻类别: 财经 科技 汽车 房产 体育 娱乐 其他
#### 1. 环境以及依赖
- python环境
- python==3.9
- 依赖的第三方库:
- jieba
- parseurl
- bs4
- numpy
#### 2. 使用模型
朴素贝叶斯分类器
实现:纯python实现
#### 3. 数据来源
新闻共分7类,新闻信息在此采集:
1 财经
http://finance.qq.com/l/201108/scroll_17.htm
2 科技
http://tech.qq.com/l/201512/scroll_02.htm
3 汽车
http://auto.qq.com/l/201512/scrollnews_02_2.htm
4 房产
http://gd.qq.com/l/house/fcgdxw/more_7.htm
5 体育
http://sports.qq.com/l/201512/scrollnews_01_2.htm
6 娱乐
http://ent.qq.com/l/201108/scrollents_18_2.htm
7 其他
http://news.ifeng.com/listpage/16873/1/1/46629832/46630185/list.shtml
#### 4. 项目结构
目录
- bayes_training_outcome: 分类结果输出向量
- data: 朴素贝叶斯模型训练集
- test: 测试集(爬虫爬取)
- training: 训练集(网络下载数据集)
- medfiles: 词数统计(永久化储存)
- outcome: 最终格式化的输出结果
python文件
- bayesclassifier: 贝叶斯模型以及参数定义
- bayestraining: 模型训练过程定义
- fre: 统计词频
- parseurl: 爬虫 包括请求, 解析, 存储
- visualize: 可视化
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
大数据期末大作业 数据挖掘, 爬虫相关,朴素贝叶斯分类器python 简介: 运用爬虫技术以及朴素贝叶斯分类对抓取的新闻进行分类, 分析每种新闻在网站中的占比 已定义的新闻类别: 财经 科技 汽车 房产 体育 娱乐 其他 1. 环境以及依赖 python环境 python==3.9 依赖的第三方库: jieba parseurl bs4 numpy 2. 使用模型 朴素贝叶斯分类器 实现:纯python实现 3. 数据来源 新闻共分7类,新闻信息在此采集: 1 财经 http://finance.qq.com/l/201108/scroll_17.htm 2 科技 http://tech.qq.com/l/201512/scroll_02.htm 3 汽车 http://auto.qq.com/l/201512/scrollnews_02_2.htm 4 房产 http://gd.qq.com/l/house/fcgdxw/more_7.htm 5 体育 http://sports.qq.com/l/201512/scrollnews_01_2.htm 6 娱乐 http
资源推荐
资源详情
资源评论
收起资源包目录
naive-bayesian-text-classifier-master.zip (58个子文件)
naive-bayesian-text-classifier-master
parseurl.py 1KB
parseurl.pyc 2KB
bayesclassifier.py 5KB
bayestraining.py 2KB
medfiles
.keep 0B
data
stop.txt 11KB
urltest.txt 3KB
test
1_76.txt 7KB
7_92.txt 796B
2_43.txt 1KB
2_32.txt 6KB
6_26.txt 1KB
6_85.txt 955B
3_49.txt 1KB
7_95.txt 2KB
1_85.txt 2KB
6_74.txt 1KB
2_45.txt 9KB
3_80.txt 2KB
2_66.txt 4KB
6_31.txt 12KB
7_53.txt 3KB
3_30.txt 1KB
6_54.txt 1KB
3_7.txt 6KB
.keep 0B
fre.py 3KB
test
1_76.txt 7KB
7_92.txt 796B
2_43.txt 1KB
3_72.txt 1KB
2_32.txt 6KB
6_26.txt 1KB
6_85.txt 955B
3_49.txt 1KB
7_95.txt 2KB
3_92.txt 10KB
1_85.txt 2KB
6_74.txt 1KB
2_45.txt 9KB
3_80.txt 2KB
2_66.txt 4KB
6_31.txt 12KB
7_53.txt 3KB
3_30.txt 1KB
6_54.txt 1KB
3_7.txt 6KB
outcome
.keep 0B
bayes_training_outcome
7_bayestraining.txt 1022KB
4_bayestraining.txt 749KB
2_bayestraining.txt 985KB
6_bayestraining.txt 852KB
5_bayestraining.txt 813KB
1_bayestraining.txt 836KB
3_bayestraining.txt 652KB
.keep 0B
README.md 2KB
visualize.py 52B
共 58 条
- 1
资源评论
crmeb专业二开
- 粉丝: 731
- 资源: 180
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功