# NewsSpider
该项目是基于Scrapy框架的Python新闻爬虫,能够爬取网易,搜狐,凤凰和澎湃网站上的新闻,将标题,内容,评论,时间等内容整理并保存到本地
项目需求
1:爬取网易,搜狐,凤凰和澎湃新闻网站的文章及评论
2:新闻网页数目不少于10万页
3:每个新闻网页及其评论能在1天内更新
项目技术
1:设计一个网络爬虫,能够爬取指定网站的全部页面,并提取其中的文章及评论内容
2:定时运行网络爬虫,实现每日更新数据
首先从初始URL 开始,Scheduler 会将其交给 Downloader 进行下载,下载之后会交给 Spider 进行分析,这里的spider就是爬虫的核心功能代码,Spider分析出来的结果有两种:一种是需要进一步抓取的链接,它们会通过middleware传回 Scheduler ;另一种是需要保存的数据,送入Item Pipeline ,进行处理和存储,最后将所有数据输出并保存为文件
项目结构
scrapyspier为scrapy框架文件
spiders是核心文件,对新闻网站信息爬取
debug_xxx.py是运行文件
没有合适的资源?快使用搜索试试~ 我知道了~
该项目是基于Scrapy框架的Python爬虫
共26个文件
py:18个
xml:3个
pyc:2个
需积分: 0 1 下载量 11 浏览量
2024-01-17
20:56:02
上传
评论
收藏 25KB ZIP 举报
温馨提示
python项目
资源推荐
资源详情
资源评论
收起资源包目录
该项目是基于Scrapy框架的Python新闻爬虫,能够爬取网易,搜狐,凤凰和澎湃网站上的新闻,将标题,内容,评论,时间等内容整理并保存到本地.zip (26个子文件)
557sdsada232323sd
__init__.py 2B
debug_qq.py 570B
debug_163.py 100B
scrapy.cfg 269B
debug_pengpai.py 107B
debug_ifeng.py 601B
.idea
NewsSpider-master.iml 520B
workspace.xml 17KB
misc.xml 203B
modules.xml 286B
README.md 1KB
scrapyspider
__init__.py 105B
csv_process.py 3KB
pipelines.py 757B
settings.pyc 478B
spiders
news_qq.py 5KB
__init__.py 162B
news_ifeng.py 14KB
news_163.py 11KB
news_sohu.py 7KB
news_pengpai.py 6KB
items.py 551B
settings.py 4KB
middlewares.py 2KB
items.pyc 1KB
debug_sohu.py 130B
共 26 条
- 1
资源评论
zero2100
- 粉丝: 160
- 资源: 2417
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功