【免费】该项目是基于Scrapy框架的Python爬虫资源-CSDN文库

共26个文件

py：18个

xml：3个

pyc：2个

需积分: 0 11 浏览量 2024-01-17 20:56:02 上传评论收藏 25KB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

package

该项目是基于Scrapy框架的Python新闻爬虫，能够爬取网易，搜狐，凤凰和澎湃网站上的新闻，将标题，内容，评论，时间等内容整理并保存到本地.zip （26个子文件）

folder

557sdsada232323sd

__init__.py 2B

debug_qq.py 570B

debug_163.py 100B

scrapy.cfg 269B

debug_pengpai.py 107B

debug_ifeng.py 601B

folder

.idea

NewsSpider-master.iml 520B

workspace.xml 17KB

misc.xml 203B

modules.xml 286B

README.md 1KB

folder

scrapyspider

__init__.py 105B

csv_process.py 3KB

pipelines.py 757B

settings.pyc 478B

folder

spiders

news_qq.py 5KB

__init__.py 162B

news_ifeng.py 14KB

news_163.py 11KB

news_sohu.py 7KB

news_pengpai.py 6KB

items.py 551B

settings.py 4KB

middlewares.py 2KB

items.pyc 1KB

debug_sohu.py 130B

# NewsSpider 该项目是基于Scrapy框架的Python新闻爬虫，能够爬取网易，搜狐，凤凰和澎湃网站上的新闻，将标题，内容，评论，时间等内容整理并保存到本地项目需求 1：爬取网易，搜狐，凤凰和澎湃新闻网站的文章及评论 2：新闻网页数目不少于10万页 3：每个新闻网页及其评论能在1天内更新项目技术 1:设计一个网络爬虫，能够爬取指定网站的全部页面，并提取其中的文章及评论内容 2:定时运行网络爬虫，实现每日更新数据首先从初始URL 开始，Scheduler 会将其交给 Downloader 进行下载，下载之后会交给 Spider 进行分析，这里的spider就是爬虫的核心功能代码,Spider分析出来的结果有两种：一种是需要进一步抓取的链接，它们会通过middleware传回 Scheduler ；另一种是需要保存的数据，送入Item Pipeline ，进行处理和存储,最后将所有数据输出并保存为文件项目结构 scrapyspier为scrapy框架文件 spiders是核心文件，对新闻网站信息爬取 debug_xxx.py是运行文件

内容反馈

zero2100

粉丝: 160
资源: 2417

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip