保姆级教程手把手教你实现网络爬虫

共7个文件

py：5个

md：1个

html：1个

html

课程资源

爬虫

python

需积分: 1 2 下载量 163 浏览量 2023-12-15 16:15:09 上传评论收藏 9KB ZIP 举报

温馨提示

code_space_spider_demo ├─html_downloader.py 网页下载器 ├─html_outputer.py 数据处理器 ├─html_parser.py 网页解析器 ├─output.html 数据展示html ├─spider_main.py 爬虫启动器 ├─urls_manager.py URL管理器爬虫核心三个模块：URL管理器，网页下载器，网页解析器。三者形成一个循环，只要有URL可下载，就一直运行下去，直到爬遍整个待爬网站。目标网址：郑州工业大学新闻网目标数据：新闻链接(url) 新闻标题(tile) 发布时间(datetime) 浏览次数(visitcount) 运行环境 - python3.6+ - pip install bs4 - URL管理器：对将要爬取的URL和已经爬取的URL进行管理。 - 网页下载器：接受URL管理器发送过来的待爬取的URL，然后把该URL对应的网页下载并存储下来。

资源推荐

资源详情

资源评论

收起资源包目录

code_space_spider_demo1.zip （7个子文件）

html_parser.py 2KB

urls_manager.py 910B

html_downloader.py 325B

output.html 19KB

spider_main.py 1KB

README.md 1009B

html_outputer.py 877B

共 7 条

# code_space_spider_demo 爬虫核心三个模块：URL管理器，网页下载器，网页解析器。三者形成一个循环，只要有URL可下载，就一直运行下去，直到爬遍整个待爬网站。 - URL管理器：对将要爬取的URL和已经爬取的URL进行管理。 - 网页下载器：接受URL管理器发送过来的待爬取的URL，然后把该URL对应的网页下载并存储下来。 - 网页解析器：网页下载器下载下来的网页交给网页解析器进行解析，一方面解析出有价值的数据，另一方面解析出网页上所有的URL，补充进URL管理器。 ### 项目结构 ```python code_space_spider_demo ├─html_downloader.py 网页下载器 ├─html_outputer.py 数据处理器 ├─html_parser.py 网页解析器 ├─output.html 数据展示html ├─spider_main.py 爬虫启动器 ├─urls_manager.py URL管理器 ``` 爬虫调度端：启动，停止爬虫，监视爬虫的运行情况。

评论收藏

内容反馈

资源评论