python入门爬虫架构代码设计，新手入门通俗易懂

共8个文件

py：5个

txt：1个

md：1个

python

爬虫

0 下载量 127 浏览量 2023-12-14 18:01:13 上传评论收藏 3KB ZIP 举报

温馨提示

前面几篇爬虫入门篇文章记录了一些简单的爬虫知识，今天结合网络请求流程，实现一个基本的爬虫架构。以后可以根据这个架构代码，对自己的爬虫需求进行拓展

资源推荐

资源详情

资源评论

收起资源包目录

code_space_spider_demo.zip （8个子文件）

html_parser.py 1KB

urls_manager.py 744B

html_downloader.py 233B

output.html 53B

requirements.txt 54B

spider_main.py 318B

README.md 1002B

html_outputer.py 665B

共 8 条

# code_space_spider_demo 爬虫核心三个模块：URL管理器，网页下载器，网页解析器。三者形成一个循环，只要有URL可下载，就一直运行下去，直到爬遍整个待爬网站。 - URL管理器：对将要爬取的URL和已经爬取的URL进行管理。 - 网页下载器：接受URL管理器发送过来的待爬取的URL，然后把该URL对应的网页下载并存储下来。 - 网页解析器：网页下载器下载下来的网页交给网页解析器进行解析，一方面解析出有价值的数据，另一方面解析出网页上所有的URL，补充进URL管理器。 ### 项目结构 ```python code_space_spider_demo ├─html_downloader.py 网页下载器 ├─html_outputer.py 数据处理器 ├─html_parser.py 网页解析器 ├─output.html 数据展示html ├─spider_main.py 爬虫启动器 ├─urls_manager.py URL管理器 ``` ### 运行环境 - python3.6+ - pip install bs4 ```bash ```

评论收藏

内容反馈

资源评论