# 爬虫项目实战
## 说明
所有项目均为作者**练手分享项目**,如遇**侵权请联系删除**,仅作**学习分享**,**不能进行任何商业活动**。
由于程序完成的**时间问题**,部分项目可能**无法复用**。
练习笔记见**note.txt**
_此项目将持续更新_
项目部分实战讲解见b站:https://space.bilibili.com/35242527/channel/collectiondetail?sid=1590251
**下面是个人对于网站爬取难度评级**
| 难度等级 | 表示 | 补充 |
|------|------|--------|
| 骑士侍从 | 0 | 入门 |
| 准骑士 | 00 | 踏过门槛了 |
| 骑士 | * | 初级 |
| 大骑士 | ** | 比初级高一点 |
| 大地骑士 | *** | 中等难度 |
| 辉耀骑士 | + | 中上难度 |
| 圣殿骑士 | ++ | 比较难 |
| 圣骑士 | +++ | 难 |
| 神印骑士 | KING | 地狱 |
### 项目目录
``` mermaid
graph TD;
基础篇-->request篇;
基础篇-->解析html以及正则篇;
基础篇-->scrapy篇;
基础篇 -->高性能异步爬虫;
基础篇-->feapder;
自动化篇-->selenium
自动化篇-->playwright;
进阶篇-->综合案例;
进阶篇-->js逆向专题;
js逆向专题-->请求头或响应数据加密;
js逆向专题-->浏览器指纹检测;
js逆向专题-->webPack篇;
js逆向专题-->环境检测篇;
js逆向专题-->wasm篇;
验证码篇-->滑块篇;
验证码篇-->点选篇;
```
> 项目所用到的第三方库
>
```bash
pip install requests # requests库,爬虫的开始
pip install curl_cffi # 标准tls请求库
pip install lxml # xpath提取数据
pip install playwright # 自动化需要
pip install ddddocr # 识别验证码
pip install selenium # 自动化需要,推荐playwright
pip install scrapy # 爬虫框架
pip install "feapder[all]" # 新一代爬虫框架
pip install pycryptodome # python标准密码库
pip install pyexecjs2 # python调用js代码
pip install m3u8 # 下载m3u8视频
pip install prettytable # 格式化输出
pip install tqdm # 进度条
pip install loguru # 强大的日志工具库
pip install retrying # 强大的重试工具
npm install crypto-js/cryptojs # 二选一,js标准密码库
npm insatll jsdom # js模拟浏览器的dom和bom
npm insatll tough-cookie # 浏览器cookie
```
## 基础篇
### request篇
| 难度标识 | 项目名 | 补充 | 快捷导航 |
|------|---------|----------|-------------------------------------------------------------------------------------------------|
| 骑士侍从 | 百度网页 | 第一个爬虫程序 | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E5%9F%BA%E7%A1%80%E7%AF%87/request) |
| 骑士侍从 | ua识别 | 初始反爬 | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E5%9F%BA%E7%A1%80%E7%AF%87/request) |
| 骑士侍从 | 百度翻译 | 认识post请求 | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E5%9F%BA%E7%A1%80%E7%AF%87/request) |
| 骑士侍从 | 豆瓣电影 | 基础 | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E5%9F%BA%E7%A1%80%E7%AF%87/request) |
| 骑士侍从 | 肯德基位置查询 | json练习 | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E5%9F%BA%E7%A1%80%E7%AF%87/request) |
### 解析html以及正则篇
| 难度标识 | 项目名 | 补充 | 快捷导航 |
|------|----------|----------------|---------------------------------------------------------------------------------------------------|
| 准骑士 | 获取fakeua | lxml解析 | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E5%9F%BA%E7%A1%80%E7%AF%87/lxml%26re) |
| 准骑士 | 4k图片爬取 | lxml以及解决编码错误问题 | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E5%9F%BA%E7%A1%80%E7%AF%87/lxml%26re) |
| 准骑士 | 58 | lxml以及分页爬取 | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E5%9F%BA%E7%A1%80%E7%AF%87/lxml%26re) |
| 准骑士 | bs基础 | 初始bs | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E5%9F%BA%E7%A1%80%E7%AF%87/lxml%26re) |
| 准骑士 | bs案例 | 实战bs | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E5%9F%BA%E7%A1%80%E7%AF%87/lxml%26re) |
| 准骑士 | xpath基础 | 初始xpath | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E5%9F%BA%E7%A1%80%E7%AF%87/lxml%26re) |
| 准骑士 | xpath解析 | 练习xpath | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E5%9F%BA%E7%A1%80%E7%AF%87/lxml%26re) |
| 准骑士 | 正则基础 | 初始正则 | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E5%9F%BA%E7%A1%80%E7%AF%87/lxml%26re) |
| 准骑士 | 正则练习 | 实战正则 | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E5%9F%BA%E7%A1%80%E7%AF%87/lxml%26re) |
| 准骑士 | 简历爬取 | 以上的小综合 | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E5%9F%BA%E7%A1%80%E7%AF%87/lxml%26re) |
### scrapy篇
| 难度标识 | 项目名 | 补充 | 快捷导航 |
|------|---------|-----------------------------|------------------------------------------------------------------------------------------------|
| 大骑士 | bossjob | 一级页面爬取,可能不可用 | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E5%9F%BA%E7%A1%80%E7%AF%87/scrapy) |
| 大骑士 | 双色球 | 都是基本scrapy操作 | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E5%9F%BA%E7%A1%80%E7%AF%87/scrapy) |
| 大骑士 | 图片 | 都是基本scrapy操作 | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E5%9F%BA%E7%A1%80%E7%AF%87/scrapy) |
| 大骑士 | 阳光政策 | 都是基本scrapy操作 | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E5%9F%BA%E7%A1%80%E7%AF%87/scrapy) |
| 大骑士 | yi车数据爬取 | 带有js逆向,不过是入门级,以及大批量json数据解析 | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E5%9F%BA%E7%A1%80%E7%AF%87/scrapy) |
| 大骑士 | 校花网 | 都是基本scrapy操作 | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E5%9F%BA%E7%A1%80%E7%AF%87/scrapy) |
| 大骑士 | 网易新闻 | 都是基本scrapy操作 | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E5%9F%BA%E7%A1%80%E7%AF%87/scrapy) |
| 大骑士 | 17k小说爬取 | 都是基本scrapy操作 | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E5%9F%BA%E7%A1%80%E7%AF%87/scrapy) |
### 高性能异步爬虫
| 难度标识 | 项目名 | 补充 | 快捷导航 |
|------|-------------|------|---------------------------------------------------------------------------------------------------------------------------------------------------------|
| 骑士侍从 | 认识flask | 基础知识 | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E5%9F%BA%E7%A1%80%E7%AF%87/%E9%AB%98%E6%80%A7%E8%83%BD%E5%BC%82%E6%AD%A5%E7%88%AC%E8%99%AB) |
| 骑士 | 线程池基础 | 基础知识 | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E5%9F%BA%E7%A1%80%E7%AF%87/%E9%AB%98%E6%80%A7%E8%83%BD%E5%BC%82%
python爬虫项目合集,从基础到js逆向,包含基础篇、自动化篇、进阶篇你将会学到有关爬虫以及反爬虫、自动化和验证码的各方面知识
需积分: 0 64 浏览量
更新于2024-01-01
1
收藏 16.12MB ZIP 举报
Python合法网页爬虫工具项目分享
内容概览:
这个分享包涵了我开发的Python爬虫工具项目,主要用于合法爬取某些网页信息。以下是主要内容:
源代码:包括Python代码和相关脚本。这些代码展示了如何使用Python进行网页抓取、解析和数据提取。
项目文件:除了代码,我还分享了整个项目的文件,包括设计稿、图标、图片等资源。这些资源对于理解项目背景和设计思路至关重要。
文档与操作手册:为了方便他人理解和使用我的作品,我编写了详细的操作手册和使用说明,同时提供了一份Markdown格式的文档,概述了项目的主要功能和特点。
学习笔记:在项目开发过程中,我记录了大量的学习笔记和心得体会。这些笔记不仅有助于理解项目的开发过程,还能为学习Python爬虫技术提供宝贵的参考资料。
适用人群:
这份项目合集适用于所有对Python爬虫开发感兴趣的人,无论你是学生、初学者还是有一定经验的开发者。无论你是想学习新的技术,还是想了解一个完整的项目开发流程,这份资料都将为你提供极大的帮助。
使用建议:
按部就班地学习:建议从基础的Python爬虫开发开始,逐步深入到实际应用中。通过实践,逐步掌握Python爬虫开发的各项技能。
参考项目文件和笔记:项目文件和笔记提供了丰富的背景信息和开发经验。在学习的过程中,不妨参考这些资料,以帮助你更好地理解和学习。
动手实践:Python爬虫开发是一门实践性很强的技能。通过实际操作,你可以更好地掌握Python爬虫开发的各项技能,并提高自己的实践能力。Python合法网页爬虫工具项目分享
内容概览:
这个分享包涵了我开发的Python爬虫工具项目,主要用于合法爬取某些网页信息。以下是主要内容:
源代码:包括Python代码和相关脚本。这些代码展示了如何使用Python进行网页抓取、解析和数据提取。
项目文件:除了代码,我还分享了整个项目的文件,包括设计稿、图标、图片等资源。这些资源对于理解项目背景和设计思路至关重要。
文档与操作手册:为了方便他人理解和使用我的作品,我编写了详细的操作手册和使用说明,同时提供了一份Markdown格式的文档,概述了项目的主要功能和特点。
学习笔记:在项目开发过程中,我记录了大量的学习笔记和心得体会。这些笔记不仅有助于理解项目的开发过程,还能为学习Python爬虫技术提供宝贵的参考资料。
适用人群:
这份项目合集适用于所有对Python爬虫开发感兴趣的人,无论你是学生、初学者还是有一定经验的开发者。无论你是想学习新的技术,还是想了解一个完整的项目开发流程,这份资料都将为你提供极大的帮助。
使用建议:
按部就班地学习:建议从基础的Python爬虫开发开始,逐步深入到实际应用中。通过实践,逐步掌握Python爬虫开发的各项技能。
参考项目文件和笔记:项目文件和笔记提供了丰富的背景信息和开发经验。在学习的过程中,不妨参考这些资料,以帮助你更好地理解和学习。
动手实践:Python爬虫开发是一门实践性很强的技能。通过实际操作,你可以更好地掌握Python爬虫开发的各项技能,并提高自己的实践能力。Python合法网页爬虫工具项目分享
内容概览:
这个分享包涵了我开发的Python爬虫工具项目,主要用于合法爬取某些网页信息。以下是主要内容:
源代码:包括Python代码和相关脚本。这些代码展示了如何使用Python进行网页抓取、解析和数据提取。
项目文件:除了代码,我还分享了整个项目的文件,包括设计稿、图标、图片等资源。这些资源对于理解项目背景和设计思路至关重要。
文档与操作手册:为了方便他人理解和使用我的作品,我编写了详细的操作手册和使用说明,同时提供了一份Markdown格式的文档,概述了项目的主要功能和特点。
学习笔记:在项目开发过程中,我记录了大量的学习笔记和心得体会。这些笔记不仅有助于理解项目的开发过程,还能为学习Python爬虫技术提供宝贵的参考资料。
适用人群:
这份项目合集适用于所有对Python爬虫开发感兴趣的人,无论你是学生、初学者还是有一定经验的开发者。无论你是想学习新的技术,还是想了解一个完整的项目开发流程,这份资料都将为你提供极大的帮助。
使用建议:
按部就班地学习:建议从基础的Python爬虫开发开始,逐步深入到实际应用中。通过实践,逐步掌握Python爬虫开发的各项技能。
参考项目文件和笔记:项目文件和笔记提供了丰富的背景信息和开发经验。在学习的过程中,不妨参考这些资料,以帮助你更好地理解和学习。
动手实践:Python爬虫开发是一门实践性很强的技能。通过实际操作,你可以更好地掌握Python爬虫开发的各项技能,并提高自己的实践能力。Python合法网页爬虫工具项目分享
内容概览:
这个分享包涵了我开发的Python爬虫工
%小红书%bin
- 粉丝: 2006
- 资源: 2148
最新资源
- 白色简洁风格的深色滑动单页整站网站模板.rar
- 白色简洁风格的圣诞故事个人网站模板.zip
- 白色简洁风格的时尚宝马老爷车企业网站模板下载.zip
- 白色简洁风格的时尚BLOG信息源码下载.rar
- 白色简洁风格的时尚潮流服饰整站网站源码下载.zip
- 白色简洁风格的时尚登录注册表源码下载.zip
- 白色简洁风格的时尚购物平台整站网站源码下载.zip
- 白色简洁风格的时尚室内设计整站网站源码下载.zip
- 白色简洁风格的时尚平面模特整站网站源码下载.zip
- 白色简洁风格的时尚模特展示网页模板下载.zip
- 白色简洁风格的时装领域网页企业网站源码下载.zip
- 白色简洁风格的时尚中心商城整站网站源码下载.zip
- 白色简洁风格的时尚需求提交表源码下载.zip
- 白色简洁风格的世界风光图片源码下载.zip
- 白色简洁风格的世界地理景观主题网站模板下载.zip
- 白色简洁风格的世界医疗卫生公益模板下载.zip