## 更新
```html
!!!拼多多策略修改, 列表页及搜索页都需要在请求头中加 'AccessToken': "登录后的 token", 才可以访问!!!
!!!或者 IP 质量较好,直接访问也是可以获取数据的!!!
```
## 拼多多加密参数解析
```txt
1.txt -> 测试获取的数据
pdd.py -> python 运行文件
merge.js -> 获取 anti_content 加密参数的 js 合并文件
Get_c
Get_i
Get_s
Get_u
上述四个 js 文件是为了解密 anti_content 参数而需要的 4 个对象(在 merge.js 中已经包含使用, 这里是为了方便查看)
```
#### 测试使用
```txt
运行代码(会生成 1.txt 文件将获取数据写入):
python3 pdd.py
只获取 anti_content 结果:
node merge.js
```
## 全站抓取
#### 步骤一: 获取一级二级分类,并处理
```txt
文件路径: pin_duoduo/pin_duoduo/utils.py
执行过程: process_first() => 生成 pdd_first.json 文件
执行结果: 一级分类二级分类信息保存完成
```
#### 步骤二: 进行准备工作, 获取三级分类
```txt
文件路径: pin_duoduo/pin_duoduo/spiders/readyWork.py
执行过程: 通过运行 scrapy 爬虫 readyWork 获取二级分类的首页来获取三级分类 => 生成 work.json 文件
执行结果: 三级分类信息保存完成
```
#### 步骤三: 获取列表数据(只进行到这一步, 没有进详情页, 基本数据在列表页即可获取完成)
```txt
文件路径: pin_duoduo/pin_duoduo/spiders/pdd.py
执行过程: 通过运行 scrapy 爬虫 pdd 循环获取列表数据(测试只获取 5 页数据) => 生成 data.json 文件
执行结果: 总体流程完成,数据获取成功
```
## 说明
```python
"""
pdd_sanic 是使用 sanic 简单写的一个 web 服务, 通过 post api 来获取数据(没有使用)
使用方式: 首先运行 run.py 文件, 然后运行 _test.py 即可看到效果
"""
"""
pdd_search.py 是搜索接口数据获取的方式, 可以用来帮助改写成按关键字搜索的爬虫
"""
"""
randomproxy.py 是自定义的 scrapy 中间件, 实现代理更换 | user-agent 更换 | 请求出错时更换代理并重爬等功能,
可以直接将这个中间件应用到其它 scrapy 爬虫项目中
"""
"""
pipelines.py 中直接使用 scrapy 提供的 exporters.JsonItemExporter 进行数据存储,
并且在存储列表数据时直接将 json 数据保存, 并没有定义 item
"""
```
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对获取的HTML进行解析,提取有用的信息。常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。 遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施,如验证码、IP封锁等。爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问网站的服务器负责。
资源推荐
资源详情
资源评论
收起资源包目录
pdd (拼多多) 爬虫 js 解密 anti_content 参数解密及全站抓取代码思路实现.zip (45个子文件)
SJT-code
Get_i.js 9KB
1.txt 28KB
pdd.py 1KB
.gitattributes 93B
merge.js 117KB
Get_c.js 18KB
pin_duoduo
scrapy.cfg 263B
.idea
workspace.xml 33KB
pin_duoduo.iml 504B
misc.xml 292B
modules.xml 272B
encodings.xml 135B
run.py 198B
pdd_search.py 1KB
pin_duoduo
utils.py 3KB
__init__.py 0B
pipelines.py 2KB
merge.js 117KB
data
pdd_first.json 22KB
data.json 127KB
work.json 109KB
randomproxy.py 2KB
spiders
__init__.py 161B
pdd.py 3KB
readyWork.py 3KB
__pycache__
pdd.cpython-37.pyc 3KB
__init__.cpython-37.pyc 165B
readyWork.cpython-37.pyc 2KB
items.py 431B
settings.py 3KB
__pycache__
randomproxy.cpython-37.pyc 2KB
items.cpython-37.pyc 406B
pipelines.cpython-37.pyc 3KB
settings.cpython-37.pyc 497B
__init__.cpython-37.pyc 157B
utils.cpython-37.pyc 3KB
middlewares.py 4KB
pdd_sanic
__init__.py 55B
_test.py 354B
merge.js 117KB
run.py 1KB
__pycache__
__init__.cpython-37.pyc 215B
Get_u.js 29KB
README.md 3KB
Get_s.js 53KB
共 45 条
- 1
资源评论
- watersea10272024-03-26资源很实用,对我启发很大,有很好的参考价值,内容详细。
- qq_328496752024-04-26资源很好用,有较大的参考价值,资源不错,支持一下。
- manxinaini2024-03-27资源内容详细,总结地很全面,与描述的内容一致,对我启发很大,学习了。
- 右手露白袖2024-04-25资源中能够借鉴的内容很多,值得学习的地方也很多,大家一起进步!
JJJ69
- 粉丝: 6006
- 资源: 5613
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功