## 更新
```html
!!!拼多多策略修改, 列表页及搜索页都需要在请求头中加 'AccessToken': "登录后的 token", 才可以访问!!!
!!!或者 IP 质量较好,直接访问也是可以获取数据的!!!
```
## 拼多多加密参数解析
```txt
1.txt -> 测试获取的数据
pdd.py -> python 运行文件
merge.js -> 获取 anti_content 加密参数的 js 合并文件
Get_c
Get_i
Get_s
Get_u
上述四个 js 文件是为了解密 anti_content 参数而需要的 4 个对象(在 merge.js 中已经包含使用, 这里是为了方便查看)
```
#### 测试使用
```txt
运行代码(会生成 1.txt 文件将获取数据写入):
python3 pdd.py
只获取 anti_content 结果:
node merge.js
```
## 全站抓取
#### 步骤一: 获取一级二级分类,并处理
```txt
文件路径: pin_duoduo/pin_duoduo/utils.py
执行过程: process_first() => 生成 pdd_first.json 文件
执行结果: 一级分类二级分类信息保存完成
```
#### 步骤二: 进行准备工作, 获取三级分类
```txt
文件路径: pin_duoduo/pin_duoduo/spiders/readyWork.py
执行过程: 通过运行 scrapy 爬虫 readyWork 获取二级分类的首页来获取三级分类 => 生成 work.json 文件
执行结果: 三级分类信息保存完成
```
#### 步骤三: 获取列表数据(只进行到这一步, 没有进详情页, 基本数据在列表页即可获取完成)
```txt
文件路径: pin_duoduo/pin_duoduo/spiders/pdd.py
执行过程: 通过运行 scrapy 爬虫 pdd 循环获取列表数据(测试只获取 5 页数据) => 生成 data.json 文件
执行结果: 总体流程完成,数据获取成功
```
## 说明
```python
"""
pdd_sanic 是使用 sanic 简单写的一个 web 服务, 通过 post api 来获取数据(没有使用)
使用方式: 首先运行 run.py 文件, 然后运行 _test.py 即可看到效果
"""
"""
pdd_search.py 是搜索接口数据获取的方式, 可以用来帮助改写成按关键字搜索的爬虫
"""
"""
randomproxy.py 是自定义的 scrapy 中间件, 实现代理更换 | user-agent 更换 | 请求出错时更换代理并重爬等功能,
可以直接将这个中间件应用到其它 scrapy 爬虫项目中
"""
"""
pipelines.py 中直接使用 scrapy 提供的 exporters.JsonItemExporter 进行数据存储,
并且在存储列表数据时直接将 json 数据保存, 并没有定义 item
"""
```
没有合适的资源?快使用搜索试试~ 我知道了~
pdd (拼多多) 爬虫 js 解密 anti-content 参数解密及全站抓取代码思路实现.zip
共46个文件
py:16个
pyc:10个
js:7个
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
5星 · 超过95%的资源 2 下载量 14 浏览量
2023-11-05
08:28:17
上传
评论
收藏 186KB ZIP 举报
温馨提示
pdd (拼多多) 爬虫 js 解密 anti_content 参数解密及全站抓取代码思路实现.zip
资源推荐
资源详情
资源评论
收起资源包目录
pdd (拼多多) 爬虫 js 解密 anti_content 参数解密及全站抓取代码思路实现.zip (46个子文件)
empty_file.txt 0B
pinduoduo-master
Get_i.js 9KB
1.txt 28KB
pdd.py 1KB
.gitattributes 93B
merge.js 117KB
Get_c.js 18KB
pin_duoduo
scrapy.cfg 263B
.idea
workspace.xml 33KB
pin_duoduo.iml 504B
misc.xml 292B
modules.xml 272B
encodings.xml 135B
run.py 198B
pdd_search.py 1KB
pin_duoduo
utils.py 3KB
__init__.py 0B
pipelines.py 2KB
merge.js 117KB
data
pdd_first.json 22KB
data.json 127KB
work.json 109KB
randomproxy.py 2KB
spiders
__init__.py 161B
pdd.py 3KB
readyWork.py 3KB
__pycache__
pdd.cpython-37.pyc 3KB
__init__.cpython-37.pyc 165B
readyWork.cpython-37.pyc 2KB
items.py 431B
settings.py 3KB
__pycache__
randomproxy.cpython-37.pyc 2KB
items.cpython-37.pyc 406B
pipelines.cpython-37.pyc 3KB
settings.cpython-37.pyc 497B
__init__.cpython-37.pyc 157B
utils.cpython-37.pyc 3KB
middlewares.py 4KB
pdd_sanic
__init__.py 55B
_test.py 354B
merge.js 117KB
run.py 1KB
__pycache__
__init__.cpython-37.pyc 215B
Get_u.js 29KB
README.md 3KB
Get_s.js 53KB
共 46 条
- 1
资源评论
- wei&pei2024-04-18资源很赞,希望多一些这类资源。
- qq4378422023-12-02简直是宝藏资源,实用价值很高,支持!
xiaoshun007~
- 粉丝: 3797
- 资源: 3145
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功