# 1688爬虫(基于selenium)
## 项目概述:
通过搜索关键词采用selenium+selenium日志hook(亮点:自行查找相关功能,实现所有请求包括ajax动态请求的监听)爬取指定页数的商品信息,包括公司名,五项评分,综合评分,价格,所有宝贝图的图片,以及产品的规格,尺寸暂时没写。
不足之处:验证码,已经写了ip切换的功能,暂时没找到合适的ip池,需要的自行根据代码将注释取消启用,并且修改ip.txt的内容即可,ip通过http https 地址+端口直连的方式连接。在爬取频繁之后,一般是十个商品会出现一次验证码,目前采用的方式是在电脑人工切换ip刷新页面。数量不多的话影响不大。
## 项目更新说明:
### 第三版更新说明:
优化了程序,使之能完整的运行。
未来可以继续优化的步骤:效率高于扫码登录的更优方式,ip验证问题(遇到ip验证需要人力解决)
### 第二版更新说明:
- 修改了退换体验分数为空时存表为-1的错误
- 修改了成交额显示错误的问题
- 美化了下代码
## 需求分析
- 分析商品页ajax链接(下的)存储到{keyword}_{sort_type}.csv 中 (此功能在py爬虫文件均自动重新生成)
## 主要代码实现
## 其他描述:
- 直接运行主文件
## 测试:
cookies容易失效,后续考虑多账号轮番登录,登录暂时需要人工
## 配置:
略
## 安装包:
目录下 requirements.txt文件
打开当前目录的dos窗口,输入:
```
pip install -r requirements.txt
```
本代码仅供个人参考交流探讨更优方案等。
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
【资源说明】 基于selenium爬取通过搜索关键词采用指定页数的商品信息资料齐全+详细文档+源码.zip 【备注】 1、该项目是个人高分项目源码,已获导师指导认可通过,答辩评审分达到95分 2、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 3、本项目适合计算机相关专业(人工智能、通信工程、自动化、电子信息、物联网等)的在校学生、老师或者企业员工下载使用,也可作为毕业设计、课程设计、作业、项目初期立项演示等,当然也适合小白学习进阶。 4、如果基础还行,可以在此代码基础上进行修改,以实现其他功能,也可直接用于毕设、课设、作业等。 欢迎下载,沟通交流,互相学习,共同进步!
资源推荐
资源详情
资源评论
收起资源包目录
基于selenium爬取通过搜索关键词采用指定页数的商品信息资料齐全+详细文档+源码.zip (24个子文件)
1688-selenium-spider-main
cookies.txt 5KB
utility
__init__.py 86B
generate_headers.py 931B
headers_config.py 965B
tools.py 4KB
__pycache__
generate_headers.cpython-37.pyc 1KB
save_json.cpython-39.pyc 2KB
__init__.cpython-39.pyc 249B
headers_config.cpython-37.pyc 1KB
tools.cpython-37.pyc 3KB
__init__.cpython-37.pyc 224B
generate_headers.cpython-39.pyc 1KB
save_table.cpython-39.pyc 1KB
details
readme.md 63B
爬取商品详情页.py 8KB
ip.txt 1KB
chromedriver.exe 11.29MB
goods_detail_information.csv 346KB
requirements.txt 2B
1688爬虫主文件.py 16KB
links.txt 2KB
README.md 2KB
readme.txt 1KB
CSDN
软件
项目授权码.txt 268B
共 24 条
- 1
资源评论
Yuki-^_^
- 粉丝: 3101
- 资源: 2952
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功