1688爬虫，通过搜索关键词采用selenium爬取指定页数的商品信息.zip

共23个文件

pyc：8个

py：6个

txt：5个

版权申诉

爬虫

python

数据收集

84 浏览量 2024-03-01 12:29:31 上传评论收藏 6.06MB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

1688爬虫，通过搜索关键词采用selenium爬取指定页数的商品信息。喜欢的话点个星星(＾Ｕ＾)ノ~ＹＯThe 1688 crawler uses selenium to crawl a specified number of pages of product infor….zip （23个子文件）

SJT-code

cookies.txt 5KB

utility

__init__.py 86B

generate_headers.py 931B

headers_config.py 965B

tools.py 4KB

__pycache__

generate_headers.cpython-37.pyc 1KB

save_json.cpython-39.pyc 2KB

__init__.cpython-39.pyc 249B

headers_config.cpython-37.pyc 1KB

tools.cpython-37.pyc 3KB

__init__.cpython-37.pyc 224B

generate_headers.cpython-39.pyc 1KB

save_table.cpython-39.pyc 1KB

details

readme.md 63B

爬取商品详情页.py 8KB

ip.txt 1KB

chromedriver.exe 11.29MB

goods_detail_information.csv 346KB

requirements.txt 2B

1688爬虫主文件.py 16KB

links.txt 2KB

README.md 2KB

readme.txt 1KB

# 1688爬虫(基于selenium) ## 项目概述：通过搜索关键词采用selenium+selenium日志hook(亮点：自行查找相关功能,实现所有请求包括ajax动态请求的监听)爬取指定页数的商品信息，包括公司名，五项评分，综合评分，价格，所有宝贝图的图片，以及产品的规格，尺寸暂时没写。不足之处：验证码，已经写了ip切换的功能，暂时没找到合适的ip池，需要的自行根据代码将注释取消启用，并且修改ip.txt的内容即可，ip通过http https 地址+端口直连的方式连接。在爬取频繁之后，一般是十个商品会出现一次验证码，目前采用的方式是在电脑人工切换ip刷新页面。数量不多的话影响不大。 ## 项目更新说明： ### 第三版更新说明: 优化了程序，使之能完整的运行。未来可以继续优化的步骤：效率高于扫码登录的更优方式，ip验证问题（遇到ip验证需要人力解决） ### 第二版更新说明: - 修改了退换体验分数为空时存表为-1的错误 - 修改了成交额显示错误的问题 - 美化了下代码 ## 需求分析 - 分析商品页ajax链接（下的）存储到{keyword}_{sort_type}.csv 中 (此功能在py爬虫文件均自动重新生成) ## 主要代码实现 ## 其他描述： - 直接运行主文件 ## 测试： cookies容易失效，后续考虑多账号轮番登录，登录暂时需要人工 ## 配置：略 ## 安装包：目录下 requirements.txt文件打开当前目录的dos窗口，输入: ``` pip install -r requirements.txt ``` 本代码仅供个人参考交流探讨更优方案等。

评论收藏

内容反馈

版权申诉