# 1688爬虫(基于selenium)
## 项目概述:
通过搜索关键词采用selenium+selenium日志hook(亮点:自行查找相关功能,实现所有请求包括ajax动态请求的监听)爬取指定页数的商品信息,包括公司名,五项评分,综合评分,价格,所有宝贝图的图片,以及产品的规格,尺寸暂时没写。
不足之处:验证码,已经写了ip切换的功能,暂时没找到合适的ip池,需要的自行根据代码将注释取消启用,并且修改ip.txt的内容即可,ip通过http https 地址+端口直连的方式连接。在爬取频繁之后,一般是十个商品会出现一次验证码,目前采用的方式是在电脑人工切换ip刷新页面。数量不多的话影响不大。
## 项目更新说明:
### 第三版更新说明:
优化了程序,使之能完整的运行。
未来可以继续优化的步骤:效率高于扫码登录的更优方式,ip验证问题(遇到ip验证需要人力解决)
### 第二版更新说明:
- 修改了退换体验分数为空时存表为-1的错误
- 修改了成交额显示错误的问题
- 美化了下代码
## 需求分析
- 分析商品页ajax链接(下的)存储到{keyword}_{sort_type}.csv 中 (此功能在py爬虫文件均自动重新生成)
## 主要代码实现
## 其他描述:
- 直接运行主文件
## 测试:
cookies容易失效,后续考虑多账号轮番登录,登录暂时需要人工
## 配置:
略
## 安装包:
目录下 requirements.txt文件
打开当前目录的dos窗口,输入:
```
pip install -r requirements.txt
```
本代码仅供个人参考交流探讨更优方案等。
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对获取的HTML进行解析,提取有用的信息。常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。 遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施,如验证码、IP封锁等。爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问网站的服务器负责。
资源推荐
资源详情
资源评论
收起资源包目录
1688爬虫,通过搜索关键词采用selenium爬取指定页数的商品信息。喜欢的话点个星星(^U^)ノ~YOThe 1688 crawler uses selenium to crawl a specified number of pages of product infor….zip (23个子文件)
SJT-code
cookies.txt 5KB
utility
__init__.py 86B
generate_headers.py 931B
headers_config.py 965B
tools.py 4KB
__pycache__
generate_headers.cpython-37.pyc 1KB
save_json.cpython-39.pyc 2KB
__init__.cpython-39.pyc 249B
headers_config.cpython-37.pyc 1KB
tools.cpython-37.pyc 3KB
__init__.cpython-37.pyc 224B
generate_headers.cpython-39.pyc 1KB
save_table.cpython-39.pyc 1KB
details
readme.md 63B
爬取商品详情页.py 8KB
ip.txt 1KB
chromedriver.exe 11.29MB
goods_detail_information.csv 346KB
requirements.txt 2B
1688爬虫主文件.py 16KB
links.txt 2KB
README.md 2KB
readme.txt 1KB
共 23 条
- 1
资源评论
JJJ69
- 粉丝: 5967
- 资源: 5593
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功