# AmazonSpider - 亚马逊采集
基于 **[DrissionPage](https://gitee.com/g1879/DrissionPage) + [SQLAlchemy](https://www.sqlalchemy.org/) + [lxml](https://pypi.org/project/lxml/)** 的多线程爬虫(需要Chrome浏览器)
## 采集内容
- 商品名称
- 商品价格
- 商品链接
- 商品图片链接
- 商品详情
## 功能
- 可以指定关键词爬取商品信息
- 可以指定线程数量
- 可以指定代理
- 使用`sqlacodegen`通过数据表生成对象
- 使用`SQLAlchemy ORM`框架操作数据库,详情查看`model`包
## 配置
参考`config.yaml`:
```yaml
# 数据库配置
DatabaseConfig:
# Mysql配置
MysqlConfig:
host: 127.0.0.1 # 主机
port: 3306 # 端口
database_name: aamazon_spider # 数据库名称
username: root # 用户名
password: root # 密码
# Sqlalchemy配置
SqlalchemyConfig:
on_echo: false # 是否开启查询日志
# 爬虫配置
SpiderConfig:
# 关键词列表
keywords:
- 玩具
- 电脑
- 手机
# 爬取数量(条)
spider_size: 1000
# 爬虫线程数,网速快可以设置多一点
spider_worker: 8
# 爬取URL模板
search_url_template: https://www.amazon.com/s?k={}
# 主页URL
home_url: https://www.amazon.com
# 是否开启代理
proxies: true
# 代理URL
proxies_url: http://127.0.0.1:8889
```
## 运行
- 安装依赖 `pip install -r requirements.txt`
- 通过数据表生成对象 `python sql2object.py`
- 通过对象生成数据表 `python object2sql.py`
- 爬虫,启动!`python main.py`
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对获取的HTML进行解析,提取有用的信息。常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。 遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施,如验证码、IP封锁等。爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问网站的服务器负责。
资源推荐
资源详情
资源评论
收起资源包目录
亚马逊商品爬虫,根据搜索关键字爬取.zip (21个子文件)
SJT-code
sql2object.py 429B
main.py 74B
object2sql.py 223B
config.yaml 756B
model
__init__.py 88B
ProductModel.py 794B
requirements.txt 85B
.gitignore 12B
util
__init__.py 0B
SqlacodegenUtil.py 673B
StringUtil.py 359B
TimeUtil.py 484B
MysqlUtil.py 1KB
RequestsUtil.py 1KB
logic
ProductLogic.py 2KB
__init__.py 226B
SpiderLogic.py 11KB
README.md 2KB
config
__init__.py 299B
DatabaseConfig.py 941B
SpiderConfig.py 1KB
共 21 条
- 1
资源评论
- 2301_801115612024-01-31需要vpn?JJJ692024-03-05亚马逊是外网当然需要
JJJ69
- 粉丝: 6353
- 资源: 5918
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功