分析
需求:
爬取西刺代理网免费高匿代理,并保存到MySQL数据库中。
这里只爬取前10页中的数据。
思路:
分析网页结构,确定数据提取规则
创建Scrapy项目
编写item,定义数据字段
编写spider,实现数据抓取
编写Pipeline,保存数据到数据库中
配置settings.py文件
运行爬虫项目
代码实现
items.py
import scrapy
class XicidailiItem(scrapy.Item):
# 国家
country=scrapy.Field()
# IP地址
ip=scrapy.Field()
#