安卓毕业设计a源码网站
lightSpider
lightsmile个人的用于爬取网络公开语料数据的mini通用爬虫框架。
声明
本项目仅是本人简单尝试,系统功能并不完善。
已有的特性:
启用代理池,降低ip被封带来的损失风险
启用多进程,加快进程爬取速度
实现断点重爬,即使程序因内外在原因挂掉了,可以继续执行任务脚本继续爬取
启用进度条,可实时显示当前爬取总进度与爬取速度,用户体验较好
提供了爬取百度百科的实现,提供批量爬取和单项查询两种模式,简单易用
邮件提醒功能,程序可以在任务执行完成后发送邮件到指定邮箱
本项目并没有:
验证码登录功能
其他复杂功能
等等。
安装
pip
install
lightSpider
建议使用国内源来安装,如使用以下命令:
pip
install
-i
https://pypi.douban.com/simple/
lightSpider
使用
step1:
引入必要依赖库
from
lightspider
import
Spider,
light,
DEFAULT_PROXY
step2:编写页面解析函数
如:
#
编写页面解析函数
@light
d