没有合适的资源?快使用搜索试试~ 我知道了~
安卓毕业设计a源码网站-lightSpider:lightsmile个人的用于爬取网络公开语料数据的mini通用爬虫框架
共32个文件
py:24个
jpg:3个
txt:2个
需积分: 9 0 下载量 83 浏览量
2021-06-06
03:30:33
上传
评论
收藏 309KB ZIP 举报
温馨提示
安卓毕业设计a源码网站 lightSpider lightsmile个人的用于爬取网络公开语料数据的mini通用爬虫框架。 声明 本项目仅是本人简单尝试,系统功能并不完善。 已有的特性: 启用代理池,降低ip被封带来的损失风险 启用多进程,加快进程爬取速度 实现断点重爬,即使程序因内外在原因挂掉了,可以继续执行任务脚本继续爬取 启用进度条,可实时显示当前爬取总进度与爬取速度,用户体验较好 提供了爬取百度百科的实现,提供批量爬取和单项查询两种模式,简单易用 邮件提醒功能,程序可以在任务执行完成后发送邮件到指定邮箱 本项目并没有: 验证码登录功能 其他复杂功能 等等。 安装 pip install lightSpider 建议使用国内源来安装,如使用以下命令: pip install -i https://pypi.douban.com/simple/ lightSpider 使用 step1: 引入必要依赖库 from lightspider import Spider, light, DEFAULT_PROXY step2:编写页面解析函数 如: # 编写页面解析函数 @light d
资源推荐
资源详情
资源评论
收起资源包目录
lightSpider-master.zip (32个子文件)
lightSpider-master
res
lightSpider-recrawl-2.jpg 87KB
lightSpider-demo.jpg 111KB
lightSpider-recrawl-1.jpg 84KB
LICENSE 11KB
version.txt 5B
requirements.txt 37B
examples
baike_href.py 382B
blog.py 4KB
w3guo_people.py 869B
baike_info.py 497B
baike_table.py 288B
jyc.py 1KB
baike_search.py 294B
baike_query.py 335B
baike_info2.py 496B
w3guo_pic.py 2KB
baike_href2.py 497B
setup.py 1KB
.gitignore 2KB
lightspider
spider.py 5KB
downloader.py 2KB
__init__.py 249B
writer.py 1KB
worker.py 1KB
utils
__init__.py 0B
proxy.py 294B
baike
href.py 1KB
search.py 1KB
table.py 3KB
__init__.py 0B
info.py 5KB
README.md 72KB
共 32 条
- 1
资源评论
weixin_38517904
- 粉丝: 4
- 资源: 967
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功