# Simpyder - Simple Python Spider
Simpyder - 轻量级**协程**Python爬虫
## 特点
- 轻量级:下载便利,依赖较少,使用简单。
- 协程:单线程,通过协程实现并发。
- 可定制:简单配置,适应各种爬取场合。
## 快速开始
### 下载
```bash
#使用pip3
pip3 install simpyder --user
```
```bash
# 更新包
pip3 install simpyder --upgrade
```
### 编码
用户只需要定义三个函数,实现三个模块:
#### 链接获取
我们需要一个定义一个[异步生成器](https://docs.python.org/zh-cn/3/c-api/gen.html),用于产生链接。
``` python
async def gen_url():
for each_id in range(100):
yield "https://www.biliob.com/api/video/{}".format(each_id)
```
#### 链接解析
我们需要定义一个解析链接的函数。其中第一个参数是Response对象,也就是上述函数对应URL的访问结果。
该函数需要返回一个对象,作为处理结果。
注意,与普通函数不同,这是一个协程函数。需要在前面加上`async`。代表该函数是异步的。
``` python
async def parse(response):
return response.xpath('//meta[@name="title"]/@content')[0]
```
#### 数据导出
上面函数的处理结果将在这个函数中统一被导出。下列例子为直接在控制台中打印导出结果。
保存需要IO操作,因此这个函数可能运行较慢,因此也需要是异步的。我们在前面添加`async`关键词
``` python
async def save(item):
print(item)
```
### 然后将这些模块组成一个Spider
首先导入爬虫对象:
``` python
import AsynSpider from simpyder.spiders
```
你可以这样组装Spider
``` python
spider = AsyncSpider()
spider.gen_url = gen_url
spider.parse = parse
spider.save = save
```
### 接着就可以开始爬虫任务
``` python
s.run()
```
### 你也可以通过构造函数进行一些配置
``` python
spider = AsyncSpider(name="TEST")
```
## 示例程序
``` python
from simpyder.spiders import AsynSpider
# new一个异步爬虫
s = AsynSpider()
# 定义链接生成的生成器,这里是爬取800次百度首页的爬虫
def g():
count = 0
while count < 800:
count += 1
yield "https://www.baidu.com"
# 绑定生成器
s.gen_url = g
# 定义用于解析的异步函数,这里不进行任何操作,返回一段文本
async def p(res):
return "parsed item"
# 绑定解析器
s.parse = p
# 定义用于存储的异步函数,这里不进行任何操作,但是返回2,表示解析出2个对象
async def s(item):
return 2
# 绑定存储器
s.save = s
# 运行
s.run()
```
## 理论速率
运行上述代码,可以得到单进程、并发数:64、仅进行计数操作的下载速率:
``` log
[2020-09-02 23:42:48,097][CRITICAL] @ Simpyder: user_agent: Simpyder ver.0.1.9
[2020-09-02 23:42:48,169][CRITICAL] @ Simpyder: concurrency: 64
[2020-09-02 23:42:48,244][CRITICAL] @ Simpyder: interval: 0
[2020-09-02 23:42:48,313][INFO] @ Simpyder: 已经爬取0个链接(0/min),共产生0个对象(0/min)
[2020-09-02 23:42:48,319][INFO] @ Simpyder: Start Crawler: 0
[2020-09-02 23:42:53,325][INFO] @ Simpyder: 已经爬取361个链接(4332/min),共产生658个对象(7896/min)
[2020-09-02 23:42:58,304][INFO] @ Simpyder: 已经爬取792个链接(5280/min),共产生1540个对象(10266/min)
[2020-09-02 23:43:03,304][INFO] @ Simpyder: 已经爬取1024个链接(4388/min),共产生2048个对象(8777/min)
[2020-09-02 23:43:05,007][CRITICAL] @ Simpyder: Simpyder任务执行完毕
[2020-09-02 23:43:05,008][CRITICAL] @ Simpyder: 累计消耗时间:0:00:16.695013
[2020-09-02 23:43:05,008][CRITICAL] @ Simpyder: 累计爬取链接:1024
[2020-09-02 23:43:05,009][CRITICAL] @ Simpyder: 累计生成对象:2048
```
---
- 该项目由[@Jannchie](https://github.com/Jannchie)维护
- 你可以通过邮箱[jannchie@gmail.com](jannchie@gmail.com)进行联系
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对获取的HTML进行解析,提取有用的信息。常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。 遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施,如验证码、IP封锁等。爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问网站的服务器负责。
资源推荐
资源详情
资源评论
收起资源包目录
超高速异步协程Python爬虫.zip (17个子文件)
SJT-code
.travis.yml 209B
setup.py 1KB
.github
FUNDING.yml 749B
LICENSE 1KB
demo
zhihu.py 1KB
demo.py 659B
simpyder
utils.py 2KB
__init__.py 90B
scheduler.py 227B
spiders
__init__.py 64B
asyn_spider.py 8KB
spiders.py 9KB
__version__.py 23B
config.py 198B
requirements.txt 44B
.gitignore 2KB
README.md 4KB
共 17 条
- 1
资源评论
JJJ69
- 粉丝: 6028
- 资源: 5613
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于matlab实现文档+程序边缘计算任务卸载与资源调度的算法,是论文的源代码,具有价值.rar
- 什么是学生成绩管理系统c++以及学习学生成绩管理系统的意义
- 什么是词向量-以及学习关于了解词向量的意义
- 什么是mybatis动态sql以及学习mybatis动态sql的意义
- 华为数据治理方法论,包括:数据治理框架、数据治理组织架构、数据治理度量评估体系以及华为数据治理案例分享
- 基于matlab实现对表面肌电信号进行归一化处理,并对归一化后的图形显示 .rar
- 基于matlab实现单级倒立摆的 T-S 模型 包括 LMI 程序源码
- 图书管理系统(struts+hibernate+spring+ext).rar
- 基于matlab实现此压缩包包含语音信号处理中的语音变声代码加音频.rar
- STM32使用PWM驱动舵机并通过OLED显示
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功