Pythontornado队列示例-一个并发web爬虫代码分享_pythonhttpserver接口资源-CSDN文库

htmlparser

6 浏览量 2020-12-23 17:28:39 上传评论收藏 57KB PDF 举报

资源详情

资源评论

资源推荐

Python tornado队列示例队列示例-一个并发一个并发web爬虫代码分享爬虫代码分享

Queue

Tornado的tornado.queue模块为基于协程的应用程序实现了一个异步生产者/消费者模式的队列。这与python标准库为多线程

环境实现的queue模块类似。

一个协程执行到yieldqueue.get会暂停，直到队列中有条目。如果queue有上限，一个协程执行yieldqueue.put将会暂停，直到

队列中有空闲的位置。

在一个queue内部维护了一个未完成任务的引用计数，每调用一次put操作便会增加引用计数，而调用task_done操作将会减少

引用计数。

下面是一个简单的web爬虫的例子：

最开始，queue只包含一个基准url。当一个worker从中取出一个url后，它会从对应的页面中解析中所包含的url并将其放入队

列，然后调用task_done减少引用计数一次。

最后，worker会取出一个url，而这个url页面中的所有url都已经被处理过了，这时队列中也没有url了。这时调用task_done会

将引用计数减少至0.

这样,在main协程里，join操作将会解除挂起并结束主协程。

这个爬虫使用了HTMLParse来解析html页面。

import time

from datetime import timedelta

try:

from HTMLParser import HTMLParser

from urlparse import urljoin, urldefrag

except ImportError:

from html.parser import HTMLParser

from urllib.parse import urljoin, urldefrag

from tornado import httpclient, gen, ioloop, queues

base_url = 'http://www.tornadoweb.org/en/stable/'

concurrency = 10

@gen.coroutine

def get_links_from_url(url):

"""Download the page at `url` and parse it for links.

Returned links have had the fragment after `#` removed, and have been made

absolute so, e.g. the URL 'gen.html#tornado.gen.coroutine' becomes

'http://www.tornadoweb.org/en/stable/gen.html'.

"""

try:

response = yield httpclient.AsyncHTTPClient().fetch(url)

print('fetched %s' % url)

html = response.body if isinstance(response.body, str) \

else response.body.decode()

urls = [urljoin(url, remove_fragment(new_url))

for new_url in get_links(html)] except Exception as e:

print('Exception: %s %s' % (e, url))

raise gen.Return([])

raise gen.Return(urls)

#用于从一个包含片段的url中提取中真正的url.

def remove_fragment(url):

pure_url, frag = urldefrag(url)

return pure_url

def get_links(html):

class URLSeeker(HTMLParser):

def __init__(self):

HTMLParser.__init__(self)

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余1页未读，立即下载

评论收藏

内容反馈

weixin_38503233

粉丝: 8
资源: 918

Python tornado队列示例-一个并发web爬虫代码分享

评论0

最新资源

Python tornado队列示例-一个并发web爬虫代码分享

评论0

Python-TornaREST基于Tornado实现的简洁RESTfulweb服务

tornado-reactjs:在带有模板的 Tornadoweb 服务器中使用 React.js 框架的样板代码

cassandra_tornado_todo:在 2015 年 DePy 会议上给出的“Cassandra 和 Python 入门”演讲的示例代码。 该代码是一个简单的“待办事项”列表，使用 Tornado 来演示在 Python Web 应用程序中使用 Cassandra

Python 2.7,离线安装合集tornado,backports_abc,certifi,ordereddict,six

Python库 | tornado-redis-session-0.1.3.tar.gz

tornado-4.5.2-cp36-cp36m-win_amd64

tornado-4.5.2-cp36-cp36m-win_amd64.zip

Python库 | tornado-swirl-0.1.9.tar.gz

Python库 | tornado-4.5.3-cp35-cp35m-win32.whl

Python库 | tornado-6.1-cp36-cp36m-manylinux1_x86_64.whl

Python库 | tornado-5.0.1-cp36-cp36m-win_amd64.whl

Python库 | tornado-4.4-cp35-cp35m-win32.whl

tornado-6.1-cp38-cp38-win32

python-tornado-doc-4.4.2-2.el7.x86_64.rpm

python-tornado-doc-4.5.2-5.el8.aarch64.rpm

tornado-6.0.3-cp38-cp38-win_amd64.whl

tornado-6.0.2-cp37-cp37m-win_amd64.whl

tornado python web开发

基于Python+pytorch的图像处理+附完整代码图像处理，能够轻松实现图像的读取、显示、裁剪等还有机器学习等操作

python大作业 含爬虫、数据可视化、地图、报告、及源码（2016-2021全国各地区粮食产量）.rar

《点燃我温暖你》中李峋的同款爱心代码

Python金融量化的高级库：TA-Lib-0.4.24（包含python3.7、3.8、3.9、3.10的32位和64位版本）

第十五届蓝桥杯大赛软件赛省赛-PythonB组题目

大麦网抢票脚本【Python脚本】

Python数据分析项目实践，包括数据读取、评估、清洗、分析、可视化机器学习相关内容等

YOLOv8-火焰识别（火焰数据集+代码+GUI界面+内置训练好的模型文件）

人脸识别系统OpenCV+dlib+python（含数据库）Pyqt5界面设计 项目源码 毕业设计

Python学习笔记(干货) 中文PDF完整版.pdf

Python教程2020版 完全入门 达到Python工程师水平 笔记+代码+课件+资料

最新资源

cassandra_tornado_todo:在 2015 年 DePy 会议上给出的“Cassandra 和 Python 入门”演讲的示例代码。该代码是一个简单的“待办事项”列表，使用 Tornado 来演示在 Python Web 应用程序中使用 Cassandra

python大作业含爬虫、数据可视化、地图、报告、及源码（2016-2021全国各地区粮食产量）.rar

人脸识别系统OpenCV+dlib+python（含数据库）Pyqt5界面设计项目源码毕业设计

Python教程2020版完全入门达到Python工程师水平笔记+代码+课件+资料