爬虫试验scrapypython2.7资源-CSDN文库

共2个文件

txt：1个

msi：1个

1星需积分: 9 180 浏览量 2016-06-17 14:30:44 上传评论收藏 17.3MB RAR 举报

Scrapy是一个强大的、开源的网络爬虫框架，用于Python编程语言。在Python 2.7版本下，你可以利用Scrapy构建高效且可扩展的爬虫项目。本篇将深入探讨Scrapy框架及其与Python 2.7的兼容性，以及VCForPython27.msi组件在安装过程中的作用。让我们了解Scrapy的核心组件和工作流程。Scrapy由多个模块组成，包括Spider（蜘蛛）、Item（数据模型）、Item Pipeline（数据处理管道）、Request/Response（网络请求和响应）、Middleware（中间件）等。Spider是爬虫的主要部分，定义了如何抓取页面和解析数据。Item定义了要抓取的数据结构，而Item Pipeline负责清洗、验证和存储这些数据。Request和Response则用于网络通信，Middleware则允许自定义Scrapy的行为，如处理重试、用户代理、cookies等。在Python 2.7环境下使用Scrapy，你需要确保系统已经安装了Python 2.7版本，并通过`pip install scrapy`命令来安装Scrapy框架。不过，值得注意的是，Python 2.7已在2020年停止官方支持，建议迁移到Python 3.x，以获得更好的性能和更新的安全修复。 VCForPython27.msi是Visual C++ Redistributable for Python 2.7，这是Microsoft Visual C++的一个组件，用于运行使用Python 2.7编译的C扩展模块，比如Scrapy的一些底层依赖。在某些情况下，你可能需要单独下载并安装这个组件，以便Python 2.7环境能够正确运行Scrapy和其他依赖于C库的Python模块。在创建Scrapy项目时，通常会使用`scrapy startproject project_name`命令。接着，你可以定义Spider，比如在`spiders`目录下创建一个新的Python文件，然后编写爬虫逻辑。例如： ```python import scrapy class MySpider(scrapy.Spider): name = 'myspider' start_urls = ['http://example.com'] def parse(self, response): for item in response.css('selector'): yield { 'data_key': item.css('data-selector').get(), } ``` 这里的`start_urls`指定了爬虫开始抓取的URL，`parse`方法是默认的回调函数，用于处理每个请求的响应，并从中提取数据。`css`方法用于选择器操作，类似于CSS选择器，方便地从HTML或XML文档中提取数据。 Scrapy提供了丰富的功能，如自动处理HTTP请求和响应、内置的下载延迟以防止服务器压力过大、强大的XPath和CSS选择器用于解析页面、以及易于扩展的架构。然而，由于Python 2.7已过时，强烈推荐使用Python 3.x来运行Scrapy，以获取更好的性能和社区支持。总结起来，Scrapy是一个强大的Python爬虫框架，适用于Python 2.7，但建议升级到Python 3.x。VCForPython27.msi组件对于运行依赖C库的Python 2.7应用至关重要。掌握Scrapy的基本概念和用法，可以有效地构建网络爬虫，实现自动化数据采集。

资源推荐

资源详情

资源评论

收起资源包目录

爬虫试验.rar （2个子文件）

爬虫试验

新建文本文档.txt 1KB

python-2.7.11.msi 17.77MB

===========python 安装=========== 安装 Python 2.7 将python的安装路径加入到环境变量的path 里 python test.py 运行脚本 python请求一个网页这个是3.4 版本 import urllib.request with urllib.request.urlopen('http://www.python.org/') as f: print(f.read(300)) print 之前一定有空格，python 严格缩进最好还是在eclipse pydev 插件里进行开发 =====搭建scrapy======= get-pip.py python get-pip.py 安装 C:\Python2.7\;C:\Python2.7\Scripts\; 将python 和下面的脚本目录加入到环境变量，包括script里保护有 pip 脚本 pip install Scrapy 依赖于 http://aka.ms/vcpython27 Microsoft Visual C++ 9.0 先安装 http://www.microsoft.com/en-us/download/details.aspx?id=44266 以下为我们的第一个Spider代码，保存在 tutorial/spiders 目录下的 dmoz_spider.py 文件中: ------------ import scrapy class DmozSpider(scrapy.Spider): name = "dmoz" allowed_domains = ["dmoz.org"] start_urls = [ "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/", "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/" ] def parse(self, response): filename = response.url.split("/")[-2] with open(filename, 'wb') as f: f.write(response.body) --------------------- 进入项目的根目录，执行下列命令启动spider: scrapy crawl dmoz 报错 scrapy项目运行报错： exceptions.ImportError: No module named win32api 缺少包所致，pip 运行 pip install pypiwin32 爬取得数据可以保存为json ，结合xpath表达式进行过滤

评论收藏

内容反馈