在 spider 中编写不同网站所对应的爬虫代码,在 items.py 中定义每一个爬虫
的爬取字段,在 middlewares.py 中定义所要使用的中间插件,例如:用户代理
池、IP 代理池等等,在 pipelines.py 中编写每一个爬虫爬取下来存储信息的代码,
在 settings.py 中设置相关的组件以及申明。
其中主要了解一下 spider 文件中爬虫文件的结构:
利用 import 引入 scrapy 包,接着定义爬虫的 class 类,满足 scrapy.Spider
或 crawl .Spider 方法,然后为此爬虫设置一个独一无二的名字,赋值 name。然
后在 allowed_domains 中将所要爬取网站的域名填入。在 start_urls 中写入所要
爬取网站的 url 列表,之后的 parse 函数就会从 start_urls 的队列中取出 url 进行
访问并且获取相关信息,并解析。
在 parse 方法中,可以利用正则表达式、xpath、beautifulsoup 等等解析网
页的方法进行解析(可以混合使用),知道获取到我们所要找的信息,利用
yield 函数返回 item 就可以了。所以此项目是在这个基础上进行复杂化,但是
基本原理没有变化,唯独要注意的是,在解析网页的时候,由于每一个网页的
网页结构不一样,所以一个网站的解析方法只能试用与该网页,其余网页不可
以。在每一个网页解析过程中,同一网站中相同的网页可能有不同的结构,所
以需要多次与长期调试代码来尽可能适应所有页面。
评论0
最新资源