首先我们需要几个包:requests, lxml, bs4, pymongo, redis
1. 创建爬虫对象,具有的几个行为:抓取页面,解析页面,抽取页面,储存页面
class Spider(object):
def __init__(self):
# 状态(是否工作)
self.status = SpiderStatus.IDLE
# 抓取页面
def fetch(self, current_url):
pass
# 解析页面
def parse(self, html_page):
pass
# 抽取页面
def extract(self, html_pag