csdn博客小爬虫python

共9个文件

py：8个

cmd：1个

爬虫,python

需积分: 10 13 下载量 128 浏览量 2017-04-25 22:42:34 上传评论收藏 3KB RAR 举报

温馨提示

将指定csdn账号下的所有博客下载到data文件夹下,以txt形式存储,文件名为博客名

资源推荐

资源详情

资源评论

收起资源包目录

blog_crawler.rar （9个子文件）

blog_crawler

core

Crawler.py 655B

Delay.py 611B

__init__.py 21B

Downloader.py 1KB

data

app

__init__.py 21B

Scraper.py 1KB

__init__.py 21B

setup.py 685B

setup.cmd 22B

共 9 条

# -- coding: utf-8 -- import re import urlparse import os import lxml.html class Scraper: def __init__(self, seed_url, link_regx, filter_link_regx): self.link_regx = re.compile(link_regx, re.IGNORECASE) self.filter_link_regx = filter_link_regx self.links = [] self.seed_url = seed_url self.basepath = os.getcwd()+"/data/" def handler_data(self, html): self.get_links(html) self.get_data(html) def get_links(self, html): self.links = [] temp_links = self.link_regx.findall(html) for link in temp_links: if(re.match(self.filter_link_regx, link)): link = urlparse.urljoin(self.seed_url, link) self.links.append(link) def get_data(self, html): tree = lxml.html.fromstring(html) title = tree.cssselect('div.article_title > h1 > span.link_title > a')[0].text_content() title = re.sub('[\/:*?"<>|\r\n]', "", str.strip(str(title))) content = tree.cssselect('div#article_content') if content: self.save(title, str(content[0].text_content())) def save(self, title, content): title = unicode(title) filehandler = open(self.basepath+title+".txt", "w+") filehandler.write(content) filehandler.close()

评论收藏

内容反馈

资源评论