一个可以定制的爬虫

共9个文件

exe：2个

ini：2个

pyd：2个

crawler

python

爬虫

5星 · 超过95%的资源需积分: 50 1.4k 下载量 179 浏览量 2007-04-06 17:09:44 上传评论 21 收藏 1.23MB RAR 举报

温馨提示

本程序是用python编写，无需安装。运行Crawler.exe就可以看到效果。</br> 如果不修改配置是抓取新浪科技的内容，修改配置可以抓取指定的网站。</br> 配置文件采用ini的格式.</br> spider_config.ini蜘蛛的配置</br> 1. maxThreads 爬虫的线程数</br> 2. startURL 爬虫开始的URL</br> 3. checkFilter 爬虫只抓取指定的URL（采用正则表达式匹配)</br> 4. urlFilter 爬虫提供给分析器的URL（采用正则表达式匹配)</br> sucker_config.ini 网页分析器的配置</br> 1. maxThreads 分析器的线程数</br> 2. pattern parser匹配的正则表达式</br> 3. parser 指定对应pattern的分析器</br> 本程序支持自定义分析器。可以参照软件包中NewsParser.py的写法自己写个parser，前提是熟悉python。写好后运行compile编译承pyc就可以了

资源推荐

资源详情

资源评论

收起资源包目录

crawler.rar （9个子文件）

sucker_config.ini 93B

NewsParser.py 981B

_socket.pyd 48KB

Crawler.exe 889KB

_ssl.pyd 488KB

spider_config.ini 148B

NewsParser.pyc 1KB

python24.dll 1.79MB

compile.exe 319KB

共 9 条

import re from Parser import * class NewsParser(Parser): """ doParse 这个方法必须实现，参数page为一个dict,page有两个键－url和html，通过page['url']可以获得url,page['html']获得网页的HTML """ def doParse(self,page): self.URL = page['url'] self.Html = page['html'] result={} result['url'] = page['url'] sPattern='notice(?P<code>\d{6})_(?P<id>\d{1,7})\.html' result.update(self.suckItem(page['url'], sPattern)) sPattern='<h1>(?P<title>.*?)</h1>.*?<div class="artibody" id="artibody">(?P<content>.*?)</div>' result.update(self.suckItem(page['html'], sPattern)) if result.has_key('title'): print result['url'],result['title'] return result def suckItem(self,str,sPattern): pattern = re.compile(sPattern,re.IGNORECASE | re.DOTALL) m=pattern.search(str) if m: return m.groupdict() else: return {}

评论收藏

内容反馈

资源评论