一个可以定制的爬虫

资源大小: 1.23MB
资源类型:rar文件
发布人: tongtech   等级:3    
发布日期: 3个月前
Tag: crawler python 爬虫
资源分: 0
下载人数: 706

软件说明:

本程序是用python编写,无需安装。运行Crawler.exe就可以看到效果。</br>
如果不修改配置是抓取新浪科技的内容,修改配置可以抓取指定的网站。</br>
配置文件采用ini的格式.</br>
spider_config.ini蜘蛛的配置</br>
1. maxThreads 爬虫的线程数</br>
2. startURL 爬虫开始的URL</br>
3. checkFilter 爬虫只抓取指定的URL(采用正则表达式匹配)</br>
4. urlFilter 爬虫提供给分析器的URL(采用正则表达式匹配)</br>

sucker_config.ini 网页分析器的配置</br>
1. maxThreads 分析器的线程数</br>
2. pattern parser匹配的正则表达式</br>
3. parser 指定对应pattern的分析器</br>

本程序支持自定义分析器。可以参照软件包中NewsParser.py的写法自己写个parser,前提是熟悉python。写好后运行compile编译承pyc就可以了

共有评论
网站简介|广告服务|VIP资费标准|银行汇款帐号|网站地图|帮助|联系方式|诚聘英才|English|版权声明|问题报告
北京创新乐知广告有限公司 版权所有, 京 ICP 证 070598 号
世纪乐知(北京)网络技术有限公司 提供技术支持
Copyright©2000-2007, CSDN.NET, All Rights Reserved
GongshangLogo