下载 >  开发技术 >  Python > 一个可以定制的爬虫

一个可以定制的爬虫

2007-04-06 上传大小:1.23MB
分享
本程序是用python编写,无需安装。运行Crawler.exe就可以看到效果。</br>
如果不修改配置是抓取新浪科技的内容,修改配置可以抓取指定的网站。</br>
配置文件采用ini的格式.</br>
spider_config.ini蜘蛛的配置</br>
1. maxThreads 爬虫的线程数</br>
2. startURL  爬虫开始的URL</br>
3. checkFilter 爬虫只抓取指定的URL(采用正则表达式匹配)</br>
4. urlFilter 爬虫提供给分析器的URL(采用正则表达式匹配)</br>

sucker_config.ini 网页分析器的配置</br>
1. maxThreads  分析器的线程数</br>
2. pattern parser匹配的正则表达式</br>
3. parser 指定对应pattern的分析器</br>

本程序支持自定义分析器。可以参照软件包中NewsParser.py的写法自己写个parser,前提是熟悉pyt
                            hon。写好后运行compile编译承pyc就可以了                        
...展开收缩
综合评分:4
开通VIP 立即下载

评论共有38条

rebecca_g 2017-11-09 20:29:46
感谢楼主分享!
qqjiushigeshabi 2017-08-24 12:37:21
不太懂,慢慢学习中
Janetyuu 2017-05-26 00:42:17
不错,谢谢lz分享,我会好好学习的
 

热点文章

VIP会员动态

推荐下载

定制爬虫
3C币 2340下载
什么是定制爬虫
3C币 2340下载
详解定制一个linux内核
3C币 97下载
可以自由定制进销存软件系统
3C币 4下载
爬虫可以下载图片
2C币 27下载
关闭
img

spring mvc+mybatis+mysql+maven+bootstrap 整合实现增删查改简单实例.zip

资源所需积分/C币 当前拥有积分 当前拥有C币
5 0 0
点击完成任务获取下载码
输入下载码
为了良好体验,不建议使用迅雷下载
img

一个可以定制的爬虫

会员到期时间: 剩余下载个数: 剩余C币: 剩余积分:0
为了良好体验,不建议使用迅雷下载
VIP下载
您今日下载次数已达上限(为了良好下载体验及使用,每位用户24小时之内最多可下载20个资源)

积分不足!

资源所需积分/C币 当前拥有积分
您可以选择
开通VIP
4000万
程序员的必选
600万
绿色安全资源
现在开通
立省522元
或者
购买C币兑换积分 C币抽奖
img

资源所需积分/C币 当前拥有积分 当前拥有C币
5 4 45
为了良好体验,不建议使用迅雷下载
确认下载
img

资源所需积分/C币 当前拥有积分 当前拥有C币
5 0 0
为了良好体验,不建议使用迅雷下载
开通VIP
img

资源所需积分/C币 当前拥有积分 当前拥有C币
5 4 45
您的积分不足,将扣除 10 C币
为了良好体验,不建议使用迅雷下载
确认下载
下载
无法举报自己的资源

兑换成功

你当前的下载分为234开始下载资源
你还不是VIP会员
开通VIP会员权限,免积分下载
立即开通

你下载资源过于频繁,请输入验证码

您因违反CSDN下载频道规则而被锁定帐户,如有疑问,请联络:webmaster@csdn.net!

举报

若举报审核通过,可返还被扣除的积分

  • 举报人:
  • 被举报人:
  • *类型:
    • *投诉人姓名:
    • *投诉人联系方式:
    • *版权证明:
  • *详细原因: