下载 > 资源分类 >  开发技术 >  Python > 一个可以定制的爬虫

一个可以定制的爬虫

2007-04-06 上传大小:1.23MB
本程序是用python编写,无需安装。运行Crawler.exe就可以看到效果。</br>
如果不修改配置是抓取新浪科技的内容,修改配置可以抓取指定的网站。</br>
配置文件采用ini的格式.</br>
spider_config.ini蜘蛛的配置</br>
1. maxThreads 爬虫的线程数</br>
2. startURL  爬虫开始的URL</br>
3. checkFilter 爬虫只抓取指定的URL(采用正则表达式匹配
                            )</br>
4. urlFilter 爬虫提供给分析器的URL(采用正则表达式匹配)</br>

sucker_config.ini 网页分析器的配置</br>
1. maxThreads  分析器的线程数</br>
2. pattern parser匹配的正则表达式</br>
3. parser 指定对应pattern的分析器</br>

本程序支持自定义分析器。可以参照软件包中NewsParser.py的写法自己写个parser,前提是熟悉python。写好后运行compile编译承pyc就可以了                                                    
...展开收缩
综合评分:4(38位用户评分)
开通VIP C币充值 立即下载

评论共有38条

rebecca_g 2017-11-09 20:29:46
感谢楼主分享!
qqjiushigeshabi 2017-08-24 12:37:21
不太懂,慢慢学习中
janetyuu 2017-05-26 00:42:17
不错,谢谢lz分享,我会好好学习的

登录后才能评论

 
一个可以定制的爬虫 立即下载
积分/C币:3
论文《面向P2P搜索的可定制聚焦网络爬虫》 立即下载
积分/C币:3
论文《可定制的聚焦网络爬虫》 立即下载
积分/C币:3
Scrapy_轻松定制网络爬虫 立即下载
积分/C币:10
用C#定制一个简单的浏览器源程序,IE内核 立即下载
积分/C币:3
定制 SWT RCP 界面--如何编写一个漂亮的 SWT 立即下载
积分/C币:3
定制一个简单的安装向导 立即下载
积分/C币:3
一个可以让你定制你的应用程序中窗口的标题条的ActiveX控件(682K 立即下载
积分/C币:3
一个自由定制的Material Design风格FloatingActionButton 立即下载
积分/C币:5
用Scratch2.0源码定制一个自己的编辑器 立即下载
积分/C币:5
关闭
img

spring mvc+mybatis+mysql+maven+bootstrap 整合实现增删查改简单实例.zip

资源所需积分/C币 当前拥有积分 当前拥有C币
5 0 0
扫码关注并点击右下角获取下载码
输入下载码
为了良好体验,不建议使用迅雷下载
img

一个可以定制的爬虫

会员到期时间: 剩余下载个数: 剩余C币: 剩余积分:
为了良好体验,不建议使用迅雷下载
VIP下载
您今日下载次数已达上限(为了良好下载体验及使用,每位用户24小时之内最多可下载20个资源)

积分不足!

资源所需积分/C币 当前拥有积分
您可以选择
开通VIP
4000万
程序员的必选
600万
绿色安全资源
现在开通
立省522元
或者
购买C币兑换积分 C币抽奖
img

资源所需积分/C币 当前拥有积分 当前拥有C币
5 4 45
(仅够下载10个资源)
为了良好体验,不建议使用迅雷下载
确认下载
img

资源所需积分/C币 当前拥有积分 当前拥有C币
5 0 0
为了良好体验,不建议使用迅雷下载
C币充值 开通VIP
img

资源所需积分/C币 当前拥有积分 当前拥有C币
5 4 45
您的积分不足,将扣除 10 C币
为了良好体验,不建议使用迅雷下载
确认下载
下载

兑换成功

你当前的下载分为234开始下载资源
你还不是VIP会员
开通VIP会员权限,免积分下载
立即开通

你下载资源过于频繁,请输入验证码

您因违反CSDN下载频道规则而被锁定帐户,如有疑问,请联络:webmaster@csdn.net!

举报

若举报审核通过,可奖励5下载分

  • 举报人:
  • 被举报人:
  • 举报的资源分:
  • *类型:
  • *详细原因: