下载 >  开发技术 >  Python > 一个可以定制的爬虫
4分

一个可以定制的爬虫

本程序是用python编写,无需安装。运行Crawler.exe就可以看到效果。</br> 如果不修改配置是抓取新浪科技的内容,修改配置可以抓取指定的网站。</br> 配置文件采用ini的格式.</br> spider_config.ini蜘蛛的配置</br> 1. maxThreads 爬虫的线程数</br> 2. startURL 爬虫开始的URL</br> 3. checkFilter 爬虫只抓取指定的URL(采用正则表达式匹配)</br> 4. urlFilter 爬虫提供给分析器的URL(采用正则表达式匹配)</br> sucker_config.ini 网页分析器的配置</br> 1. maxThreads 分析器的线程数</br> 2. pattern parser匹配的正则表达式</br> 3. parser 指定对应pattern的分析器</br> 本程序支持自定义分析器。可以参照软件包中NewsParser.py的写法自己写个parser,前提是熟悉pyt hon。写好后运行compile编译承pyc就可以了 ...展开详情收缩
2007-04-06 上传大小:1.23MB
立即下载 开通VIP
分享
收藏 (15) 举报

评论 共38条

rebecca_g 感谢楼主分享!
2017-11-09
回复
qqjiushigeshabi 不太懂,慢慢学习中
2017-08-24
回复
janetyuu 不错,谢谢lz分享,我会好好学习的
2017-05-26
回复

热点文章

  • 网络爬虫软件——专业定制,值得拥有!

    2017-12-08 njgssoft
  • 网络爬虫十九-定制规则扩展为垂直爬虫

    2017-03-29 saizo123
  • 使用python,scrapy写(定制)爬虫的经验,资料,杂。

    2015-03-28 kezhen
  • python 爬虫源码

    2008-12-29 loveofcsdt
  • 利用WebCollector爬虫内核定制自己的爬虫——任务生成器Generator

    2014-08-24 AJAXHu
  • 爬虫很简单么?直到我抓取了一千亿个网页后我懂!爬虫真不简单!

    2018-07-20 qq_42156420
  • 爬虫(9):使用处理器Handler

    2018-07-03 yx1179109710
  • 小爬虫(爬取网站的数据)

    2018-02-18 qq_37651894
  • Python爬虫open定制

    2016-08-16 PE_IT
关闭
img

spring mvc+mybatis+mysql+maven+bootstrap 整合实现增删查改简单实例.zip

资源所需积分/C币 当前拥有积分 当前拥有C币
5 0 0
点击完成任务获取下载码
输入下载码
为了良好体验,不建议使用迅雷下载
img

一个可以定制的爬虫

会员到期时间: 剩余下载个数: 剩余C币: 剩余积分:0
为了良好体验,不建议使用迅雷下载
VIP下载
您今日下载次数已达上限(为了良好下载体验及使用,每位用户24小时之内最多可下载20个资源)

积分不足!

资源所需积分/C币 当前拥有积分
您可以选择
开通VIP
4000万
程序员的必选
600万
绿色安全资源
现在开通
立省522元
或者
购买C币兑换积分 C币抽奖
img

资源所需积分/C币 当前拥有积分 当前拥有C币
5 4 45
为了良好体验,不建议使用迅雷下载
确认下载
img

资源所需积分/C币 当前拥有积分 当前拥有C币
5 0 0
为了良好体验,不建议使用迅雷下载
VIP和C币套餐优惠
img

资源所需积分/C币 当前拥有积分 当前拥有C币
5 4 45
您的积分不足,将扣除 10 C币
为了良好体验,不建议使用迅雷下载
确认下载
下载
无法举报自己的资源

兑换成功

你当前的下载分为234开始下载资源
你还不是VIP会员
开通VIP会员权限,免积分下载
立即开通

你下载资源过于频繁,请输入验证码

您因违反CSDN下载频道规则而被锁定帐户,如有疑问,请联络:webmaster@csdn.net!

举报

若举报审核通过,可返还被扣除的积分

  • 举报人:
  • 被举报人:
  • *类型:
    • *投诉人姓名:
    • *投诉人联系方式:
    • *版权证明:
  • *详细原因: