NEED Python2.7 or Python3+
功能
* 支持从[json](https://github.com/princehaku/pyrailgun/blob/master/demo/tour/basic.json)文件读取抓取任务
* 支持 python字典数据源方式 定义抓取任务
* [通配符和多页码抓取](https://github.com/princehaku/pyrailgun/wiki/用通配符抓取多页码数据)
* [参数暂存和传递 深度抓取](https://github.com/princehaku/pyrailgun/wiki/参数传递)
* [css选择器](https://github.com/princehaku/pyrailgun/wiki/css选择器)
* [使用requests抓取网页](https://github.com/princehaku/pyrailgun/wiki/使用requests抓取网页)
* [使用webkit内核抓取网页](https://github.com/princehaku/pyrailgun/wiki/使用webkit内核抓取网页)
安装
* [从pip安装] (https://pypi.python.org/pypi/pyrailgun) `pip install pyrailgun`
* 源码安装 `python setup.py install`
语法
* [json对象说明](https://github.com/princehaku/pyrailgun/wiki/json%E6%96%87%E4%BB%B6%E6%A0%BC%E5%BC%8F%E8%AF%B4%E6%98%8E)
例子
* [快速入门] (https://github.com/princehaku/pyrailgun/wiki/简单使用说明)
* [全功能简单例子] (https://github.com/princehaku/pyrailgun/blob/master/demo/tour/)
* [读取输入变量] (https://github.com/princehaku/pyrailgun/blob/master/demo/userinput/)
* [WebKit抓取] (https://github.com/princehaku/pyrailgun/blob/master/demo/webkit/)
* [在没有X的服务器上运行webkit内核抓取](https://github.com/princehaku/pyrailgun/wiki/在没有X的服务器上运行webkit内核抓取)
贡献者
* hitmaft lekko
其他
* python2.7 是必须的
* [_pages](https://github.com/princehaku/pyrailgun/wiki/_pages)
更新
* 0.25
fix 一个crash问题
* 0.24
受版权限制,替换webbroser为自己写的版本
去除yaml的支持
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对获取的HTML进行解析,提取有用的信息。常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。 遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施,如验证码、IP封锁等。爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问网站的服务器负责。
资源推荐
资源详情
资源评论
收起资源包目录
Simple And Easy Python Crawler Framework,支持抓取javascript渲染的页面的简单实用高效的python网页爬虫抓取模块.zip (26个子文件)
SJT-code
setup.py 2KB
demo
userinput
demobing.py 658B
bing.json 1KB
callback
callback.json 3KB
callback.py 562B
webkit
webkit.json 2KB
demowebkit.py 466B
customaction
custom.json 3KB
demobasic.py 588B
tour
demobasic.py 560B
basic.json 3KB
MANIFEST.in 57B
.gitignore 78B
README.md 2KB
pyrailgun
__init__.py 133B
modules
__init__.py 26B
logging.conf 321B
pattern.py 3KB
logger.py 1KB
cwebbrowser.py 3KB
railgun.py 5KB
actions
__init__.py 27B
fetcher.py 3KB
action.py 552B
parser.py 2KB
createShell.py 824B
共 26 条
- 1
资源评论
JJJ69
- 粉丝: 6166
- 资源: 5674
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于matlab实现用有限元法计算电磁场的Matlab工具 .rar
- 基于matlab实现有限元算法 计算电磁场问题 边界条件包括第一类边界和第二类边界.rar
- 基于matlab实现用于计算不同车重下的电动汽车动力性和经济性.rar
- 基于matlab实现遗传算法求解多车场车辆路径问题 有多组算例可以用.rar
- 浏览器.apk
- 基于matlab实现是一个matlab中的power system 中搭建的一个模型
- 基于JSP毕业设计-教学管理系统(源代码+论文).zip
- 基于JSP毕业设计-家政管理系统-毕业设计.zip
- 基于Python实现淘宝商品评论采集(含逆向)源代码
- 基于matlab实现多目标进化算法NSGAⅡ&Matlab讲解.rar
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功