支持抓取javascript渲染的页面的简单实用高效的python网页爬虫抓取模块.zip

共26个文件

py：17个

json：5个

md：1个

版权申诉

爬虫

python

数据收集

130 浏览量 2024-03-01 12:58:31 上传评论收藏 16KB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

Simple And Easy Python Crawler Framework，支持抓取javascript渲染的页面的简单实用高效的python网页爬虫抓取模块.zip （26个子文件）

SJT-code

setup.py 2KB

demo

userinput

demobing.py 658B

bing.json 1KB

callback

callback.json 3KB

callback.py 562B

webkit

webkit.json 2KB

demowebkit.py 466B

customaction

custom.json 3KB

demobasic.py 588B

tour

demobasic.py 560B

basic.json 3KB

MANIFEST.in 57B

.gitignore 78B

README.md 2KB

pyrailgun

__init__.py 133B

modules

__init__.py 26B

logging.conf 321B

pattern.py 3KB

logger.py 1KB

cwebbrowser.py 3KB

railgun.py 5KB

actions

__init__.py 27B

fetcher.py 3KB

action.py 552B

parser.py 2KB

createShell.py 824B

NEED Python2.7 or Python3+ 功能 * 支持从[json](https://github.com/princehaku/pyrailgun/blob/master/demo/tour/basic.json)文件读取抓取任务 * 支持 python字典数据源方式定义抓取任务 * [通配符和多页码抓取](https://github.com/princehaku/pyrailgun/wiki/用通配符抓取多页码数据) * [参数暂存和传递深度抓取](https://github.com/princehaku/pyrailgun/wiki/参数传递) * [css选择器](https://github.com/princehaku/pyrailgun/wiki/css选择器) * [使用requests抓取网页](https://github.com/princehaku/pyrailgun/wiki/使用requests抓取网页) * [使用webkit内核抓取网页](https://github.com/princehaku/pyrailgun/wiki/使用webkit内核抓取网页) 安装 * [从pip安装] (https://pypi.python.org/pypi/pyrailgun) `pip install pyrailgun` * 源码安装 `python setup.py install` 语法 * [json对象说明](https://github.com/princehaku/pyrailgun/wiki/json%E6%96%87%E4%BB%B6%E6%A0%BC%E5%BC%8F%E8%AF%B4%E6%98%8E) 例子 * [快速入门] (https://github.com/princehaku/pyrailgun/wiki/简单使用说明) * [全功能简单例子] (https://github.com/princehaku/pyrailgun/blob/master/demo/tour/) * [读取输入变量] (https://github.com/princehaku/pyrailgun/blob/master/demo/userinput/) * [WebKit抓取] (https://github.com/princehaku/pyrailgun/blob/master/demo/webkit/) * [在没有X的服务器上运行webkit内核抓取](https://github.com/princehaku/pyrailgun/wiki/在没有X的服务器上运行webkit内核抓取) 贡献者 * hitmaft lekko 其他 * python2.7 是必须的 * [_pages](https://github.com/princehaku/pyrailgun/wiki/_pages) 更新 * 0.25 fix 一个crash问题 * 0.24 受版权限制，替换webbroser为自己写的版本去除yaml的支持

评论收藏

内容反馈

版权申诉