# pyFetch
基于python的分布式爬虫
[DEMO: https://fetch.flysay.com](https://fetch.flysay.com)
### 安装mongoDB
https://www.mongodb.org/downloads
默认端口运行mongoDB
### 安装依赖
linux 安装
#ubuntu
apt-get install build-essential
apt-get install python-dev
#centos
yum groupinstall "Development Tools"
yum install python-devel
windows 下的 gevent 可能需要安装 Microsoft Visual C++ Compiler for Python 2.7 http://www.microsoft.com/en-us/download/confirmation.aspx?id=44266
pip install requests
pip install pymongo
pip install flask
pip install flask-compress
pip install gevent
pip install tld
pip install click
pip install pybloomfiltermmap
### 执行
服务器
python service.py
客服端
python client.py
### 访问
http://127.0.0.1
## Todo list
- 参数可配置化, 还有mongo的连接配置
- slave 执行环境安全
- setup.py
- 列表的时间排序有问题
- 每个项目都可以添加多个url抓取入口
- 项目与爬虫的抓取频率显示
- 结果页面图片浏览模式
- 新建项目且修改代码时,会有缓存且爬虫会使用旧代码进行抓取
- 当有域名403时, mongod CPU占用较高
免责声明:
1.本资源仅供学习和交流使用,不保证其准确性、完整性、及时性或适用性。
2.本资源仅包含一般信息,不构成专业建议。在使用本资源时,请务必自行研究并谨慎决策。
3.我已尽力确保本资源的正确性和合法性,但不对其准确性、完整性和及时性做出保证。
4.本资源不应用于商业用途。
5.在使用本资源的过程中,用户应自行承担所有风险和责任,并遵守相关法律法规。
6.对于因使用本资源而产生的任何损失或损害,我概不负责。
请确保在使用本资源时仔细阅读并遵守以上免责声明。如果您有任何疑问或需要进一步帮助,请联系我。
资源最后修改时间:2024-11-12 20:41:17
110056527710288
602075e4-f925-41a8-bce8-17139629b195
没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
收起资源包目录
基于python的分布式爬虫.zip (63个子文件)
pyFetch-master
helper.py 22KB
slave_ctrl.py 470B
mongo_single.py 314B
setup.py 267B
LICENSE 11KB
web
__init__.py 0B
templates
main.html 3KB
component
result.html 2KB
project.html 2KB
slave.html 3KB
task.html 924B
error-list.html 1KB
project-edit.html 3KB
index.html 910B
exec-test.html 2KB
result-image.html 2KB
403-list.html 1KB
static
js
angular-animate.min.js 13KB
angular-cookies.min.js 825B
imagesloaded.pkgd.min.js 7KB
highcharts.js 158KB
codemirror-component.min.js 7KB
codemirror.js 148KB
app.js 18KB
angular-resource.min.js 3KB
loading-bar.min.js 3KB
angular-masonry.min.js 2KB
masonry.pkgd.min.js 28KB
angular.min.js.map 341KB
angular-route.min.js 4KB
angular-aria.min.js 3KB
angular-loader.min.js 1KB
base.js 0B
script.min.js 2KB
angular.min.js 123KB
jquery-2.1.4.min.js 82KB
ui-bootstrap-custom-tpls-0.13.0.min.js 10KB
css
bootstrap.min.css 89KB
font-awesome.min.css 26KB
loading-bar.min.css 2KB
codemirror.min.css 8KB
base.css 1KB
fonts
FontAwesome.otf 104KB
fontawesome-webfont.eot 67KB
fontawesome-webfont.woff 79KB
fontawesome-webfont.woff2 63KB
fontawesome-webfont.svg 348KB
fontawesome-webfont.ttf 135KB
web_ui.py 10KB
.idea
scopes
scope_settings.xml 139B
jieba_cut.py 836B
pagination.py 4KB
functions.py 3KB
requirements.txt 73B
service.py 6KB
.gitignore 12B
setup.cfg 56B
client.py 4KB
test.py 435B
spider.py 3KB
ser_handle.py 4KB
README.md 2KB
spider_for_test.py 3KB
共 63 条
- 1
资源评论
苹果酱0567
- 粉丝: 1413
- 资源: 543
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功