# Muto
项目取名为哥斯拉--怪兽之王里的长腿怪兽👾
![muto](https://github.com/qi20172017/Muto/blob/product/muto.jpeg)
----------------
一个支持分布式的爬虫项目
技术栈:python, java, android, js, celery,rabbitmq, mysql, psql, sqlalchemy
### 项目简介
Muto是一个支持分布式的爬虫项目,目前是写了两个APP平台的数据接口。
项目启停用systemd控制,相关代码在doc目录下。本项目采用celery+rabbitmq的框架,将每个接口的爬虫注册成一个个worker的形式。相关配置代码在app目录下。数据库支持mysql、psql,用sqlalchemy构建ORM。redis用作了缓存一点页数数据。相关代码在model目录中。最后,爬虫文件在plantform目录下。
### 部署
#### 配置文件
moen-haozu.service 根据自己实际情况配置哈,只需要改这两项就行
```shell
EnvironmentFile=/etc/conf.d/moen-haozu.conf .conf文件的路径
WorkingDirectory=/alidata/server/Muto ./项目路径
```
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对获取的HTML进行解析,提取有用的信息。常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。 遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施,如验证码、IP封锁等。爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问网站的服务器负责。
资源推荐
资源详情
资源评论
收起资源包目录
剑鱼爬虫.zip (79个子文件)
SJT-code
exceptions
__init__.py 0B
exception.py 5KB
__pycache__
__init__.cpython-37.pyc 136B
exception.cpython-37.pyc 6KB
doc
__init__.py 0B
moen-jianyu.service 440B
moen-jianyu.conf 2KB
moen-jianyu_back.conf 1KB
robot_spider.conf 578B
moen-zhiliao.conf 549B
wechat_receive_task_one.conf 622B
wechat_receive_task.conf 606B
translate_bid_data.conf 601B
moen-jianyu_20231114.conf 2KB
moen-zhiliao.service 441B
robot_send_task.conf 590B
robot_receive_task.conf 602B
app
__init__.py 0B
wechat_app.py 2KB
moen_app.py 4KB
__pycache__
__init__.cpython-39.pyc 126B
muto.jpeg 29KB
setting.py 471B
common
__init__.py 0B
us.py 2KB
tools.py 1KB
__pycache__
tools.cpython-37.pyc 982B
__init__.cpython-37.pyc 132B
config.py 227KB
sec
__init__.py 335B
templates
register.html 3KB
get-user.html 3KB
post-json.html 2KB
test-json.html 873B
run.py 3KB
static
jquery.min.js 94KB
model
__init__.py 0B
db_connects.py 523B
rds.py 373B
msql
__init__.py 0B
my_dao
my_jy_dao.py 2KB
__init__.py 0B
__pycache__
__init__.cpython-37.pyc 143B
my_item_jy.py 4KB
__pycache__
my_moen_db.cpython-37.pyc 458B
__init__.cpython-37.pyc 136B
my_moen_db.py 370B
kfk_connect.py 882B
mixin.py 7KB
__pycache__
serialize.cpython-37.pyc 1KB
mixin.cpython-37.pyc 7KB
__init__.cpython-37.pyc 131B
serialize.py 971B
requirements.txt 2KB
.gitignore 59B
robot
__init__.py 335B
robot_send_task_back1.py 37KB
robot_test_yq.py 2KB
robot_spider.py 43KB
robot_send_task.py 40KB
robot_test_send.py 14KB
robot_test_receive.py 4KB
wechat_test_receive.py 4KB
wechat_receive_task.py 36KB
wechat_test_send.py 14KB
robot_receive_task.py 48KB
plantform
__init__.py 0B
wechat_receive_task_one.py 36KB
zhiliao_puchong.py 14KB
zl_count.py 3KB
jianyu.py 139KB
zhiliao.py 13KB
translate_bid_data.py 40KB
send_task_zhiliao.py 3KB
wechat_receive_task.py 36KB
requirements.txt 195B
send_task.py 109KB
send_task_auto.py 32KB
README.md 1KB
共 79 条
- 1
资源评论
JJJ69
- 粉丝: 6222
- 资源: 5780
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功