## linux命令
- 每隔0.1秒刷新一次显存使用情况
```shell
watch -n 0.1 -d nvidia-smi
```
- 0.5s刷新一次
```shell
top -d 0.5
```
- 实时查看某个进程的情况
```shell
top -p pid
```
- 查看某个进程的内存占用
```shell
ps -p pid -o rss= | awk '{ printf "%.2f MB\n", $1 / 1024 }'
```
## 内存、显存占用
### 单独启动fastapi,不加载任何模型
1个worker 内存占用:402MB
2个worker 内存占用:parent进程399MB,每个worker进程402MB
3个worker 内存占用:parent进程399MB,每个worker进程402MB
n个worker 内存占用:parent进程399MB,每个worker进程402MB
### 只有bge-large-zh-v1.5模型
1个worker:
加载模型后显存占用:1932MB
加载模型后内存占用:3138MB,3127MB,3124MB
上传54个知识库文档后:
加载模型后内存占用:3127MB
gc前:
显存占用:2786MB
内存占用:3325MB
gc后:
显存占用:2312MB
内存占用:3325MB
jmemer->worker_embed_documents 1次:
加载模型后内存占用:3124MB
gc前:
显存占用:2314MB
内存占用:3307MB
gc后:
显存占用:2312MB
内存占用:3307MB
2个worker:
加载模型后每个worker进程显存占用:1932MB
加载模型后内存占用:parent进程400MB,每个worker进程大约3125MB
jmemer->worker_embed_documents 20次:
加载模型后内存占用:3125MB
gc前:
显存占用:2314MB(每个worker)
内存占用:3308MB(每个worker)
gc后:
显存占用:2312MB(每个worker)
内存占用:3308MB(每个worker)
### 只有bge-reranker-base模型
1个worker:
启动后不占用显存
启动后内存占用:1884MB
首次会加载模型较慢,A4000大约5s,第2次0.9s
jmemer->worker_compute_score_by_query 1次:
gc前:
显存占用:2156MB
内存占用:3206MB
gc后:
显存占用:2154MB
内存占用:3206MB
## 并发
测试方式:1s内发送完n个请求
标准:90%请求在3s内响应
### RTX 4090
#### 只加载bge-large-zh-v1.5模型
1workers
worker_embed_query:130,性能瓶颈在cpu,gpu占16%
worker_embed_documents:50,性能瓶颈在cpu,gpu占61%,gpu占用跟字数成正比
2workers
worker_embed_query:250,性能瓶颈在cpu,gpu占61%
worker_embed_documents:55,性能瓶颈在gpu,gpu占100%
3workers
worker_embed_query:370,性能瓶颈在cpu,gpu占90%
worker_embed_documents:50,性能瓶颈在gpu,gpu占100%
4workers
worker_embed_query:500,gpu占99%
#### 只加载bge-reranker-base模型
1workers
worker_compute_score_by_query:220,性能瓶颈在cpu,gpu占27%
2workers
worker_compute_score_by_query:450,性能瓶颈在cpu,gpu占59%
3workers
worker_compute_score_by_query:590,性能瓶颈在cpu,gpu占85%
4workers
worker_compute_score_by_query:700,性能瓶颈在cpu,gpu占99%
#### 同时加载bge-large-zh-v1.5和bge-reranker-base模型
同时请求:worker_embed_query和worker_compute_score_by_query
1workers:100,gpu占24%
2workers:180,gpu占59%
3workers:280,gpu占81%
### RTX 3090
#### 只加载bge-large-zh-v1.5模型
1workers
worker_embed_query:100,性能瓶颈在cpu,gpu占16%
worker_embed_documents:30,性能瓶颈在cpu,gpu占81%,gpu占用跟字数成正比
2workers
worker_embed_query:200,性能瓶颈在cpu,gpu占70%
worker_embed_documents:35,性能瓶颈在gpu,gpu占100%
3workers
worker_embed_query:280,性能瓶颈在cpu,gpu占97%
worker_embed_documents:30,性能瓶颈在gpu,gpu占100%
4workers
worker_embed_query:350,gpu占100%
#### 只加载bge-reranker-base模型
1workers
worker_compute_score_by_query:150,性能瓶颈在cpu,gpu占33%
2workers
worker_compute_score_by_query:270,性能瓶颈在cpu,gpu占67%
3workers
worker_compute_score_by_query:390,性能瓶颈在cpu,gpu占92%
4workers
worker_compute_score_by_query:450,性能瓶颈在cpu,gpu占99%
#### 同时加载bge-large-zh-v1.5和bge-reranker-base模型
同时请求:worker_embed_query和worker_compute_score_by_query
1workers:70,gpu占30%
2workers:140,gpu占68%
3workers:200,gpu占90%
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
安装 pip install -r requirements.txt 配置 在 application/settings 中 添加以下配置: EMBEDDINGS_ENABLED = True EMBEDDINGS_MODEL_NAME = "bge-large-zh-v1.5" EMBEDDINGS_MODEL_PATH = r"E:\WorkSpace\LLMWorkSpace\Models\Embedding\bge-large-zh-v1.5" RERANKER_ENABLED = True RERANKER_MODEL_NAME = "bge-reranker-base" RERANKER_MODEL_PATH = r"E:\WorkSpace\LLMWorkSpace\Models\reranker\bge-reranker-base" 启动 python manage.py run-server
资源推荐
资源详情
资源评论
收起资源包目录
fastllm-main.zip (44个子文件)
fastllm-main
application
__init__.py 0B
settings.py 1KB
routes.py 225B
langchain
__init__.py 0B
embeddings.py 2KB
reranker.py 4KB
requirements.txt 31B
LICENSE 1KB
modules
__init__.py 0B
fastllm
__init__.py 0B
model_loader
utils.py 568B
__init__.py 0B
reranker
__init__.py 0B
reranker_worker.py 2KB
chat
__init__.py 0B
model_worker.py 5KB
embeddings
__init__.py 0B
embeddings_worker.py 2KB
huggingface.py 9KB
base_embeddings.py 357B
event.py 2KB
routes.py 3KB
tests
reranker_loader_test.py 2KB
base64_test.py 56KB
embeddings_test.py 283B
reranker_test.py 471B
jmeter
fast_llm.jmx 32KB
测试结果
说明.txt 145B
RTX 4090
规格详情.txt 2KB
只加载reranker模型.xlsx 23KB
只加载embeddings模型.xlsx 27KB
加载embeddings&reranker模型.xlsx 30KB
RTX 3090
规格详情.txt 3KB
只加载reranker模型.xlsx 21KB
只加载embeddings模型.xlsx 25KB
加载embeddings&reranker模型.xlsx 27KB
imgs
bge-large-zh-v1.5
02上传54个知识库文档后显存占用(gc前).png 10KB
01加载后显存占用.png 10KB
03上传54个知识库文档后显存占用(gc后).png 10KB
README.md 4KB
manage.py 625B
requirements.txt 148B
.gitignore 3KB
README.md 542B
共 44 条
- 1
资源评论
十小大
- 粉丝: 9140
- 资源: 2552
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 物模块模型代码,前往设计物模块所属
- Java面试手册,助力大家面试过五关斩六将,面试成功
- HITK0303MP-VB一款P-Channel沟道SOT23的MOSFET晶体管参数介绍与应用说明
- mybatis动态sql之xml增删改查批量操作示例EmpMapper.xml
- C/C++内存检测工具Sanitizers
- HITK0302MP-VB一款N-Channel沟道SOT23的MOSFET晶体管参数介绍与应用说明
- 宝塔批量建站工具,很优秀的宝塔管理工具,基于宝塔api
- HITK0204MP-VB一款N-Channel沟道SOT23的MOSFET晶体管参数介绍与应用说明
- azeryhgtfxhj
- 操作系统实验页面置换算法
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功