大语言模型调用接口（python）_HuggingFaceEmbeddings资源-CSDN文库

共44个文件

py：25个

xlsx：6个

txt：5个

版权申诉

语言模型

python

41 浏览量 2024-03-29 09:30:12 上传评论收藏 217KB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

fastllm-main.zip （44个子文件）

fastllm-main

application

__init__.py 0B

settings.py 1KB

routes.py 225B

langchain

__init__.py 0B

embeddings.py 2KB

reranker.py 4KB

requirements.txt 31B

LICENSE 1KB

modules

__init__.py 0B

fastllm

__init__.py 0B

model_loader

utils.py 568B

__init__.py 0B

reranker

__init__.py 0B

reranker_worker.py 2KB

chat

__init__.py 0B

model_worker.py 5KB

embeddings

__init__.py 0B

embeddings_worker.py 2KB

huggingface.py 9KB

base_embeddings.py 357B

event.py 2KB

routes.py 3KB

tests

reranker_loader_test.py 2KB

base64_test.py 56KB

embeddings_test.py 283B

reranker_test.py 471B

jmeter

fast_llm.jmx 32KB

测试结果

说明.txt 145B

RTX 4090

规格详情.txt 2KB

只加载reranker模型.xlsx 23KB

只加载embeddings模型.xlsx 27KB

加载embeddings&reranker模型.xlsx 30KB

RTX 3090

规格详情.txt 3KB

只加载reranker模型.xlsx 21KB

只加载embeddings模型.xlsx 25KB

加载embeddings&reranker模型.xlsx 27KB

imgs

bge-large-zh-v1.5

02上传54个知识库文档后显存占用（gc前）.png 10KB

01加载后显存占用.png 10KB

03上传54个知识库文档后显存占用（gc后）.png 10KB

README.md 4KB

manage.py 625B

requirements.txt 148B

.gitignore 3KB

README.md 542B

## linux命令 - 每隔0.1秒刷新一次显存使用情况 ```shell watch -n 0.1 -d nvidia-smi ``` - 0.5s刷新一次 ```shell top -d 0.5 ``` - 实时查看某个进程的情况 ```shell top -p pid ``` - 查看某个进程的内存占用 ```shell ps -p pid -o rss= | awk '{ printf "%.2f MB\n", $1 / 1024 }' ``` ## 内存、显存占用 ### 单独启动fastapi，不加载任何模型 1个worker 内存占用：402MB 2个worker 内存占用：parent进程399MB，每个worker进程402MB 3个worker 内存占用：parent进程399MB，每个worker进程402MB n个worker 内存占用：parent进程399MB，每个worker进程402MB ### 只有bge-large-zh-v1.5模型 1个worker：加载模型后显存占用：1932MB 加载模型后内存占用：3138MB，3127MB，3124MB 上传54个知识库文档后：加载模型后内存占用：3127MB gc前：显存占用：2786MB 内存占用：3325MB gc后：显存占用：2312MB 内存占用：3325MB jmemer->worker_embed_documents 1次：加载模型后内存占用：3124MB gc前：显存占用：2314MB 内存占用：3307MB gc后：显存占用：2312MB 内存占用：3307MB 2个worker：加载模型后每个worker进程显存占用：1932MB 加载模型后内存占用：parent进程400MB，每个worker进程大约3125MB jmemer->worker_embed_documents 20次：加载模型后内存占用：3125MB gc前：显存占用：2314MB（每个worker）内存占用：3308MB（每个worker） gc后：显存占用：2312MB（每个worker）内存占用：3308MB（每个worker） ### 只有bge-reranker-base模型 1个worker：启动后不占用显存启动后内存占用：1884MB 首次会加载模型较慢，A4000大约5s，第2次0.9s jmemer->worker_compute_score_by_query 1次： gc前：显存占用：2156MB 内存占用：3206MB gc后：显存占用：2154MB 内存占用：3206MB ## 并发测试方式：1s内发送完n个请求标准：90%请求在3s内响应 ### RTX 4090 #### 只加载bge-large-zh-v1.5模型 1workers worker_embed_query：130，性能瓶颈在cpu，gpu占16% worker_embed_documents：50，性能瓶颈在cpu，gpu占61%，gpu占用跟字数成正比 2workers worker_embed_query：250，性能瓶颈在cpu，gpu占61% worker_embed_documents：55，性能瓶颈在gpu，gpu占100% 3workers worker_embed_query：370，性能瓶颈在cpu，gpu占90% worker_embed_documents：50，性能瓶颈在gpu，gpu占100% 4workers worker_embed_query：500，gpu占99% #### 只加载bge-reranker-base模型 1workers worker_compute_score_by_query：220，性能瓶颈在cpu，gpu占27% 2workers worker_compute_score_by_query：450，性能瓶颈在cpu，gpu占59% 3workers worker_compute_score_by_query：590，性能瓶颈在cpu，gpu占85% 4workers worker_compute_score_by_query：700，性能瓶颈在cpu，gpu占99% #### 同时加载bge-large-zh-v1.5和bge-reranker-base模型同时请求：worker_embed_query和worker_compute_score_by_query 1workers：100，gpu占24% 2workers：180，gpu占59% 3workers：280，gpu占81% ### RTX 3090 #### 只加载bge-large-zh-v1.5模型 1workers worker_embed_query：100，性能瓶颈在cpu，gpu占16% worker_embed_documents：30，性能瓶颈在cpu，gpu占81%，gpu占用跟字数成正比 2workers worker_embed_query：200，性能瓶颈在cpu，gpu占70% worker_embed_documents：35，性能瓶颈在gpu，gpu占100% 3workers worker_embed_query：280，性能瓶颈在cpu，gpu占97% worker_embed_documents：30，性能瓶颈在gpu，gpu占100% 4workers worker_embed_query：350，gpu占100% #### 只加载bge-reranker-base模型 1workers worker_compute_score_by_query：150，性能瓶颈在cpu，gpu占33% 2workers worker_compute_score_by_query：270，性能瓶颈在cpu，gpu占67% 3workers worker_compute_score_by_query：390，性能瓶颈在cpu，gpu占92% 4workers worker_compute_score_by_query：450，性能瓶颈在cpu，gpu占99% #### 同时加载bge-large-zh-v1.5和bge-reranker-base模型同时请求：worker_embed_query和worker_compute_score_by_query 1workers：70，gpu占30% 2workers：140，gpu占68% 3workers：200，gpu占90%

评论收藏

内容反馈

版权申诉