没有合适的资源?快使用搜索试试~ 我知道了~
TurboTransformers:一种快速且用户友好的运行时,用于在CPU和GPU上进行变压器推断(Bert,Albert,G...
共274个文件
py:68个
cpp:67个
h:52个
需积分: 22 0 下载量 165 浏览量
2021-02-03
15:20:31
上传
评论
收藏 2.96MB ZIP 举报
温馨提示
TurboTransformers:一种快速且用户友好的运行时,可在CPU和GPU上进行变压器推断 通过在您的推理引擎中添加涡轮增压器,使变压器快速服务! 微信AI开放源代码的TurboTransformers具有以下特征。 同时支持变压器编码器和解码器。 支持实时可变长度输入。 无需耗时的离线调整。 您可以实时更改批处理大小和请求的序列长度。 出色的CPU / GPU性能。 后端通过手工制作的OpenMP和CUDA代码实现,并涉及一些创新技巧。 完美的可用性。 支持python和C ++ API。 它可以用作PyTorch的插件。 通过添加几行python代码可以获得端到端加速。 智能批处理。 最小化一批不同长度的请求的零填充开销。 内存效率。 一种新的模型感知分配器可确保在可变长度请求服务期间占用较小的内存。 TurboTransformers已在腾讯中应用于多个在线BERT服务方案。 例如,它为微信FAQ服务带来了1.88倍的加速,为公共云情感分析服务带来了2.11倍的加速,为QQ推荐系统带来了13.6倍的加速。 而且,它已经被应用于构建服务,例如Chitchat
资源详情
资源评论
资源推荐
收起资源包目录
TurboTransformers:一种快速且用户友好的运行时,用于在CPU和GPU上进行变压器推断(Bert,Albert,GPT2,Decoders等) (274个子文件)
.clang-format 21B
FindMKL.cmake 4KB
FindGperftools.cmake 2KB
openblas.cmake 1KB
eigen.cmake 1KB
cuda.cmake 880B
transpose.cpp 26KB
multi_headed_attention_smart_batch.cpp 19KB
transpose_test.cpp 18KB
multi_headed_attention.cpp 17KB
pybind.cpp 14KB
bert_model.cpp 10KB
mat_mul.cpp 8KB
bert_model_example.cpp 8KB
layer_norm.cpp 8KB
matmul_benchmark.cpp 7KB
bert_model_test.cpp 7KB
utils.cpp 6KB
seq_pool.cpp 6KB
positionwise_ffn.cpp 5KB
utils_test.cpp 5KB
profiler.cpp 5KB
activation.cpp 5KB
bert_allocator_test.cpp 5KB
bert_config.cpp 4KB
allocator_api.cpp 4KB
softmax.cpp 4KB
mat_mul_test.cpp 4KB
model_aware_memory_scheduler.cpp 4KB
layernorm_benchmark.cpp 4KB
embedding.cpp 4KB
tensor.cpp 4KB
bert_embedding.cpp 4KB
transpose_benchmark.cpp 3KB
softmax_test.cpp 3KB
albert_layer.cpp 3KB
softmax_benchmark.cpp 3KB
common.cpp 3KB
layer_norm_test.cpp 3KB
bert_output.cpp 3KB
prepare_bert_masks.cpp 3KB
activation_benchmark.cpp 3KB
memory.cpp 3KB
bert_intermediate.cpp 3KB
activation_test.cpp 3KB
prepare_bert_masks_test.cpp 3KB
embedding_test.cpp 3KB
allocator_api_test.cpp 2KB
bert_pooler.cpp 2KB
gpu_utils_test.cpp 2KB
model_aware_memory_scheduler_test.cpp 2KB
tensor_test.cpp 2KB
blas_openblas.cpp 2KB
blas_blis.cpp 2KB
bert_attention.cpp 2KB
cuda_device_context.cpp 2KB
allocator_impl.cpp 2KB
config.cpp 1KB
enforce.cpp 1KB
addbias_layernorm.cpp 1KB
enforce_test.cpp 1KB
addbias_act.cpp 1KB
sequence_pool.cpp 1KB
device_context_test.cpp 1KB
model_aware_allocator.cpp 967B
naive_allocator.cpp 951B
base_allocator.cpp 948B
fp16_test.cpp 946B
ordered_list.cpp 748B
benchmark_helper.cpp 702B
npz_load.cpp 696B
blas_mkl.cpp 692B
catch2_test_main.cpp 54B
Dockerfile_dev.cpu 1KB
Dockerfile_release.cpu 816B
gpu_transpose_kernel.cu 16KB
gpu_utils.cu 8KB
gpu_softmax_kernel.cu 8KB
gpu_layer_norm_kernel.cu 5KB
gpu_activation_kernel.cu 3KB
gpu_embedding_kernel.cu 3KB
gpu_block_reduce.cuh 6KB
cuda_enforce.cuh 3KB
Dockerfile_ci 171B
.dockerignore 117B
.gitattributes 0B
.gitignore 168B
.gitmodules 621B
Dockerfile_dev.gpu 1KB
Dockerfile_release.gpu 1KB
tensor.h 10KB
multi_headed_attention_smart_batch.h 5KB
common.h 5KB
model_aware_memory_scheduler.h 5KB
multi_headed_attention.h 5KB
model_aware_allocator.h 5KB
enforce.h 3KB
transpose.h 3KB
ordered_list.h 3KB
gpu_transpose_kernel.h 3KB
共 274 条
- 1
- 2
- 3
国服第一奶妈
- 粉丝: 32
- 资源: 4504
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 技术资料分享基于JPEG标准的图像处理及其在MCF5329上的实现很好的技术资料.zip
- 技术资料分享基于FPGA的JPEG解码算法的研究与实现很好的技术资料.zip
- 技术资料分享基于ENC28J60以太网控制器及其应用很好的技术资料.zip
- 技术资料分享基于ENC28J60的嵌入式网络接口的设计很好的技术资料.zip
- 技术资料分享基于ARM的嵌入式静态图像显示系统的研究与实现很好的技术资料.zip
- 技术资料分享关于STM32的IAP总结很好的技术资料.zip
- 技术资料分享高通CAMIF和Ov-sensor-调试总结很好的技术资料.zip
- 技术资料分享二阶RC滤波试验很好的技术资料.zip
- 技术资料分享多核处理器构架的高速JPEG解码算法很好的技术资料.zip
- 技术资料分享第24章 性能和资源占用很好的技术资料.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0