没有合适的资源?快使用搜索试试~ 我知道了~
cutlass:线性代数子例程的CUDA模板
共2000个文件
html:2192个
md5:1279个
h:370个
需积分: 49 3 下载量 54 浏览量
2021-02-05
09:52:41
上传
评论
收藏 15.05MB ZIP 举报
温馨提示
刀尖2.4 CUTLASS 2.4-2020年11月 CUTLASS是CUDA C ++模板抽象的集合,用于在CUDA中的所有级别和规模上实现高性能矩阵乘法(GEMM)。 它包含类似于用于实现cuBLAS的分层分解和数据移动策略。 CUTLASS将这些“活动部件”分解为C ++模板类抽象的可重用的模块化软件组件。 可以通过自定义切片大小,数据类型和其他算法策略来对这些线程范围,warp范围,block范围和设备范围的原语进行专门化和调整。 所产生的灵活性简化了它们在自定义内核和应用程序中作为构建块的使用。 为了支持各种应用,CUTLASS为混合精度计算提供了广泛的支持,为半精度浮点(FP1
资源推荐
资源详情
资源评论
收起资源包目录
cutlass:线性代数子例程的CUDA模板 (2000个子文件)
problem_space.cpp 37KB
cudnn_helpers.cpp 16KB
performance_report.cpp 13KB
cublas_helpers.cpp 10KB
enumerated_types.cpp 8KB
visualize_layout.cpp 6KB
filter_architecture.cpp 4KB
gpu_timer.cpp 4KB
manifest.cpp 4KB
main.cpp 2KB
test_unit_core.cpp 2KB
test_unit.cpp 2KB
doxygen.css 25KB
search.css 4KB
tabs.css 1KB
matrix.h 355KB
mma_tensor_op_tile_iterator.h 122KB
mma_tensor_op_tile_iterator_sm70.h 97KB
mma_complex_tensor_op_tile_iterator_sm80.h 76KB
default_mma_core_sm80.h 75KB
mma_tensor_op_tile_iterator_sm80.h 72KB
default_multistage_mma_complex_core_sm80.h 63KB
mma_sm80.h 52KB
constants.h 47KB
convolution.h 47KB
regular_tile_access_iterator_tensor_op_sm80.h 46KB
default_mma_core_simt.h 45KB
testbed.h 44KB
mma_simt_tile_iterator.h 43KB
regular_tile_iterator_tensor_op_sm70.h 42KB
functional.h 42KB
default_mma_core_sm75.h 41KB
mma_sparse_sm80.h 41KB
predicated_tile_access_iterator.h 40KB
tensor_fill.h 40KB
default_conv2d_fprop.h 39KB
numeric_conversion.h 38KB
predicated_tile_iterator.h 38KB
gemm_operation.h 36KB
regular_tile_iterator_tensor_op.h 35KB
tensor_op_multiplicand_sm75.h 32KB
pitch_linear_thread_map.h 32KB
default_conv2d_dgrad.h 31KB
default_mma_core_sparse_sm80.h 31KB
b2b_mma_multistage.h 31KB
default_mma.h 31KB
tensor_fill.h 30KB
mma_sm75.h 29KB
library.h 29KB
tensor_op_multiplicand_sm70.h 29KB
tensor_op_multiplicand_sm80.h 29KB
mma_sm60.h 28KB
default_gemm.h 28KB
predicated_tile_iterator.h 28KB
predicated_tile_access_iterator_2dthreadtile.h 28KB
convolution.h 27KB
regular_tile_access_iterator_tensor_op.h 27KB
mma_complex_tensor_op.h 27KB
problem_space.h 27KB
mma_tensor_op_tile_iterator_wmma.h 26KB
default_conv2d_wgrad.h 26KB
predicated_tile_iterator_2dthreadtile.h 26KB
mma_sparse_multistage.h 25KB
matrix.h 23KB
gemm.h 23KB
conv2d_problems.h 23KB
platform.h 23KB
default_gemm_configuration.h 23KB
gemm_complex.h 22KB
gemm_batched.h 22KB
gemm_array.h 22KB
mma_planar_complex_multistage.h 22KB
gemm_planar_complex.h 22KB
tile_iterator_tensor_op_mixed.h 21KB
conv2d_params.h 21KB
default_mma_core_wmma.h 20KB
linear_combination_clamp.h 20KB
half.h 20KB
cudnn_helpers.h 20KB
host_tensor_planar_complex.h 20KB
gemm_splitk_parallel.h 20KB
b2b_interleaved_gemm_run.h 20KB
mma_multistage.h 19KB
default_mma_core_sm70.h 19KB
conv2d_testbed.h 19KB
conv2d_testbed_interleaved.h 19KB
b2b_mma_pipelined.h 18KB
conv3d_testbed.h 18KB
b2b_gemm_run.h 18KB
default_b2b_mma.h 18KB
gemm_planar_complex_array.h 18KB
gemm_universal.h 17KB
operation_table.h 17KB
implicit_gemm_multistage.h 17KB
output_tile_thread_map.h 17KB
quaternion.h 17KB
gemm_sparse.h 17KB
gemm.h 17KB
shared_load_iterator_mixed.h 17KB
conv_reference_operation.h 16KB
共 2000 条
- 1
- 2
- 3
- 4
- 5
- 6
- 20
资源评论
hsjdbdb
- 粉丝: 20
- 资源: 4586
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功