CUDA-C++-编程指南.pdf_cuda函数怎么写资源-CSDN文库

134 浏览量 2024-07-07 02:00:36 上传评论收藏 4.08MB PDF 举报

CUDA_C++_编程指南，图形处理单元（GPU）1在类似的价格和功率范围内提供比 CPU 高得多的指令吞吐量和内存带宽。许多应用程序利用这些更高的功能在 GPU 上运行速度比在 CPU 上运行得更快（请参阅 GPU 应用程序）。其他计算设备（如 FPGA）也非常节能，但提供的编程灵活性远低于 GPU。 GPU 和 CPU 之间存在这种功能差异，因为它们在设计时考虑了不同的目标。虽然 CPU 被设计为擅长尽可能快地执行一系列操作（称为线程），并且可以并行执行几十个这样的线程，但 GPU 被设计为擅长并行执行数千个操作（摊销较慢的单线程性能以实现更大的吞吐量）。 GPU 专门用于高度并行计算，因此设计为将更多的晶体管专用于数据处理，而不是数据缓存和流量控制。原理图 1 显示了 CPU 与 GPU 的芯片资源分布示例。 ### CUDA C++ 编程指南知识点总结 #### 一、GPU 的优势与应用 - **高性能计算能力**：GPU 在类似价格和功率消耗下能够提供比 CPU 更高的指令吞吐量和内存带宽。 - **并行计算能力**：GPU 设计用于执行大量并行任务，能够在数千个线程上实现高效并行处理。 - **高能效**：尽管 FPGA 等其他计算设备也很节能，但 GPU 提供更灵活的编程接口。 #### 二、CUDA 概述 - **通用并行计算平台**：CUDA 是 NVIDIA 推出的一种通用并行计算平台及编程模型。 - **可扩展编程模型**：CUDA 支持可扩展的编程模型，便于开发人员根据需求调整代码结构和性能优化。 - **文档结构**：CUDA 编程指南详细介绍了 CUDA 的各个方面，包括核心概念、编程模型、接口等。 - **编程模型**： - **内核函数**：用户定义的函数，在 GPU 上执行并行计算任务。 - **线程层次结构**：包括线程块和线程网格，支持不同级别的并行化。 - **线程块簇**：多个线程块可以组成一个簇，共同访问共享内存。 - **内存层次结构**：包括全局内存、共享内存、寄存器等，不同的内存类型具有不同的访问特性和延迟。 - **异构编程**：支持 CPU 和 GPU 之间的协同工作，通过流式异步操作提高效率。 - **异步 SIMD 编程模型**：支持并行执行相似指令的能力，同时处理多个数据元素。 - **异步操作**：允许在没有等待完成的情况下提交内核和其他任务。 - **计算能力**：指代 GPU 的架构版本，不同的计算能力支持不同的特性。 #### 三、编程接口 - **NVCC 编译器**：是 CUDA 的主要编译工具，支持多种编译选项和流程。 - **离线编译**：提前进行编译，生成 PTX 或 CUDA 机器码文件。 - **即时编译**：在运行时动态编译代码，适用于需要动态生成代码的情况。 - **二进制兼容性**：确保不同版本之间的二进制文件可以在新旧设备上运行。 - **PTX 兼容性**：PTX 是一种中间表示形式，可以跨不同架构运行。 - **应用兼容性**：确保代码在不同版本的 CUDA 环境中保持一致的行为。 - **C++ 兼容性**：CUDA 支持标准 C++ 语法，并提供了一些特定于 CUDA 的扩展。 - **64 位兼容性**：支持 64 位数据类型和地址空间，适用于大型数据集处理。 #### 四、总结 CUDA C++ 编程指南为开发者提供了全面的指导，涵盖了从基础概念到高级技巧的各个方面。通过理解 GPU 的特性和 CUDA 的编程模型，开发者可以充分利用 GPU 的强大并行计算能力，显著提升应用程序的性能。无论是对于科学计算、数据分析还是图形处理等领域，掌握 CUDA 编程都是至关重要的技能之一。

资源推荐

资源详情

资源评论

CUDA C++ Programming Guide

Release 12.5

NVIDIA Corporation

Jun 20, 2024

Contents

1 The Benets of Using GPUs 3

2 CUDA®: A General-Purpose Parallel Computing Platform and Programming Model 5

3 A Scalable Programming Model 7

4 Document Structure 9

5 Programming Model 11

5.1 Kernels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

5.2 Thread Hierarchy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

5.2.1 Thread Block Clusters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

5.3 Memory Hierarchy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

5.4 Heterogeneous Programming . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

5.5 Asynchronous SIMT Programming Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

5.5.1 Asynchronous Operations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

5.6 Compute Capability . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

6 Programming Interface 21

6.1 Compilation with NVCC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

6.1.1 Compilation Workow . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

6.1.1.1 Oine Compilation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

6.1.1.2 Just-in-Time Compilation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

6.1.2 Binary Compatibility . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

6.1.3 PTX Compatibility . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

6.1.4 Application Compatibility . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

6.1.5 C++ Compatibility . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

6.1.6 64-Bit Compatibility . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

6.2 CUDA Runtime . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

6.2.1 Initialization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

6.2.2 Device Memory . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

6.2.3 Device Memory L2 Access Management . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

6.2.3.1 L2 cache Set-Aside for Persisting Accesses . . . . . . . . . . . . . . . . . . . . . . . 29

6.2.3.2 L2 Policy for Persisting Accesses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

6.2.3.3 L2 Access Properties . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

6.2.3.4 L2 Persistence Example . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

6.2.3.5 Reset L2 Access to Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

6.2.3.6 Manage Utilization of L2 set-aside cache . . . . . . . . . . . . . . . . . . . . . . . . 33

6.2.3.7 Query L2 cache Properties . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

6.2.3.8 Control L2 Cache Set-Aside Size for Persisting Memory Access . . . . . . . . . . 33

6.2.4 Shared Memory . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

6.2.5 Distributed Shared Memory . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

6.2.6 Page-Locked Host Memory . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

6.2.6.1 Portable Memory . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

6.2.6.2 Write-Combining Memory . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

6.2.6.3 Mapped Memory . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

6.2.7 Memory Synchronization Domains . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

6.2.7.1 Memory Fence Interference . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

6.2.7.2 Isolating Trac with Domains . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

6.2.7.3 Using Domains in CUDA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

6.2.8 Asynchronous Concurrent Execution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

6.2.8.1 Concurrent Execution between Host and Device . . . . . . . . . . . . . . . . . . . . 47

6.2.8.2 Concurrent Kernel Execution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

6.2.8.3 Overlap of Data Transfer and Kernel Execution . . . . . . . . . . . . . . . . . . . . . 47

6.2.8.4 Concurrent Data Transfers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

6.2.8.5 Streams . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

6.2.8.6 Programmatic Dependent Launch and Synchronization . . . . . . . . . . . . . . . 52

6.2.8.7 CUDA Graphs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

6.2.8.8 Events . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

6.2.8.9 Synchronous Calls . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

6.2.9 Multi-Device System . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

6.2.9.1 Device Enumeration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

6.2.9.2 Device Selection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

6.2.9.3 Stream and Event Behavior . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

6.2.9.4 Peer-to-Peer Memory Access . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

6.2.9.5 Peer-to-Peer Memory Copy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

6.2.10 Unied Virtual Address Space . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

6.2.11 Interprocess Communication . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

6.2.12 Error Checking . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

6.2.13 Call Stack . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

6.2.14 Texture and Surface Memory . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

6.2.14.1 Texture Memory . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

6.2.14.2 Surface Memory . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

6.2.14.3 CUDA Arrays . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

6.2.14.4 Read/Write Coherency . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

6.2.15 Graphics Interoperability . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

6.2.15.1 OpenGL Interoperability . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

6.2.15.2 Direct3D Interoperability . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

6.2.15.3 SLI Interoperability . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

6.2.16 External Resource Interoperability . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

6.2.16.1 Vulkan Interoperability . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

6.2.16.2 OpenGL Interoperability . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111

6.2.16.3 Direct3D 12 Interoperability . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112

6.2.16.4 Direct3D 11 Interoperability . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118

6.2.16.5 NVIDIA Software Communication Interface Interoperability (NVSCI) . . . . . . . . 126

6.3 Versioning and Compatibility . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132

6.4 Compute Modes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

6.5 Mode Switches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134

6.6 Tesla Compute Cluster Mode for Windows . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134

7 Hardware Implementation 135

7.1 SIMT Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135

7.2 Hardware Multithreading . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137

8 Performance Guidelines 139

8.1 Overall Performance Optimization Strategies . . . . . . . . . . . . . . . . . . . . . . . . . . . 139

8.2 Maximize Utilization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139

8.2.1 Application Level . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140

8.2.2 Device Level . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140

8.2.3 Multiprocessor Level . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140

8.2.3.1 Occupancy Calculator . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

8.3 Maximize Memory Throughput . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144

8.3.1 Data Transfer between Host and Device . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145

8.3.2 Device Memory Accesses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146

8.4 Maximize Instruction Throughput . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149

8.4.1 Arithmetic Instructions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149

8.4.2 Control Flow Instructions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156

8.4.3 Synchronization Instruction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156

8.5 Minimize Memory Thrashing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156

9 CUDA-Enabled GPUs 159

10 C++ Language Extensions 161

10.1 Function Execution Space Speciers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161

10.1.1 __global__ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161

10.1.2 __device__ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161

10.1.3 __host__ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162

10.1.4 Undened behavior . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162

10.1.5 __noinline__ and __forceinline__ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162

10.1.6 __inline_hint__ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163

10.2 Variable Memory Space Speciers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163

10.2.1 __device__ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163

10.2.2 __constant__ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163

10.2.3 __shared__ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164

10.2.4 __grid_constant__ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165

10.2.5 __managed__ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165

10.2.6 __restrict__ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166

10.3 Built-in Vector Types . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167

10.3.1 char, short, int, long, longlong, oat, double . . . . . . . . . . . . . . . . . . . . . . . . . . 167

10.3.2 dim3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169

10.4 Built-in Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169

10.4.1 gridDim . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169

10.4.2 blockIdx . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169

10.4.3 blockDim . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169

10.4.4 threadIdx . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169

10.4.5 warpSize . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169

10.5 Memory Fence Functions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170

10.6 Synchronization Functions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173

10.7 Mathematical Functions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174

10.8 Texture Functions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174

10.8.1 Texture Object API . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174

10.8.1.1 tex1Dfetch() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174

10.8.1.2 tex1D() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174

10.8.1.3 tex1DLod() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174

10.8.1.4 tex1DGrad() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175

10.8.1.5 tex2D() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175

10.8.1.6 tex2D() for sparse CUDA arrays . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175

10.8.1.7 tex2Dgather() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175

10.8.1.8 tex2Dgather() for sparse CUDA arrays . . . . . . . . . . . . . . . . . . . . . . . . . . 175

10.8.1.9 tex2DGrad() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176

10.8.1.10 tex2DGrad() for sparse CUDA arrays . . . . . . . . . . . . . . . . . . . . . . . . . . . 176

10.8.1.11 tex2DLod() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176

iii

剩余549页未读，继续阅读

评论收藏

内容反馈

技术瘾君子1573

粉丝: 1w+
资源: 93

CUDA-C++-编程指南.pdf

NVIDIA-CUDA统一计算设备架构编程指南.7z

CUDA C编程权威指南.pdf

CUDA并行程序设计 GPU编程指南,cuda并行程序设计gpu编程指南pdf,C,C++

CUDA 编程指南4.0中文版.pdf

CUDA并行程序设计GPU编程指南(包含原书代码book.h CPUBitmap.h等)

Book_CUDA并行程序设计-GPU编程指南 中英文完整版2014年

CUDA_C_Programming_Guide、CUDA并行程序设计 GPU编程指南

CUDA并行程序设计 GPU编程指南 pdf 中文版 完整版.part1

7.CUDA C编程权威指南 (1)1

基于CUDA的加速MATLAB计算研究.pdf

NVIDIA_CUDA编程指南

CUDA_C_Programming_Guide.pdf

CUDA_Quick_Start_Guide.pdf+加标签

CUDA并行程序设计 GPU编程指南 + CUDA专家手册

win-windows安装cudnn.pdf

2024.1.8新版CUDA 官方文档CUDA_C_Programming_Guide.pdf

CUDA_Quick_Start_Guide.pdf

GPU编程指南中文版.pdf

TensorRT-Installation-Guide.pdf

Cuda C 编程指南（程润伟）

cuda4.0 编程指南(中文版)

win10环境下vscode运行opencv(C++)(解压即用)-1号包

代码随想录算法PDF.rar

c++入门，核心，提高讲义笔记

C++ Qt6 跨平台开发 完整版PDF

C++STL库常用库函数总结

c++小游戏 c++小游戏

mingw-w64-install.exe

最新资源

Book_CUDA并行程序设计-GPU编程指南中英文完整版2014年

CUDA并行程序设计 GPU编程指南 pdf 中文版完整版.part1

C++ Qt6 跨平台开发完整版PDF