CUDA编程,指南pdf

所需积分/C币:47 2019-02-27 18:03:18 5.49MB PDF
321
收藏 收藏
举报

cuda开发,指南pdf
与H盟照刀|为A提供澎湃动力 01>cUDA编程模型 1.CUDA编程模型 与H盟照刀|为A提供澎湃动力 CUDA(Compute Unified Device Architecture) 使用GPU大量计算单元和高带宽实现通用计算的平台。 CUDA编程模型提供了一个计算机架构抽象作为应用程序和其可用硬件之间 的桥梁,从逻辑上提供了一个特定的框架。 一种通过层次结构在GPU中组织线程的方法 种通过层次结构在GPU中访问内存的方法 Device Block fo, O) Block(1, 0) Block(2, 0) CUDA编程结构 目ok阳1)Bok(11)aock(21) 串行代码CPU上执行main() Device Grid 并行代码GPU上执行 kernel<<grid, block>>() Paral lel kernel Block (0,o) Block (1, 0) Block(2, 0) Kernel 1 Block(0, 1) Block [1, 1) Block(2, 1) [1 Max grossman, Ty McKercher. CUDA O编程权威指南[M!机械工业出版社,2017 1.CUDA编程模型 与H盟照刀|为A提供澎湃动力 Main 1.把数据从CPU拷贝到GPU中 Memory CPU cudamemcpy HostToDevice Capy processing data Instruct the processing 2.CPU发出指令 Copy the result Memory global void kernel name(argument list) for GPU Execute parallel GPU in each core (Ge Force 8800 3.GPU执行计算 int i=blockIdx x*block Dimx+ThreadIdxx C[1=Ai+B i Processing flow 4.GPU计算的结果传递回CPU中 on CUDA cudamemcpy DeviceToHost [2]付发 CUDA ppt 1.CUDA编程模型 与H盟照刀|为A提供澎湃动力 网格和块 Grid of calculus GPU= Group of blocks gridDim, H=4 gridDim,y=3 Block 0 Block 1 Block 2Block 3 blackIdx,x=2 00 01 2 (03) blockIdx, y=1 gridDim:网格的维度 Block 4 Block 5 Block 6 Block 7 blockDim:块的维度 10 11 (12) (13) Block 8 Block 9 Block Block11 20 blocked:在网格中的块索引 2,1 22 23 Block (1,2 threadEd:在块中的线程索引 black black Dimy= Th Th Th‖mh‖lmh blockDim 2=3 Thread (2,1,0) Ti Th 1.CUDA编程模型 与H盟照刀|为A提供澎湃动力 线程索引 Grid blockIdxx 0 blockDimx=5 threaded x 01234 01234 01234 blockidxx k blockdimx 01234567891011121314 +threaded x idx threadidxx tblockidx.xx blockdim.x 1.CUDA编程模型(矩阵求和) 与H盟照刀|为A提供澎湃动力 global void sumMatixOnGPUMix( float *MatA, float*MatB 初始化 int nx=1<<14 float MatC, int nx, int ny)& int ny =1<<14 unsigned int ix-threadldx. x +blockldx x block Dimx unsigned int iy =threadldx. y +blockldx y* blockDim.y; unsigned int idx=iy"nx ix; 在GPU中并发执行 if(ix <nx & MatC idx mataidx+ Matbidx dim3 block(dimx dimy dim3 grid((nx +block x-1)/block x, (ny +block y-1)block y)) 核函数的执行配置 sumMatixOnGPU<<<grid, block>>>(d MatA, d MatB, d MatC, nx, ny) 1.CUDA编程模型(矩阵求和) 与H盟照刀|为A提供澎湃动力 表1-1不同执行配置下的矩阵求和运行时间 内核配置 block(dimx,dimy) 内核运行时间 线程块数 (32,32) 0.060323s 512×512 (32,16) 0.038041s 512×1024 (16,16) 0.045535s 1024×1024 改变执行配置对内核有影响! sumMatix OnGPU<<<grid, block>>>(d MatA, d MatB, d MatC, nx, ny) 1.CUDA编程模型 与H盟照刀|为A提供澎湃动力 Kernel name<<<grid, block, SMEM, stream >>>(argument list) 执行配置 存储方式 流与并发

...展开详情
试读 64P CUDA编程,指南pdf
立即下载
限时抽奖 低至0.43元/次
身份认证后 购VIP低至7折
一个资源只可评论一次,评论内容不能少于5个字
您会向同学/朋友/同事推荐我们的CSDN下载吗?
谢谢参与!您的真实评价是我们改进的动力~
关注 私信
上传资源赚钱or赚积分
最新推荐
CUDA编程,指南pdf 47积分/C币 立即下载
1/64
CUDA编程,指南pdf第1页
CUDA编程,指南pdf第2页
CUDA编程,指南pdf第3页
CUDA编程,指南pdf第4页
CUDA编程,指南pdf第5页
CUDA编程,指南pdf第6页
CUDA编程,指南pdf第7页
CUDA编程,指南pdf第8页
CUDA编程,指南pdf第9页
CUDA编程,指南pdf第10页
CUDA编程,指南pdf第11页
CUDA编程,指南pdf第12页
CUDA编程,指南pdf第13页

试读结束, 可继续读7页

47积分/C币 立即下载