CUDA_C_Programming_Guide中文版

4星(超过85%的资源)
所需积分/C币:38 2013-03-25 21:28:07 2.16MB PDF
144
收藏 收藏
举报

CUDA 编程指南 4.0 中文版 译者:风辰
目录 第一章导论 1.1从图形处理到通用并行计算 垂垂 1.2 CUDA:一种通用并行计算架构 ………,3 1.3一种可扩展的编程模型 1.4文档结构∴ 5 第二章编程模型 7 2.2线程层次 ·非看··· 23存储器层次 2.4异构编程,……… 2.5计算能力 3 第三章编程接口 15 3.1用nvcc编译 15 3.1.1编译流程 5 3.1.1.1离线编详 15 31.1.2即时编译 ··· 3.1.2二进制兼容性 17 3.13PTX兼容性 17 314应用兼容性 17 3.1.5CC+兼容性 18 31.664位兼容性 18 3.2 CUDA C运行时 18 32.1初始化 19 322设备存储器 19 323共享存储器… 22 3.24分页锁定主机存储器 28 324.1可分享存储器( portable memory) 28 3.24.2写结合存储器 28 324.3被映射存储器 28 32.5异步并发执行 29 3.2.5.1主机和设备间异步执行… ····· 29 3.2.5.2数据传输和内核执行重叠 ……30 3.2.5.3并发内核执行…..30 3.2.5.4并发数据传输 …30 32.5.5流 30 3.2.5.6事件 看音.。··非垂,音;着垂·垂 3.2.57同步调用 34 3.2.6多设备系统… 34 3.26.1枚举设备 ,34 3.2.6.,2设备选择… .4:: 34 3.2.6.3流和事件行为… 35 3264p2p存储器访问 …35 32.6.5p2p存储器复制 36 327统一虚拟地址空闰... 37 3.28错误检查 37 3.2.9调用栈 38 3210纹理和表面存储器 38 3.2.10.1纹理存储器 38 3.2.10.2表亩存储器( urface) 14 32.10.3CUDA数组 2.104读写一致性 7 3,2.11图形学互操作性 47 32111 OpengL互操作性… 47 3.2.11.2 Direct3D互操作性 50 3.2.11.3SLI(速力)互操作性.… 58 33驱动API… ···· 58 3.31上下文 61 33.2模块 62 33.3内核执行… 63 334设备存储器 65 3.3.5共享存储器…....69 3.3.6分页锁定主机存储器 71 3.37异步并发执行… 71 3.37.1流 ····· ∴72 3.3.7.2事件. …72 3.37.3同步调用…… ····.··········· 目录 3.38多设备系统 垂·看看垂 73 3381设备枚举 .··....:.·::· 73 338.2p2p存储器访问 74 3.38.3p2p存储器拷贝 74 3.3.9统一虚拟地址空间…… 75 3.3.10错误检查.… ,75 3.3.l1调用栈………176 3.3.12纹理存储器和表面存储器 76 3.3.12.1纹理存储器…… 76 3.3122表面存储器 78 3.3.13图形学互操作性 80 3.313.10penG互操作性.80 3.3.102 Direct3D操作性 …82 3.4运行时APⅠ和驸动API的互操作性 91 3.5版本和互操作性 91 3.6计算模式 ··· 92 3.7模式切换 92 3.8 Windows上的 Tesla计算集群模式 *·:*4 93 第四章硬件实现..95 41SIMT架构 95 4.2硬件多线程 96 第五章性能指南 ●。。鲁鲁 5.1总体性能优化策略 52最大化利用率 99 52.1应用层次… 522设备层次 523多处理器层次 100 5.3最大化存储器吞吐量… 101 53.1主机和设备的数据传输….102 5.3.2设备存储器访问 103 532.1全局存储器 ····· 103 5.3,2.2本地存储器…………. 鲁D音垂垂音非非 104 532.3共享存储器 105 5.3.24常量存储器 105 5.32.5纹理和表面存储器 垂垂 106 54最大化指令吞吐量… ………,………106 541算术指令 …106 542控制流指令 543同步指令 109 附录A支持CUDA的GPU…113 附录BC语言扩展… 117 B.1函数类型限定符 l17 B.1.1 device 117 B 1.2 global B.1.3 host .··.········::· 117 B.1.4 nonline和 forceinline…18 B2变量类型限定符. …118 B.2.1 device 118 B.2.2 constant 18 B 2.3 shared .119 B2 4 restrict 120 B3内置变量类型… B.3.1 char1、 charl、char2、 uchar2、char3、 uchar3、char4、 uchar4、 short1 ushort 1、 short2、 ashort2、 short3、 ushort3、 short4、 ushort44、intl、 uintA、int2、 uint2、int3、uint3、int4、uint4、 long l、 ulong l、long2、 ulong2、long3、 ulong3、 long4、 ulong4、 float、 float2、 float3、foat4、 double2…121 B.3.2dm3类型 122 B.4内置变量 122 B.4.1 gridDim..,...,,,,,,, 122 B 4.2 blockIdx ……122 B 4.3 block Dim 122 B 4.4 threadIdx 122 B.4.5 warpSize………,…, 122 B.5存储器栅栏函数…. ····· ∴122 B.6同步函数………………………124 B7数学函数 ………………125 目录 B.8纹理函数 125 B.8. I tex lDfetcho 125 B.8.2texD0.,,, 126 B.8.3tex2D0)…… 126 B8.4tex3D0….,,…,…,,… 126 B.8.5 tex LAYered0………… ·········· 126 B.8.6tex2 LAyered(……… 127 B9表面函数( surface) ……,………127 B.9. I surfl dread0……… 7 B.9.2 surfl write(……… 127 B.9.3 surf2Dreado 127 B.94Sur12 Write()…..,…. 128 B10时间函数 …128 B11原子函数…… 128 B.11.1数学函数 129 B.11.1. I atomicAddo… ,129 B.11.1.2 atomicSubo… ·· 129 B.11.1.3 atomicExcho……… 129 B. 11.I. 4 atomicMino 130 B 11. 1.5 atomicMaxo 130 B 11.1.6 atomicInco 130 B11 1.7 atomicDec(........................ 130 B 11.1.8 atomicCASO 13 B.112位逻辑函数 131 B.11.21 atomicAndo…...… 131 B 11.2.2 atomicoro 31 B 11.2.3 atomicXorO 131 B12束表决( warp vote)函数 131 B.13取样计数器函数 ·着垂垂 132 B.14格式化输出 132 B.14.1格式化符号 ····· 133 B.142限制 垂;看看看垂4看垂D …………………133 B14.3相关的主机端API 134 B.144例程 ……134 B.15动态全局存储器分配 垂垂 135 B.15.1堆存储器分配 D·。看。垂垂 ∴……136 B.152与设备存储器API的互操作 136 B.153例程…. 136 Bl53.1每个线程的分配 136 B153.2每个线程块的分配… 137 B153.3在内核启动之间持久的分配 …138 B.16执行配置 140 B17发射绑定 140 B.18 Pragma unroll.… 附录C数学函数 145 C.1标准函数 145 C.1.1单精度浮点函数 145 C.1.2双精度浮点函数 .148 C.1.3整型函数 150 C.2内置函数 150 C.2.1单精度浮点函数… 151 C.2.2双精度浮点函数 152 C.2.3整型函数 153 C.24类型转换函数 154 附录DC++语言支持 157 D.1代码例子… 157 D.L.1数据类 157 D.1.2派生类… 158 D.1.3类模板… 158 D.14函数模板. …159 D.2限制.16 D.2.1限定符...160 D.21.1设备存储器限定符. 160 D.2.1.2 Volatile限定符. 161 D.2.2指针 ……………161 D.2.3运算符 D看看音音垂看垂着垂 ……161 目录 D.2.3.1赋值运算符 16l D.2.32地址运算符 161 D24函数 162 D241函数参数 ……………162 D242函数内静态变量 162 D.24.3函数指针 ……………………162 D.2.44函数递归.…………..…….162 D.24.5函数定义… 垂非垂非·垂垂.音·看垂垂.垂非音垂音垂音垂垂音· 162 D.2.5类 162 D251数据成员 162 D.252两数成员 162 D.2.53构造器和析构器 ………162 D254虚函数 162 D.25.5虚基类.. 163 D.2.6模板 163 附录E纹理获取… 165 E.1最近点取样 165 E.2线性滤波 166 E3查找表… 167 附录F计算能力 169 F.Ⅰ特性和技术规范 F.2浮点标准 ·······:······· 171 F.3计算能力1.x 172 F.3.1架构… 172 F.3.2全局存储器 173 F32.1计算能力1.0和1.1的设备 173 F322计算能力1.2和1.3的设备 173 F3.3共享存储器.174 F33132位步长访问 174 F3.3.232位广播访问 ·········· 174 F3.3.38位和16位访问 ····· 175 F3.3.4大于32位访问 …………175 F.4计算能力2x D看看音音垂看垂着垂 176 F4.1架构..176 F42全局存储器 177 F4.3共享存储器…. ………,……178 F4.3132位步长访问 179 F4.32大于32位访问… ∴179 F4.4常量存储器.…

...展开详情
试读 127P CUDA_C_Programming_Guide中文版
立即下载
限时抽奖 低至0.43元/次
身份认证后 购VIP低至7折
一个资源只可评论一次,评论内容不能少于5个字
lzl_nn 用起来还不错
2019-07-19
回复
peidexiaowo 很不错,可以快速CUDA入门
2018-08-31
回复
woshipanddd 再下载一次
2018-05-16
回复
SonicLing 很棒的入门工具书
2018-04-26
回复
fujunsen 断断续续没看完,再看一遍
2018-02-25
回复
您会向同学/朋友/同事推荐我们的CSDN下载吗?
谢谢参与!您的真实评价是我们改进的动力~
关注 私信
上传资源赚钱or赚积分
最新推荐
CUDA_C_Programming_Guide中文版 38积分/C币 立即下载
1/127
CUDA_C_Programming_Guide中文版第1页
CUDA_C_Programming_Guide中文版第2页
CUDA_C_Programming_Guide中文版第3页
CUDA_C_Programming_Guide中文版第4页
CUDA_C_Programming_Guide中文版第5页
CUDA_C_Programming_Guide中文版第6页
CUDA_C_Programming_Guide中文版第7页
CUDA_C_Programming_Guide中文版第8页
CUDA_C_Programming_Guide中文版第9页
CUDA_C_Programming_Guide中文版第10页
CUDA_C_Programming_Guide中文版第11页
CUDA_C_Programming_Guide中文版第12页
CUDA_C_Programming_Guide中文版第13页
CUDA_C_Programming_Guide中文版第14页
CUDA_C_Programming_Guide中文版第15页
CUDA_C_Programming_Guide中文版第16页
CUDA_C_Programming_Guide中文版第17页
CUDA_C_Programming_Guide中文版第18页
CUDA_C_Programming_Guide中文版第19页
CUDA_C_Programming_Guide中文版第20页

试读结束, 可继续阅读

38积分/C币 立即下载