cuda流测试
cuda流测试项目打包下载,下载后可以通过vs2013打开,我的环境是vs2013+win7+cuda6.5
直方图=cpu+gpu(global)+gpu(shared),直方图通过cpu实现,通过gpu全局内存实现,通过gpu共享内存实现
纹理内存是只读内存,与常量内存相同的是,纹理内存也缓存在芯片中,因此某些情况下,它能减少对内存的请求并提供更高效的内存宽带。纹理内存专门为那些内存访问模式中存在大量空间局部性的图形应用程序而设计的。在某个计算应用程序中,这意味着一个线程读取的位置可能与邻近线程读取的位置“非常接近”。纹理缓存为了加速访问不连续的地址而设计的。
元素超过线程个数时的处理方案 当向量元素超过线程个数时的情况 向量元素个数为(33 * 1024)/(128 * 128)=2.x倍