IT168首页 | 产品报价 | ChinaUnix社区 | ITPUB社区 | 文库 | 博客 | 自测 | 专题 | ITPUB学院

CUDA开发

欢迎继续阅读本系列文章的第5部分,在这篇文章中,我将介绍如何在GPU(Grid)上启动多维块。我们将创建和上一篇文章一样的程序,但这一次我们要显示二维数组块,每个块显示一个计算的值。

13日更新
GPU并行编程:如何启动多维块

本文详细讲解了内联PTX汇编程序开发的方法。通常存储器写操作是作为输出操作,但有时会存在同步隐患,或者想避免编译器对存储操作的优化,这时可以使用”memory”指示字。 总体来说inline PTX现在还比较初级,有些功能还不能使用,比如指令操作数只能是标量,不支持矢量。

13日更新
CUDA4.0 inline PTX汇编程序开发

CUDA中(如果在nVIDIA的GPU上,这些技巧同样适用于OpenCL),通常显式的让数据按照warp模式分配执行(指令在硬件层自动按照warp派发),通常可让程序性能优成倍提升。在这个系列中我们将介绍多个以warp mode执行且带来明显性能提升的例子(当然,计算规模要足够大)。

13日更新
CUDA编程优化--以warp模式和思维实施

近日,CUDA 4.0已经对注册开发者开放,其中增加了不少的功能。其中P2P(Peer-to-Peer )与UVA(Unified Virtual Address Space )的引进最为大家关心。这里与大家一起分享下SDK中的simpleP2P这个例子,他展示了如何使用这两个功能。

12日更新
CUDA 4.0中P2P与UVA的性特性使用方法

本文我们以Visual Studio 2005 为例演示CUDA的安装以及软件开发环境搭建,以及CUDA与MFC联调的实现。CUDA是免费使用的,各种操作系统下的CUDA安装包均可以在http://www.nvidia.cn/object/CUDA_get_cn.html上免费下载。

11日更新
CUDA在Windows下的软件开发环境搭建

自2011年2月28日NVIDIA公司宣布新版GPU并行通用计算架构CUDA 4.0至今,已经出现了两个版本,分别是RC和RC2。RC2版本在功能特性上没有明显变化,在功能上主要的改进方向是简化并行编程,让更多开发人员能够将应用程序移植到GPU平台。

11日更新
CUDA 4.0最新版本RC2代码实例详解

这里我们会简单介绍,NVIDIA 目前支持 CUDA 的 GPU,其在执行 CUDA 程序的部份(基本上就是其 shader 单元)的架构。主要的数据源包括:NVIDIA 的 CUDA Programming Guide 1.1、NVIDIA 在 Supercomputing '07 介绍 CUDA 的 session,以及 UIUC 的 CUDA 课程。

08日更新
CUDA入门:GPU的硬件架构

在《runtime API创建CUDA程序》中,我们做了一个计算一大堆数字的平方和的程序。不过,我们也提到这个程序的执行效率并不理想。当然,实际上来说,如果只是要做计算平方和的动作,用 CPU 做会比用 GPU 快得多。这是因为平方和的计算并不需要太多运算能力,所以几乎都是被内存带宽所限制。

08日更新
CUDA入门:CUDA程序优化步骤

到现在为止,我们还没有真正触摸到了并行编程,这篇文章就是为此而写的。

08日更新
GPU并行编程:内核及函数的实现

前面介绍的计算平方和的程序,似乎没有什么实用价值。所以我们的第二个 CUDA 程序,要做一个确实有(某些)实用价值的程序,也就是进行矩阵乘法。而且,这次我们会使用浮点数。虽然矩阵乘法有点老套,不过因为它相当简单,而且也可以用来介绍一些有关 CUDA 的有趣性质。

06日更新
cuda入门:如何进行矩阵乘法优化

在《CUDA程序优化策略》这篇文章中,我们介绍过CUDA优化的常见策略。今天我们会对CUDA优化策略进行详细讲解。CUDA程序的优化至关重要,因此要做好优化工作需要掌握一定的技巧。

06日更新
推荐CUDA程序优化的15个策略

现在最新的CUDA工具包已经发布,与Visual Studio的集成也变得更容易了,在这篇文章中,我将介绍如何使用Visual Studio 2008创建一个CUDA应用程序。

06日更新
GPU并行编程:如何创建一个CUDA应用程序

CUDA目前有两种不同的 API:Runtime API 和 Driver API,两种 API 各有其适用的范围。由于 runtime API 较容易使用,一开始我们会以 runetime API 为主。

05日更新
cuda入门:runtime API创建CUDA程序

本文讲述怎么利用GPU来计算。GPU的计算不像CPU执行,只能一个个运行,而是能对大量的数据并行执行。数量级越大,越能看出并行的魅力。

01日更新
CUDA开发:真正入手利用GPU计算加法

CUDA的版本已经到了4.0,而我却刚开始学这个。请在NVIDIA官方网下载Parallel Nsight 2.0,里面包含了CUDA 3.2版本和CUDA 4.0版本。可以选一个安装,或者全部安装。当然你也可以直接下CUDA的版本,但还不下个好,省得直接再下NVIDIA GPU Computing SDK 4.0等。

01日更新
CUDA开发:从hello world开始

最近一直在做CUDA程序,优化了CT重建中的FDK算法,又开始结合FDK和volume rendering做点工作。CUDA程序的优化至关重要,本文将常见的优化策略进行总结。

01日更新
CUDA程序优化策略

 本文的目的是帮助你开始使用CUDA C语言在GPU上实现并行计算,CUDA C由nVidia创建,它是一种与C类似的编程语言,但它是专门为创建使用GPU执行并行计算的应用程序设计的,但CUDA C是我懂得的唯一语言,因此本系列文章就选择了它。它们都基于相同的原则,因此你任意选择一种学习都可以。

17日更新
GPU并行编程:熟练使用CUDA C语言

使用.NET平台调用函数是一件容易的事情,但有一件事需要注意 — 访问的可变性,因为我们不能在它们上面使用DllImport属性,我们必须找到变量的地址,然后排列数据。

13日更新
CUDA开发实战:C#代码中使用DLL

本文将集中讨论如何使用CUDA代码创建一个非托管DLL,并在C#程序中使用它,列举的例子将展示在数组上做计算的for()循环的托管、非托管和新的.NET 4并行版本之间的一些差异。

12日更新
GPU高性能开发技术:CUDA实战

12月22日消息,近日,由NVIDIA联合IT168举办的CUDA校园程序设计大赛(点击这里查看)完美收官,并于21日在京举行了颁奖典礼。Nvidia公司创始人兼总裁黄仁勋先生向此次大赛获得一等奖的三位同学颁发了奖杯和证书。

CUDA校园程序大赛命题赛一等奖获奖感言
金秋十月 与你饮酒论道
热门文章
it168文库会议频道上线

热门标签

热点推荐