入门/转行｜GPU/CUDA C编程入门自学指南

来自：airylin
2024-06-08 14:12:04 已编辑上海

Motivation

（如果你对GPU编程的目的和难点已经有所了解，可以不看）

为什么需要学习gpu或CUDA C编程？AI、科学计算等应用场景中需要对模型、算法进行加速，自定义cuda c算子可以让算法跑的更快，针对算法利用硬件特性进行优化。

例如ai中目前常用的pytorch框架，运行模型时，gpu版本后端中调用的其实就是CUDA C编写的算子（或者说函数），因此当我们配置环境时，配置CUDA和cuDNN等都是为了使用这些后端的支持，从而让我们用python写的模型算法最终能够跑在GPU上，高速运行。

当然，要写出能够在GPU上高速运行的程序不一定完全依赖于CUDA C编程框架，只是CUDA近些年来都非常主流和垄断，当前OpenAI的Triton有一种取代CUDA C的野心，试图降低用户的GPU编程门槛。

那么学习GPU编程的难点在哪里呢？如果想写出一个高性能（跑得快）的GPU程序：

需要发掘上层算法中的并行性
对目标硬件结构有充分的了解
结合两者的计算和访存特点，将算法映射到目标硬件上

接下来就来介绍下如何学习CUDA C编程语言&如何学习GPU硬件相关知识。

学习路线

入门

入门推荐先搞懂cuda c编程模型的语法和（nvidia）gpu的基本结构，推荐一些资源：

1. 理解cuda c和gpu结构：

如果英语比较好时间充足建议浏览官网的编程指南：

https://docs.nvidia.com/cuda/cuda-c-programming-guide/

当然也有对应的中文版翻译，可以初期快速浏览下，但很久不更新了：

https://github.com/HeKun-NVIDIA/CUDA-Programming-Guide-in-Chinese

2. 学习gpu结构建议先看知乎上的一些博客，类似下面这篇梳理了NV GPU各代架构的发展和迭代过程：

https://zhuanlan.zhihu.com/p/394352476

3. 当然学习的最好方式还是跟着敲代码，推荐一本书：

《CUDA by Example》

中文译本：《GPU高性能编程CUDA实战》

CUDA by Example

8.4

Jason Sanders Edward Kandrot / 2010 / Addison-Wesley Professional

虽然这本书比较老了，但是作为入门级别还是完全可以的，主要可以快速掌握如何编写cuda c算子，如何使用各级存储，并学习如何测性能，初步体验写算子的快乐。

4. 推荐我很喜欢的一本书，对于各种概念讲的较为深入：

《Professional CUDA C Programming》

中文译本：《CUDA C编程权威指南》

Professional CUDA C Programming

9.5

John Cheng Max Grossman Ty McKercher / 2014 / Wrox

或者参考谭升的博客，翻译了前面重要的章节：人工智能编程 | 谭升的博客

这个阶段，你应该对以下两张图都有了一定的理解：

进阶

这个阶段需要你不断的编写代码，进行性能测试和瓶颈分析，并加深对硬件特性的理解。

1. 推荐可以多看别人写的kernel代码，并自己尝试写一些涉及reduce、共享内存操作的代码，这里推荐一个面试向github，里面写了一些AI中常用的算子：

https://github.com/DefTruth/CUDA-Learn-Notes

写AI算子的话，推荐激活函数（element-wise）算子 -> softmax/normalization算子 -> 矩阵乘gemm(conv)这样逐步增加难度去学习；即按照简单加减乘除运算 -> reduce运算 -> 矩阵乘运算这样逐步增加难度，并且可优化空间也会变得更大。

2. 强烈推荐学习使用性能分析工具，如nvidia提供的nsight compute，或者硬件公司自己开发的工具等，查看kernel内部各种计算、访存的耗时情况，指令发射情况等等，这个阶段也可以开始看汇编代码了，可以使用compiler explorer查看生成的汇编代码，分析指令生成和排布情况等，帮助我们进一步理解硬件行为。

3. 加深对硬件的理解，至少要理解GPU中的一些访存合并、bank conflict之类的一些原理，并在代码中运用这些硬件特性，这里推荐一本gpgpu的架构书：

《通用图形处理器设计：GPGPU编程模型与架构原理》

通用图形处理器设计

8.7

景乃锋柯晶梁晓峣 / 2022 / 清华大学出版社

然后就是看nvidia每一代架构的whitepaper，会有nv官方的对每代硬件的介绍。

结语

拖更了一个月终于写了，高性能AI系统学海无涯，欢迎各位同行或者感兴趣的姐妹来讨论交流！~

加入小组后即可参加投票

确定

回复转发赞收藏只看楼主

momo 2024-06-10 11:58:43 浙江

谢谢姐妹！想请问一下这部分工作现在有没有正在活跃或者推进的开源项目可以学习了解流行的应用场景吗

删除 |

赞回复
airylin 楼主 2024-06-10 12:08:26 上海

谢谢姐妹！想请问一下这部分工作现在有没有正在活跃或者推进的开源项目可以学习了解流行的应用场谢谢姐妹！想请问一下这部分工作现在有没有正在活跃或者推进的开源项目可以学习了解流行的应用场景吗 ... momo

我工作是和ai比较相关的，ai方面的话开源的可以了解pytorch后端部分和triton，纯算子可以关注下cutlass

删除 |

赞 (1) 回复
西西弗斯 2024-06-10 14:37:59 四川

UU你好！我在本科阶段已经学习过CUDA编程和并行程序导论相关课程，研究生阶段也在做使用CUDA的交叉课题，但是对于CUDA的就业方向不太清楚。请问编写算子算是CUDA/并行计算就业的一个方向吗？

删除 |

赞回复
乌云高空踏步 2024-06-10 14:57:50 上海

uu你好，自学这个找工作难度如何，是不是目前就业面还是比较窄的？

删除 |

赞回复
土方猫猫超可爱 2024-06-10 17:16:56 江苏

dd 谢谢姐妹

删除 |

赞回复
momo 2024-06-11 10:02:21 上海

好帖dd

删除 |

赞回复
airylin 楼主 2024-06-11 12:13:44 上海

UU你好！我在本科阶段已经学习过CUDA编程和并行程序导论相关课程，研究生阶段也在做使用CUDA的交 UU你好！我在本科阶段已经学习过CUDA编程和并行程序导论相关课程，研究生阶段也在做使用CUDA的交叉课题，但是对于CUDA的就业方向不太清楚。请问编写算子算是CUDA/并行计算就业的一个方向吗？ ... 西西弗斯

算是的哦，应该还有一些比较偏上层应用的，比如互联网、金融里高性能加速之类的岗位，具体可以看看jd

删除 |

赞回复
airylin 楼主 2024-06-11 12:20:09 上海

uu你好，自学这个找工作难度如何，是不是目前就业面还是比较窄的？ uu你好，自学这个找工作难度如何，是不是目前就业面还是比较窄的？乌云高空踏步

我感觉这个方向的岗位需求比起后端、算法还是少一点，但感觉没有算法那么卷，我也是从算法应用转过来的

删除 |

赞 (2) 回复
西西弗斯 2024-06-11 20:18:46 四川

算是的哦，应该还有一些比较偏上层应用的，比如互联网、金融里高性能加速之类的岗位，具体可以看算是的哦，应该还有一些比较偏上层应用的，比如互联网、金融里高性能加速之类的岗位，具体可以看看jd ... airylin

好的，非常感谢！

删除 |

赞回复
暴躁做事 2024-06-14 13:39:20 陕西

感谢楼主！

删除 |

赞回复
大仙 (fearless) 2024-06-17 11:01:53 上海

最近要面一个gpu communication library的测试岗，请问有什么学习资料推荐吗？多谢楼主

删除 |

赞回复
airylin 楼主 2024-06-17 22:07:39 上海

最近要面一个gpu communication library的测试岗，请问有什么学习资料推荐吗？多谢楼主最近要面一个gpu communication library的测试岗，请问有什么学习资料推荐吗？多谢楼主大仙

类似nccl集合通信库吗？你查查nccl的相关博客，可以了解下知名算法ring reduce啥的，我这块看的不多

删除 |

赞回复
谷满之缺 2024-06-18 01:00:17 广东

看不懂，感觉是很好的资料，先点赞👍🏻

删除 |

赞回复
🍁 2024-06-18 08:06:26 江苏

谢谢姐妹，很有用

删除 |

赞回复
大仙 (fearless) 2024-06-18 08:26:23 上海

类似nccl集合通信库吗？你查查nccl的相关博客，可以了解下知名算法ring reduce啥的，我这块看的类似nccl集合通信库吗？你查查nccl的相关博客，可以了解下知名算法ring reduce啥的，我这块看的不多 ... airylin

好的，谢谢☺️

删除 |

赞回复
R 2024-06-28 17:41:23 四川

感谢姐妹！

删除 |

赞回复
不破渊流 2024-08-18 00:26:33 上海

我感觉这个方向的岗位需求比起后端、算法还是少一点，但感觉没有算法那么卷，我也是从算法应用转我感觉这个方向的岗位需求比起后端、算法还是少一点，但感觉没有算法那么卷，我也是从算法应用转过来的 ... airylin

姐妹我想请教一下，就是你是自学了cuda c编程然后转投AI高性能相关的岗位吗？因为我现在也在做算法的应用这块，想转做高性能优化，但是不确定靠自学的话，没有相关的项目经验能不能直接去投高性能相关的岗位？还有就是想请教一下关于学习使用性能分析工具，姐妹你有什么推荐的学习资料吗？我觉得我看profiling的时候看不出个所以然，不知道看的时候会有啥窍门吗？

删除 |

赞回复
airylin 楼主 2024-08-18 09:20:45 上海

姐妹我想请教一下，就是你是自学了cuda c编程然后转投AI高性能相关的岗位吗？因为我现在也在做算姐妹我想请教一下，就是你是自学了cuda c编程然后转投AI高性能相关的岗位吗？因为我现在也在做算法的应用这块，想转做高性能优化，但是不确定靠自学的话，没有相关的项目经验能不能直接去投高性能相关的岗位？还有就是想请教一下关于学习使用性能分析工具，姐妹你有什么推荐的学习资料吗？我觉得我看profiling的时候看不出个所以然，不知道看的时候会有啥窍门吗？ ... 不破渊流

我是校招的时候转的高性能，对项目要求不高；一开始做的npu，有项目经验后，社招跳槽又学了一遍gpu相关的。网上profiling相关的东西好像是比较少（捂脸），可以探索一下nsight compute之类的

删除 |

赞回复
不破渊流 2024-08-18 11:52:40 上海

我是校招的时候转的高性能，对项目要求不高；一开始做的npu，有项目经验后，社招跳槽又学了一遍g 我是校招的时候转的高性能，对项目要求不高；一开始做的npu，有项目经验后，社招跳槽又学了一遍gpu相关的。网上profiling相关的东西好像是比较少（捂脸），可以探索一下nsight compute之类的 ... airylin

好的好的，感谢姐妹！

删除 |

赞回复
郫县豆瓣 (__proto__) 2024-08-19 19:27:19 荷兰

好硬核！请教下这个是属于 MLE 范畴内吗

删除 |

赞回复
airylin 楼主 2024-08-19 21:44:01 上海

好硬核！请教下这个是属于 MLE 范畴内吗好硬核！请教下这个是属于 MLE 范畴内吗郫县豆瓣

算是哦，现在做模型加速的很多。不过gpu编程的应用不仅局限在ML～

删除 |

赞回复
想成为一棵大树 2024-09-25 23:59:12 四川

想问楼主，这块的岗位对学历要求高吗？本人是双非硕士在读，目前对gpu性能优化这块很感兴趣。

删除 |

赞回复
airylin 楼主 2024-09-26 00:25:30 上海

想问楼主，这块的岗位对学历要求高吗？本人是双非硕士在读，目前对gpu性能优化这块很感兴趣。想问楼主，这块的岗位对学历要求高吗？本人是双非硕士在读，目前对gpu性能优化这块很感兴趣。想成为一棵大树

跟算法岗比学历要求没那么高，至少我司的招人标准比较看实力，有某所上海双非院校我们领导就挺满意的。硕士方向跟对导师或者找资源深入做几个项目就挺好的，可能在应届生里就算比较有经验。

删除 |

赞回复
想成为一棵大树 2024-09-26 12:15:23 四川

跟算法岗比学历要求没那么高，至少我司的招人标准比较看实力，有某所上海双非院校我们领导就挺满跟算法岗比学历要求没那么高，至少我司的招人标准比较看实力，有某所上海双非院校我们领导就挺满意的。硕士方向跟对导师或者找资源深入做几个项目就挺好的，可能在应届生里就算比较有经验。 ... airylin

好的，感谢你

删除 |

赞回复
向阳（养病中) (凡所有相皆是虚妄) 2025-03-03 11:24:14 北京

姐妹请教您一下，请问您有没有遇到过

自己单独优化一个算法单独测试，性能翻倍。放到生产环境性能折半。查资料说，可能是缓存干扰（多线程等导致多个处理单元同时访问缓存）我的优化思路主要是simd和l1 cache l2 cache优化。AI说一个要高带宽，一个要缓存，多线程条件下都有可能满足不了[裂开] 商业软件必然是多线程，至少界面必须有个线程

删除 |

赞回复
airylin 楼主 2025-03-03 19:48:08 上海

姐妹请教您一下，请问您有没有遇到过自己单独优化一个算法单独测试，性能翻倍。放到生产环境性姐妹请教您一下，请问您有没有遇到过自己单独优化一个算法单独测试，性能翻倍。放到生产环境性能折半。查资料说，可能是缓存干扰（多线程等导致多个处理单元同时访问缓存）我的优化思路主要是simd和l1 cache l2 cache优化。AI说一个要高带宽，一个要缓存，多线程条件下都有可能满足不了[裂开] 商业软件必然是多线程，至少界面必须有个线程 ... 向阳（养病中)

1.如果要提高cache利用率，一般建议同时访问的多个线程的访存地址可以合并成连续的一大块数据，即连续大位宽读取数据，数据长度是cacheline长度整数倍，并确保首地址对齐。（多个线程读取同一地址的数据，或许有广播机制？） 2. simd的概念还是针对单个线程，单个线程一条指令处理多个数据，如果一次能读8个数然后计算，理论上增加了“连续大位宽读取数据”的可能性。（gpu npu基本是这样的，cpu的话线程管理和cache机制更复杂，我不太确定；建议还是在生产环境相同的环境下调试）

删除 |

赞回复
momo 2025-03-04 12:01:44 重庆

感谢

删除 |

赞回复
向阳（养病中) (凡所有相皆是虚妄) 2025-03-07 17:27:52 北京

1.如果要提高cache利用率，一般建议同时访问的多个线程的访存地址可以合并成连续的一大块数据， 1.如果要提高cache利用率，一般建议同时访问的多个线程的访存地址可以合并成连续的一大块数据，即连续大位宽读取数据，数据长度是cacheline长度整数倍，并确保首地址对齐。（多个线程读取同一地址的数据，或许有广播机制？） 2. simd的概念还是针对单个线程，单个线程一条指令处理多个数据，如果一次能读8个数然后计算，理论上增加了“连续大位宽读取数据”的可能性。（gpu npu基本是这样的，cpu的话线程管理和cache机制更复杂，我不太确定；建议还是在生产环境相同的环境下调试） ... airylin

谢谢姐妹这么长的回复，太感谢了。我的多线程不是单个算法的，而是好多个操作的，比如同时进行，界面操作， xml解析，图片预览，再就是我写的算法优化。我发现在这种实际工作环境中，很多高性能计算的操作是不生效的，比如矩阵打包，tile等等

删除 |

赞回复
向阳（养病中) (凡所有相皆是虚妄) 2025-03-07 17:33:22 北京

我看了几篇论文比如 anatomy of high performance matrix multiplication。之所以有高性能是因为，cache利用率极高。我猜想，作者的电脑是不是除了矩阵乘法其他的程序都没有，也没有开线程干别的。请问，姐妹贵司是有一台专门的电脑只跑算法吗？其他的活，比如访问数据库，文件解析，都不干

删除 |

赞回复
airylin 楼主 2025-03-07 17:38:00 上海

我看了几篇论文比如 anatomy of high performance matrix multiplication。之所以有高性能是因为我看了几篇论文比如 anatomy of high performance matrix multiplication。之所以有高性能是因为，cache利用率极高。我猜想，作者的电脑是不是除了矩阵乘法其他的程序都没有，也没有开线程干别的。请问，姐妹贵司是有一台专门的电脑只跑算法吗？其他的活，比如访问数据库，文件解析，都不干 ... 向阳（养病中)

是的，我们测试性能时是确保单卡只跑单进程这种，比如你说的矩阵乘

删除 |

赞回复
向阳（养病中) (凡所有相皆是虚妄) 2025-03-07 17:44:50 北京

是的，我们测试性能时是确保单卡只跑单进程这种，比如你说的矩阵乘是的，我们测试性能时是确保单卡只跑单进程这种，比如你说的矩阵乘 airylin

有其他线程干扰的情况，请问姐妹有接触过吗

删除 |

赞回复
airylin 楼主 2025-03-07 17:48:42 上海

有其他线程干扰的情况，请问姐妹有接触过吗有其他线程干扰的情况，请问姐妹有接触过吗向阳（养病中)

没遇见过这种场景，我们都是gpu上跑其实cpu那边做什么问题不太大；之前cpu慢有试过绑核之类的操作，不知道对你的场景是否有用

删除 |

赞 (1) 回复
向阳（养病中) (凡所有相皆是虚妄) 2025-03-07 17:49:45 北京

没遇见过这种场景，我们都是gpu上跑其实cpu那边做什么问题不太大；之前cpu慢有试过绑核之类的操没遇见过这种场景，我们都是gpu上跑其实cpu那边做什么问题不太大；之前cpu慢有试过绑核之类的操作，不知道对你的场景是否有用 ... airylin

原来还有这种操作，打开了思路，谢谢我试试

删除 |

赞回复