入门/转行|GPU/CUDA C编程入门自学指南

airylin

来自:airylin
2024-06-08 14:12:04 已编辑 上海

×
加入小组后即可参加投票
  • momo

    momo 2024-06-10 11:58:43 浙江

    谢谢姐妹!想请问一下这部分工作现在有没有正在活跃或者推进的开源项目可以学习了解流行的应用场景吗

  • airylin

    airylin 楼主 2024-06-10 12:08:26 上海

    谢谢姐妹!想请问一下这部分工作现在有没有正在活跃或者推进的开源项目可以学习了解流行的应用场 谢谢姐妹!想请问一下这部分工作现在有没有正在活跃或者推进的开源项目可以学习了解流行的应用场景吗 ... momo

    我工作是和ai比较相关的,ai方面的话开源的可以了解pytorch后端部分和triton,纯算子可以关注下cutlass

  • 西西弗斯

    西西弗斯 2024-06-10 14:37:59 四川

    UU你好!我在本科阶段已经学习过CUDA编程和并行程序导论相关课程,研究生阶段也在做使用CUDA的交叉课题,但是对于CUDA的就业方向不太清楚。请问编写算子算是CUDA/并行计算就业的一个方向吗?

  • 乌云高空踏步

    乌云高空踏步 2024-06-10 14:57:50 上海

    uu你好,自学这个找工作难度如何,是不是目前就业面还是比较窄的?

  • 土方猫猫超可爱

    土方猫猫超可爱 2024-06-10 17:16:56 江苏

    dd 谢谢姐妹

  • momo

    momo 2024-06-11 10:02:21 上海

    好帖dd

  • airylin

    airylin 楼主 2024-06-11 12:13:44 上海

    UU你好!我在本科阶段已经学习过CUDA编程和并行程序导论相关课程,研究生阶段也在做使用CUDA的交 UU你好!我在本科阶段已经学习过CUDA编程和并行程序导论相关课程,研究生阶段也在做使用CUDA的交叉课题,但是对于CUDA的就业方向不太清楚。请问编写算子算是CUDA/并行计算就业的一个方向吗? ... 西西弗斯

    算是的哦,应该还有一些比较偏上层应用的,比如互联网、金融里高性能加速之类的岗位,具体可以看看jd

  • airylin

    airylin 楼主 2024-06-11 12:20:09 上海

    uu你好,自学这个找工作难度如何,是不是目前就业面还是比较窄的? uu你好,自学这个找工作难度如何,是不是目前就业面还是比较窄的? 乌云高空踏步

    我感觉这个方向的岗位需求比起后端、算法还是少一点,但感觉没有算法那么卷,我也是从算法应用转过来的

  • 西西弗斯

    西西弗斯 2024-06-11 20:18:46 四川

    算是的哦,应该还有一些比较偏上层应用的,比如互联网、金融里高性能加速之类的岗位,具体可以看 算是的哦,应该还有一些比较偏上层应用的,比如互联网、金融里高性能加速之类的岗位,具体可以看看jd ... airylin

    好的,非常感谢!

  • 暴躁做事

    暴躁做事 2024-06-14 13:39:20 陕西

    感谢楼主!

  • 大仙

    大仙 (fearless) 2024-06-17 11:01:53 上海

    最近要面一个gpu communication library的测试岗,请问有什么学习资料推荐吗?多谢楼主

  • airylin

    airylin 楼主 2024-06-17 22:07:39 上海

    最近要面一个gpu communication library的测试岗,请问有什么学习资料推荐吗?多谢楼主 最近要面一个gpu communication library的测试岗,请问有什么学习资料推荐吗?多谢楼主 大仙

    类似nccl集合通信库吗?你查查nccl的相关博客,可以了解下知名算法ring reduce啥的,我这块看的不多

  • 谷满之缺

    谷满之缺 2024-06-18 01:00:17 广东

    看不懂,感觉是很好的资料,先点赞👍🏻

  • 🍁

    🍁 2024-06-18 08:06:26 江苏

    谢谢姐妹,很有用

  • 大仙

    大仙 (fearless) 2024-06-18 08:26:23 上海

    类似nccl集合通信库吗?你查查nccl的相关博客,可以了解下知名算法ring reduce啥的,我这块看的 类似nccl集合通信库吗?你查查nccl的相关博客,可以了解下知名算法ring reduce啥的,我这块看的不多 ... airylin

    好的,谢谢☺️

  • R

    R 2024-06-28 17:41:23 四川

    感谢姐妹!

  • 不破渊流

    不破渊流 2024-08-18 00:26:33 上海

    我感觉这个方向的岗位需求比起后端、算法还是少一点,但感觉没有算法那么卷,我也是从算法应用转 我感觉这个方向的岗位需求比起后端、算法还是少一点,但感觉没有算法那么卷,我也是从算法应用转过来的 ... airylin

    姐妹我想请教一下,就是你是自学了cuda c编程然后转投AI高性能相关的岗位吗?因为我现在也在做算法的应用这块,想转做高性能优化,但是不确定靠自学的话,没有相关的项目经验能不能直接去投高性能相关的岗位?还有就是想请教一下关于学习使用性能分析工具,姐妹你有什么推荐的学习资料吗?我觉得我看profiling的时候看不出个所以然,不知道看的时候会有啥窍门吗?

  • airylin

    airylin 楼主 2024-08-18 09:20:45 上海

    姐妹我想请教一下,就是你是自学了cuda c编程然后转投AI高性能相关的岗位吗?因为我现在也在做算 姐妹我想请教一下,就是你是自学了cuda c编程然后转投AI高性能相关的岗位吗?因为我现在也在做算法的应用这块,想转做高性能优化,但是不确定靠自学的话,没有相关的项目经验能不能直接去投高性能相关的岗位?还有就是想请教一下关于学习使用性能分析工具,姐妹你有什么推荐的学习资料吗?我觉得我看profiling的时候看不出个所以然,不知道看的时候会有啥窍门吗? ... 不破渊流

    我是校招的时候转的高性能,对项目要求不高;一开始做的npu,有项目经验后,社招跳槽又学了一遍gpu相关的。网上profiling相关的东西好像是比较少(捂脸),可以探索一下nsight compute之类的

  • 不破渊流

    不破渊流 2024-08-18 11:52:40 上海

    我是校招的时候转的高性能,对项目要求不高;一开始做的npu,有项目经验后,社招跳槽又学了一遍g 我是校招的时候转的高性能,对项目要求不高;一开始做的npu,有项目经验后,社招跳槽又学了一遍gpu相关的。网上profiling相关的东西好像是比较少(捂脸),可以探索一下nsight compute之类的 ... airylin

    好的好的,感谢姐妹!

  • 郫县豆瓣

    郫县豆瓣 (__proto__) 2024-08-19 19:27:19 荷兰

    好硬核!请教下这个是属于 MLE 范畴内吗

  • airylin

    airylin 楼主 2024-08-19 21:44:01 上海

    好硬核!请教下这个是属于 MLE 范畴内吗 好硬核!请教下这个是属于 MLE 范畴内吗 郫县豆瓣

    算是哦,现在做模型加速的很多。不过gpu编程的应用不仅局限在ML~

  • 想成为一棵大树

    想成为一棵大树 2024-09-25 23:59:12 四川

    想问楼主,这块的岗位对学历要求高吗?本人是双非硕士在读,目前对gpu性能优化这块很感兴趣。

  • airylin

    airylin 楼主 2024-09-26 00:25:30 上海

    想问楼主,这块的岗位对学历要求高吗?本人是双非硕士在读,目前对gpu性能优化这块很感兴趣。 想问楼主,这块的岗位对学历要求高吗?本人是双非硕士在读,目前对gpu性能优化这块很感兴趣。 想成为一棵大树

    跟算法岗比学历要求没那么高,至少我司的招人标准比较看实力,有某所上海双非院校我们领导就挺满意的。硕士方向跟对导师或者找资源深入做几个项目就挺好的,可能在应届生里就算比较有经验。

  • 想成为一棵大树

    想成为一棵大树 2024-09-26 12:15:23 四川

    跟算法岗比学历要求没那么高,至少我司的招人标准比较看实力,有某所上海双非院校我们领导就挺满 跟算法岗比学历要求没那么高,至少我司的招人标准比较看实力,有某所上海双非院校我们领导就挺满意的。硕士方向跟对导师或者找资源深入做几个项目就挺好的,可能在应届生里就算比较有经验。 ... airylin

    好的,感谢你

  • 向阳(养病中)

    向阳(养病中) (凡所有相皆是虚妄) 2025-03-03 11:24:14 北京

    姐妹请教您一下,请问您有没有遇到过

    自己单独优化一个算法单独测试,性能翻倍。放到生产环境性能折半。 查资料说,可能是缓存干扰(多线程等导致多个处理单元同时访问缓存) 我的优化思路主要是simd和l1 cache l2 cache优化。AI说一个要高带宽,一个要缓存,多线程条件下都有可能满足不了[裂开] 商业软件必然是多线程,至少界面必须有个线程

  • airylin

    airylin 楼主 2025-03-03 19:48:08 上海

    姐妹请教您一下,请问您有没有遇到过 自己单独优化一个算法单独测试,性能翻倍。放到生产环境性 姐妹请教您一下,请问您有没有遇到过 自己单独优化一个算法单独测试,性能翻倍。放到生产环境性能折半。 查资料说,可能是缓存干扰(多线程等导致多个处理单元同时访问缓存) 我的优化思路主要是simd和l1 cache l2 cache优化。AI说一个要高带宽,一个要缓存,多线程条件下都有可能满足不了[裂开] 商业软件必然是多线程,至少界面必须有个线程 ... 向阳(养病中)

    1.如果要提高cache利用率,一般建议同时访问的多个线程的访存地址可以合并成连续的一大块数据,即连续大位宽读取数据,数据长度是cacheline长度整数倍,并确保首地址对齐。(多个线程读取同一地址的数据,或许有广播机制?) 2. simd的概念还是针对单个线程,单个线程一条指令处理多个数据,如果一次能读8个数然后计算,理论上增加了“连续大位宽读取数据”的可能性。 (gpu npu基本是这样的,cpu的话线程管理和cache机制更复杂,我不太确定;建议还是在生产环境相同的环境下调试)

  • momo

    momo 2025-03-04 12:01:44 重庆

    感谢

  • 向阳(养病中)

    向阳(养病中) (凡所有相皆是虚妄) 2025-03-07 17:27:52 北京

    1.如果要提高cache利用率,一般建议同时访问的多个线程的访存地址可以合并成连续的一大块数据, 1.如果要提高cache利用率,一般建议同时访问的多个线程的访存地址可以合并成连续的一大块数据,即连续大位宽读取数据,数据长度是cacheline长度整数倍,并确保首地址对齐。(多个线程读取同一地址的数据,或许有广播机制?) 2. simd的概念还是针对单个线程,单个线程一条指令处理多个数据,如果一次能读8个数然后计算,理论上增加了“连续大位宽读取数据”的可能性。 (gpu npu基本是这样的,cpu的话线程管理和cache机制更复杂,我不太确定;建议还是在生产环境相同的环境下调试) ... airylin

    谢谢姐妹这么长的回复,太感谢了。我的多线程不是单个算法的,而是好多个操作的,比如同时进行,界面操作, xml解析,图片预览,再就是我写的算法优化。我发现在这种实际工作环境中,很多高性能计算的操作是不生效的,比如矩阵打包,tile等等

  • 向阳(养病中)

    向阳(养病中) (凡所有相皆是虚妄) 2025-03-07 17:33:22 北京

    我看了几篇论文比如 anatomy of high performance matrix multiplication。之所以有高性能是因为,cache利用率极高。我猜想,作者的电脑是不是除了矩阵乘法其他的程序都没有,也没有开线程干别的。 请问,姐妹贵司是有一台专门的电脑只跑算法吗? 其他的活,比如访问数据库,文件解析,都不干

  • airylin

    airylin 楼主 2025-03-07 17:38:00 上海

    我看了几篇论文比如 anatomy of high performance matrix multiplication。之所以有高性能是因为 我看了几篇论文比如 anatomy of high performance matrix multiplication。之所以有高性能是因为,cache利用率极高。我猜想,作者的电脑是不是除了矩阵乘法其他的程序都没有,也没有开线程干别的。 请问,姐妹贵司是有一台专门的电脑只跑算法吗? 其他的活,比如访问数据库,文件解析,都不干 ... 向阳(养病中)

    是的,我们测试性能时是确保单卡只跑单进程这种,比如你说的矩阵乘

  • 向阳(养病中)

    向阳(养病中) (凡所有相皆是虚妄) 2025-03-07 17:44:50 北京

    是的,我们测试性能时是确保单卡只跑单进程这种,比如你说的矩阵乘 是的,我们测试性能时是确保单卡只跑单进程这种,比如你说的矩阵乘 airylin

    有其他线程干扰的情况,请问姐妹有接触过吗

  • airylin

    airylin 楼主 2025-03-07 17:48:42 上海

    有其他线程干扰的情况,请问姐妹有接触过吗 有其他线程干扰的情况,请问姐妹有接触过吗 向阳(养病中)

    没遇见过这种场景,我们都是gpu上跑其实cpu那边做什么问题不太大;之前cpu慢有试过绑核之类的操作,不知道对你的场景是否有用

  • 向阳(养病中)

    向阳(养病中) (凡所有相皆是虚妄) 2025-03-07 17:49:45 北京

    没遇见过这种场景,我们都是gpu上跑其实cpu那边做什么问题不太大;之前cpu慢有试过绑核之类的操 没遇见过这种场景,我们都是gpu上跑其实cpu那边做什么问题不太大;之前cpu慢有试过绑核之类的操作,不知道对你的场景是否有用 ... airylin

    原来还有这种操作,打开了思路,谢谢我试试

你的回复

回复请先 , 或 注册

↑回顶部