微信 -WeLM 算子开发工程师(深圳、上海) 北京 分享
分享岗位
方式1:复制岗位链接
方式2:分享岗位海报
手机扫描二维码分享
收藏 WXG 点击了解更多BG信息 技术 两年以上工作经验 更新于年06月12日 岗位职责
1.针对 Hopper / Blackwell 架构进行 Kernel 开发与优化;
2.基于 CUDA / PTX / Triton 设计和实现大模型训练中的核心算子 Kernel:;
3.结合 Hopper / Blackwell 特性,在线程组织、访存路径、寄存器/共享内存使用、Tensor Core 调度等层面做深度优化;
4.构建高性能训练算子库;
5.针对 WeLM 模型结构进行算子设计与融合,降低 Kernel 调度和访存开销;
6.参与 WeLM 内部高性能算子库的建设,与 PyTorch 及 cuBLAS、cuDNN、CUTLASS 等库进行集成或替换;
7.Kernel 性能分析与瓶颈优化;
8.使用 Nsight Compute / Nsight Systems / nvprof 等工具做 Kernel 级性能剖析;
9.分析 SM 利用率、Tensor Core 利用率、访存带宽、指令吞吐、分支发散等指标,持续迭代 Kernel 实现;
10.为上层训练框架提供关于 batch 设计、sequence length、并行策略等与性能相关的技术建议;
11.前沿技术跟踪与工程落地;
12.跟踪 GPU 新架构、新指令、新库(如最新 CUTLASS、NCCL 等);
13.学习业界优秀实现(Megatron-LM、DeepSpeed、Deepseek 等)的 Kernel/算子方案,并在 WeLM 体系内做工程化落地。 岗位要求
1.计算机、电子工程、数学、物理等相关专业,本科及以上学历(硕士/博士优先);
2.扎实的C/C++ 编程能力,良好的代码风格和工程习惯;
3.熟练使用CUDA 进行 GPU 编程,有亲自写过或优化过 Kernel 的实战经验:;
4.理解 war...