微信 -WeLM 算子开发工程师（深圳、上海）

Company

Tencent

Location

Beijing, China

Type

Full-time

            微信 -WeLM 算子开发工程师（深圳、上海） 北京 分享 
分享岗位
方式1:复制岗位链接
方式2:分享岗位海报
手机扫描二维码分享
 收藏 WXG 点击了解更多BG信息 技术 两年以上工作经验 更新于年06月12日 岗位职责 1.针对 Hopper / Blackwell 架构进行 Kernel 开发与优化；
2.基于 CUDA / PTX / Triton 设计和实现大模型训练中的核心算子 Kernel：；
3.结合 Hopper / Blackwell 特性，在线程组织、访存路径、寄存器/共享内存使用、Tensor Core 调度等层面做深度优化；
4.构建高性能训练算子库；
5.针对 WeLM 模型结构进行算子设计与融合，降低 Kernel 调度和访存开销；
6.参与 WeLM 内部高性能算子库的建设，与 PyTorch 及 cuBLAS、cuDNN、CUTLASS 等库进行集成或替换；
7.Kernel 性能分析与瓶颈优化；
8.使用 Nsight Compute / Nsight Systems / nvprof 等工具做 Kernel 级性能剖析；
9.分析 SM 利用率、Tensor Core 利用率、访存带宽、指令吞吐、分支发散等指标，持续迭代 Kernel 实现；
10.为上层训练框架提供关于 batch 设计、sequence length、并行策略等与性能相关的技术建议；
11.前沿技术跟踪与工程落地；
12.跟踪 GPU 新架构、新指令、新库（如最新 CUTLASS、NCCL 等）；
13.学习业界优秀实现（Megatron-LM、DeepSpeed、Deepseek 等）的 Kernel/算子方案，并在 WeLM 体系内做工程化落地。
 岗位要求 1.计算机、电子工程、数学、物理等相关专业，本科及以上学历（硕士/博士优先）；
2.扎实的C/C++ 编程能力，良好的代码风格和工程习惯；
3.熟练使用CUDA 进行 GPU 编程，有亲自写过或优化过 Kernel 的实战经验：；
4.理解 war...
        

★ SearchEuropeanJobs.com

微信 -WeLM 算子开发工程师（深圳、上海）

★ Ready to Start Your European Career?