SearchEuropeanJobs.com

微信 -WeLM 算子开发工程师(深圳、上海)

Company

Tencent

Location

Beijing, China

Type

Full-time

微信 -WeLM 算子开发工程师(深圳、上海) 北京 分享

分享岗位

方式1:复制岗位链接

方式2:分享岗位海报

手机扫描二维码分享

收藏 WXG 点击了解更多BG信息 技术 两年以上工作经验 更新于年06月12日 岗位职责
  • 1.针对 Hopper / Blackwell 架构进行 Kernel 开发与优化;
    2.基于 CUDA / PTX / Triton 设计和实现大模型训练中的核心算子 Kernel:;
    3.结合 Hopper / Blackwell 特性,在线程组织、访存路径、寄存器/共享内存使用、Tensor Core 调度等层面做深度优化;
    4.构建高性能训练算子库;
    5.针对 WeLM 模型结构进行算子设计与融合,降低 Kernel 调度和访存开销;
    6.参与 WeLM 内部高性能算子库的建设,与 PyTorch 及 cuBLAS、cuDNN、CUTLASS 等库进行集成或替换;
    7.Kernel 性能分析与瓶颈优化;
    8.使用 Nsight Compute / Nsight Systems / nvprof 等工具做 Kernel 级性能剖析;
    9.分析 SM 利用率、Tensor Core 利用率、访存带宽、指令吞吐、分支发散等指标,持续迭代 Kernel 实现;
    10.为上层训练框架提供关于 batch 设计、sequence length、并行策略等与性能相关的技术建议;
    11.前沿技术跟踪与工程落地;
    12.跟踪 GPU 新架构、新指令、新库(如最新 CUTLASS、NCCL 等);
    13.学习业界优秀实现(Megatron-LM、DeepSpeed、Deepseek 等)的 Kernel/算子方案,并在 WeLM 体系内做工程化落地。
  • 岗位要求
  • 1.计算机、电子工程、数学、物理等相关专业,本科及以上学历(硕士/博士优先);
    2.扎实的C/C++ 编程能力,良好的代码风格和工程习惯;
    3.熟练使用CUDA 进行 GPU 编程,有亲自写过或优化过 Kernel 的实战经验:;
    4.理解 war...
  • ★ Ready to Start Your European Career?

    Take the next step and apply for this exciting opportunity

    Apply Now