SearchEuropeanJobs.com

AI Infra SRE工程师(深圳/北京)

Company

Tencent

Location

Shenzhen, China

Type

Full-time

AI Infra SRE工程师(深圳/北京) 深圳 分享

分享岗位

方式1:复制岗位链接

方式2:分享岗位海报

手机扫描二维码分享

收藏 TEG 点击了解更多BG信息 技术 三年以上工作经验 更新于年05月21日
  • 在腾讯,优秀的技术运营工程师始终赋能业务,关注技术运营的质量、成本、效率和安全。他们不仅是经验丰富的问题解决者,更是具有全局视角的架构师,通过自动化工具的建设,强力提升平台效能,助力业务发展。
  • 岗位职责
  • 1.负责超大规模通用大模型服务的 SRE 体系建设,保障 AI 平台在高并发、高吞吐、复杂异构资源环境下的稳定性、可用性与服务质量;
    2.负责 AI Infra 监控、可观测性、告警治理与自动化运维平台建设,构建覆盖 GPU、网络、存储、推理链路与模型服务全生命周期的智能运维体系;
    3.负责线上故障快速定位、应急响应与稳定性治理,建立标准化应急预案、故障复盘与根因分析机制,持续提升系统韧性与业务连续性;
    4.参与大模型训练与推理平台的部署、调优与自动化能力建设,推动 LLMOps / MLOps 工程化体系落地,提升平台交付效率与稳定性;
    5.深入分析系统瓶颈与容量热点,通过数据驱动方式识别稳定性风险与性能短板,持续推动架构优化与平台演进;
    6.负责 GPU / CPU / 网络 / 存储等资源利用率治理,推进模型推理加速、弹性调度与成本优化,持续提升资源效率与 ROI;
    7.跟踪业界 AI 硬件与 Infra 技术演进(GPU、网络、存储、推理框架等),结合业务场景推动基础设施选型、架构升级与技术创新;
    8.探索 AI Native SRE、智能 OnCall、AIOps、Agentic 运维等前沿方向,推动运维体系向智能化、自愈化与自治化演进。
  • 岗位要求
  • 1.计算机、软件工程、网络工程等相关专业本科及以上学历,具备 3 年及以上大型互联网或 AI Infra 运维 / SRE 经验;
    2.熟悉 Linux 操作系统原理,具备扎实的网络、存储、系统调优与分布式系统基础;
    3.熟练掌握至少一种编程语言(Python / G...
  • ★ Ready to Start Your European Career?

    Take the next step and apply for this exciting opportunity

    Apply Now