云原生算力平台运维工程师(深圳/北京) 深圳 分享
分享岗位
方式1:复制岗位链接
方式2:分享岗位海报
手机扫描二维码分享
收藏 TEG 点击了解更多BG信息 技术 三年以上工作经验 更新于年06月04日
在腾讯,技术人解决问题的激情永不熄灭。无论是面对产品、程序的问题,还是生活与人的问题,腾讯技术人都力图交出漂亮的答卷。我们善用科学工具,以强大的思维之力创造世界,为卓越的产品体验保驾护航,也为公司和产品策略提出宝贵的洞见,用技术引领新的变革。这里的每位成员,既传承着长久以来的务实文化,又时刻以创新眼光瞄准大海星辰。我们十分期待你加入这样一个「技术社区」,分享团队能量,尽情发挥所长。 岗位职责
1.负责GPU、CPU、异构计算设备的日常运维、软硬件排障、调优,以及算力服务能力提升、资源利用效率提升,保障算力输出的持续、稳定、高效;
2.负责k8s集群管理和治理,容灾设计、监控告警、版本变更、安全演练等,保障系统高可用和可维护;
3.负责运维运营工作自动化,包括资源管理、变更管理、故障恢复、用户工具接口等。 岗位要求
1.本科及以上学历,2年以上相关工作经验;
2.熟悉GPU、机器学习技术原理,有GPU硬件、驱动、Cuda、NCCL、Mellanox网络等运维和调优经验,有异构硬件经验者优先;
3.熟悉云原生容器技术,有Docker、K8s的实际使用和运维经验;
4.熟悉Linux环境和Shell,掌握Golang/Python/Java等1种以上语言;
5.熟悉云原生容灾设计优化,并善于使用自动化、智能化方法让服务稳定高效;
6.具有强烈的工作责任心和自驱力,有良好的学习沟通能力、逻辑分析能力和抽象能力,良好的团队合作精神。