大模型存储研发工程师 北京 分享
分享岗位
方式1:复制岗位链接
方式2:分享岗位海报
手机扫描二维码分享
收藏 TEG 点击了解更多BG信息 技术 一年以上工作经验 更新于年05月29日 岗位职责
1.负责大模型专用存储系统的设计研发,围绕大模型训练/推理场景构建一体化分层存储架构,无缝对接大模型训推框架:;
2.架构设计与场景适配:通过系统性逻辑分析拆解大模型存储瓶颈,结合训推场景的数据流特征,设计分层存储架构,解决数据流转效率与一致性问题;
3.推理性能极致优化:面向推理场景,通过全链路IO瓶颈的逻辑分析,结合CXL、RDMA、GPU Direct等高速互联技术,设计极致IO路径,实现数据高效传输,持续优化TTFT、TBT、并行吞吐等核心性能指标,解决推理延迟与并发瓶颈;
4.训练场景稳定性保障:面向训练场景,通过对万卡接入、爆发式流量的模式分析与逻辑建模,设计高可靠、高吞吐的存储服务方案,解决长周期训练中的数据稳定性与性能波动问题。 岗位要求
1.具备扎实的计算机技术基础,精通数据结构和算法,熟练掌握Linux环境下的C/C++/Go/Python等至少一门编程语言;
2.掌握分布式系统原理(一致性、可靠性、扩展性等),主导或深度参与过至少一款大型分布式系统研发;
3.富有创造力、学习能力和自驱力,具备极强的逻辑分析与问题拆解能力,能对业务场景进行深度分析和抽象,创造性解决存储性能、可靠性等关键问题;
4.具备良好的沟通能力、协调能力,能闭环解决问题,与合作方共赢。 加分项
1.熟悉主流机器学习框架/推理引擎(例如vLLM/SGLang/PyTorch);
2.有大模型训练推理性能优化经验,比如:KVCache优化;
3.熟悉CXL、GPU Direct、RDMA等高性能数据传输技术;
4.有高性能计算/网络/数据库/云原生背景。