Skip to main content

高级ModelOps工程师(基础设施与推理优化方向)

Technology
长江存储科技有限责任公司
上海-浦东新区, 中国1周前截至 2026/8/18
全职

职位描述

### 岗位概述 负责私有化GPU集群及LLM推理平台的稳定运行,专注推理服务性能优化与模型部署标准化,为算法团队提供底层平台支持。协助定位推理服务与上层应用之间的交互问题。 ### 岗位职责 1. 基础设施运维保障(50%) - 负责私有化GPU集群(如A100/H100等)的日常运维与生命周期管理 - 管理Kubernetes GPU集群,包括节点调度、资源隔离、网络优化(InfiniBand/RoCE) - 搭建监控告警体系(Prometheus/Grafana/ELK),制定并跟进可用性SLO - 排查常见GPU故障(如掉卡、显存泄漏、NCCL超时、OOM等) - 参与容量规划与成本优化,提升GPU利用率 2. LLM推理服务优化(35%) - 生产环境推理引擎的选型与调优,至少深入使用过 vLLM、SGLang 或 TensorRT-LLM 之一 - 熟悉常用量化方法(INT8/FP8等),平衡推理精度与吞吐 - 优化KV Cache管理,提升显存效率,支持长上下文推理 - 建立基准测试体系(TTFT、TPOT、Throughput) - 实现多模型并行部署、动态扩缩容与负载均衡 3. 模型部署与生命周期管理(10%) - 构建模型部署流水线,支持从模型仓库到生产环境的自动化发布 - 管理模型版本、灰度发布、A/B测试及回滚 - 协助算法团队完成模型格式转换及部署验证 4. 开发支持(5%) - 协助排查推理API异常,定位问题归属平台层或应用层 - 使用脚本或工具调用推理接口,查看日志解决常见问题 ### 任职要求 硬性条件 - 计算机或相关专业本科及以上,3年以上基础设施或后端工程经验 - 熟悉Kubernetes及云原生生态,有GPU集群运维经验(如20+节点) - 熟悉NVIDIA GPU架构及CUDA生态,了解NCCL、RDMA的基本原理 - 精通至少一种 LLM推理引擎(vLLM/SGLang/TensorRT-LLM),有生产环境实际调优经验 - 了解Transformer架构及推理阶段基本特点(自回归、KV Cache、Attention) - 熟悉Python及Bash,能编写自动化运维脚本 加分项 - 大规模(50+ GPU节点)集群运维经验 - MoE模型或多模态模型部署经验 - 长上下文(100K+ tokens)推理优化经验 - 开源推理引擎贡献者 - 熟悉KServe、BentoML等云原生AI平台

Keywords
8年以上ScigressGrafanaInterSystems Caché

对这个职位感兴趣吗?