### 岗位概述负责私有化GPU集群及LLM推理平台的稳定运行，专注推理服务性能优化与模型部署标准化，为算法团队提供底层平台支持。协助定位推理服务与上层应用之间的交互问题。 ### 岗位职责 1. 基础设施运维保障（50%） - 负责私有化GPU集群（如A100/H100等）的日常运维与生命周期管理 - 管理Kubernetes GPU集群，包括节点调度、资源隔离、网络优化（InfiniBand/RoCE） - 搭建监控告警体系（Prometheus/Grafana/ELK），制定并跟进可用性SLO - 排查常见GPU故障（如掉卡、显存泄漏、NCCL超时、OOM等） - 参与容量规划与成本优化，提升GPU利用率 2. LLM推理服务优化（35%） - 生产环境推理引擎的选型与调优，至少深入使用过 vLLM、SGLang 或 TensorRT-LLM 之一 - 熟悉常用量化方法（INT8/FP8等），平衡推理精度与吞吐 - 优化KV Cache管理，提升显存效率，支持长上下文推理 - 建立基准测试体系（TTFT、TPOT、Throughput） - 实现多模型并行部署、动态扩缩容与负载均衡 3. 模型部署与生命周期管理（10%） - 构建模型部署流水线，支持从模型仓库到生产环境的自动化发布 - 管理模型版本、灰度发布、A/B测试及回滚 - 协助算法团队完成模型格式转换及部署验证 4. 开发支持（5%） - 协助排查推理API异常，定位问题归属平台层或应用层 - 使用脚本或工具调用推理接口，查看日志解决常见问题 ### 任职要求 硬性条件 - 计算机或相关专业本科及以上，3年以上基础设施或后端工程经验 - 熟悉Kubernetes及云原生生态，有GPU集群运维经验（如20+节点） - 熟悉NVIDIA GPU架构及CUDA生态，了解NCCL、RDMA的基本原理 - 精通至少一种 LLM推理引擎（vLLM/SGLang/TensorRT-LLM），有生产环境实际调优经验 - 了解Transformer架构及推理阶段基本特点（自回归、KV Cache、Attention） - 熟悉Python及Bash，能编写自动化运维脚本 加分项 - 大规模（50+ GPU节点）集群运维经验 - MoE模型或多模态模型部署经验 - 长上下文（100K+ tokens）推理优化经验 - 开源推理引擎贡献者 - 熟悉KServe、BentoML等云原生AI平台

高级ModelOps工程师（基础设施与推理优化方向）

职位描述

相关

相关