该职位来源于猎聘 【工作职责】 稳定保障:负责业务系统全生命周期的稳定性建设,构建SLO/SLI/SLA体系,确保系统的稳定和高可用; 监控告警:设计和完善监控体系(特别是业务、应用层级的监控),并及时响应和处理告警事件; 故障处理:定义故障等级、规范处理流程,主导故障应急响应、排查定位、止损恢复,并组织复盘,落实改进; 变更管理:优化CI/CD流程,控制变更风险,保障配置、应用发布的质量和效率; 安全防御:负责服务器主机安全和WAF防火墙等策略的制订和维护; 工具开发:开发、应用自动化运维平台、工具,提升运维效率和自愈能力; A I 支持:搭建和维护AI基础设施,助力业务部门的