Skip to content

《2025 年 SRE 报告》核心内容总结与分析

约 1930 字大约 6 分钟

2025-12-08

夜莺官方交流群里,秦老板分享了下 2025年 catchpoint 发布的 sre 报告,有些行业动态值得关注。做了简单翻译和总结,分享给大家。

《2025 年 SRE 报告》(第七版)由 Catchpoint 发布,基于 2024 年 7-8 月全球 301 份可靠性相关角色的调研数据,聚焦站点可靠性工程(SRE)领域的核心趋势、挑战与实践,以客观数据呈现行业现状,未提供规定性建议,而是赋能组织结合自身场景提炼洞察。报告核心围绕七大关键洞察展开,同时包含人口统计背景与 Catchpoint 品牌介绍,整体凸显 “可靠性与性能并重、工具与实践协同、组织与个人适配” 的核心逻辑。

一、核心观点总结

观点一:“慢即宕机” 成为行业共识(Slow is Officially the New Down)

  • 核心观点:系统性能不佳与完全宕机的负面影响等价,性能已超越 “可用性” 成为可靠性的核心维度。
  • 关键数据:53% 的组织认同 “慢即宕机”,但仅 21% 此前听过该表述;41% 的组织将 SRE 列为未来 12 个月首要优先级,40% 优先选择服务级 / 体验级目标(SLO/XLO)。
  • 现状与建议:前后端监控覆盖率(前端 41%、后端 51%)高于持续性能优化率(前端 30%、后端 33%),需打破 “监控孤岛”,从内外部多视角进行全链路性能优化,同时通过 “消耗曲线图” 可视化性能与错误预算,平衡敏捷与稳定。

观点二:辛劳工作(Toil)首次回升,AI 未达降本预期

  • 核心趋势:手动、重复、可自动化的辛劳工作占比五年内首次上升,侵蚀主动工程创新时间。
  • 关键数据:2025 年辛劳工作中位数从 2024 年的 14% 升至 20%;运营类工作中位数从 25% 升至 30%,而工程类工作占比与 2024 年持平。
  • 潜在原因:① AI 未有效减少辛劳,反而新增监控 AI 模型、维护 GPU 集群等运营负担;② 组织优先短期成本节约,忽视长期自动化投入;③ 产品交付压力下,工程团队缺乏时间优化运营流程。

观点三:组织优先级不稳定,敏捷与稳定的冲突加剧

  • 核心矛盾:生产压力越大,组织优先级越易波动,“发布进度优先于可靠性” 的现象普遍存在。
  • 关键数据:57% 的团队认为组织优先级稳定,58% 认同 OKR 沟通清晰,53% 表示可靠性问题得到重视,但 41% 的组织 “经常 / 总是” 被迫优先保障发布时间表而非可靠性。
  • 深层问题:尽管表面流程完善,但业务对 “更新迭代、营收增长” 的诉求与 SRE 对 “可靠性、韧性” 的追求形成博弈,且优先级稳定性与生产压力呈负相关。

观点四:多监控工具并非问题,价值大于成本是核心(Single Panes or Multiple Pains?)

  • 核心结论:“工具 sprawl(蔓延)” 并非本质问题,工具能否提供净价值(覆盖成本)才是关键,多工具适配不同技术栈的需求是合理选择。
  • 关键数据:61% 的组织使用 2-5 个监控 / 可观测性工具,仅 4% 使用单一工具;51% 的组织认为可观测性 “不足”,但多数(49%)认同工具价值大于成本(31% 同意 + 18% 强烈同意)。
  • 实践建议:日志(58%)、指标(56%)、事件(48%)、追踪(45%)的 “高价值” 认同率居前,应采用 “最优组合” 策略选择工具,聚焦 “相关遥测数据捕获” 而非工具数量精简,同时警惕 “单一控制台” 可能导致的可观测性不足。

观点五:AI 技术培训需求普遍,但学习资源与时间不足

  • 核心趋势:全层级对 AI 技术培训的需求达成共识,但学习时间短缺、培训形式偏好存在层级差异。
  • 关键数据:30% 的受访者希望获得 AI 技术培训,37% 持谨慎态度;55% 认为在线培训(Coursera 等)最有价值,45% 认可线下实地培训;67% 表示 “学习时间不足”,仅 6% 认为学习时间充足。
  • 层级差异:管理层更偏好线下培训(侧重协作与软技能),个人贡献者倾向在线培训(追求灵活性与自主性);个人贡献者对 AI 的谨慎态度(46%)高于管理层(30%)。
  • AI 应用预期:“代码编写”(39% 高价值认同)是最受看好的 AI 场景,“发布管理”(17% 高价值认同)最低,较 2024 年下降 10 个百分点。

观点六:事件频发且影响深远,管理层深度参与响应

  • 核心认知:系统故障并非偶然,而是常态,且事件的影响延伸至 “响应后”,需重视全周期支持。
  • 关键数据:40% 的受访者 30 天内处理 1-5 起事件,23% 处理 6-10 起;管理层参与事件响应的比例与个人贡献者相当,甚至更高;14% 的受访者在事件后压力上升,事件后团队支持率(44% 高支持)低于事件中(55% 高支持)。
  • 实践启示:需建立 “无指责事后复盘” 文化,完善事件后改进机制,同时优化升级流程,避免核心人员过度参与常规事件响应。

观点七:IT 与业务存在沟通差距,需正视并弥合

  • 核心发现:不同管理层级对可靠性实践的认知存在差异,整体实践虽有积极表现,但 “认知差距” 影响协同效率。
  • 关键数据:① 整体表现:53% 的团队在产品全生命周期优化可靠性,49% 有明确的事件管理流程,51% 将第三方供应商纳入事件管理;② 层级差异:个人贡献者对 “修订可靠性目标”“事件准备测试” 等实践的 “不同意率” 高于管理层,反映 IT 执行层与业务管理层的认知错位。
  • 解决方向:建立透明沟通渠道,定期更新可靠性实践评估,确保 IT 与业务对 “当前状态”“目标优先级” 达成共识,避免资源浪费与重复劳动。

二、核心趋势与挑战总结

  • 性能成为可靠性核心:“慢即宕机” 共识推动 SLO/XLO 落地,性能优化从 “可选” 变为 “必需”。
  • 工具价值优先于数量:多工具组合是行业常态,关键在于匹配技术栈需求并实现 “价值> 成本”。
  • AI 的双刃剑效应:AI 未如预期减少辛劳,反而新增运营负担,但培训需求显示其长期潜力。
  • 组织与个人的适配矛盾:管理层与执行层的学习偏好、AI 态度、可靠性认知存在差异,沟通与协同是关键。
  • 事件管理需全周期视角:事件响应不仅是 “解决故障”,更需重视事后改进、压力疏导与团队支持。

归根结底,行业变动下的 SRE 价值,早已超越 “保障系统不宕机” 的基础诉求 —— 而是成为组织在不确定性中保持稳定、实现可持续增长的核心韧性引擎。唯有以数据为依据、以业务为导向、以协同为支撑,才能在技术迭代与业务波动中持续创造价值。