[特别篇 06] laixintao 和 Manjusaka 串台「牛油果烤面包」
捕蛇者说
2025/08/07
[特别篇 06] laixintao 和 Manjusaka 串台「牛油果烤面包」
[特别篇 06] laixintao 和 Manjusaka 串台「牛油果烤面包」

捕蛇者说
2025/08/07
在本期联合制作的播客中,牛油果烤面包与捕蛇者说共同探讨了 SRE(站点可靠性工程)这一技术职业的核心内容。节目邀请了两位具有 SRE 背景的嘉宾,分享他们从开发转向基础设施,最终进入 SRE 领域的职业经历。
SRE 是一种结合软件开发与系统运维的新兴职业,最早由 Google 提出,旨在通过平台化工具让开发人员更自主地管理服务,从而避免运维团队随业务规模线性增长。SRE 的主要职责包括服务发布、扩缩容、自动化运维以及保障系统稳定性。即使在云服务普及的今天,SRE 依然在容量规划、故障响应和用户体验保障方面发挥着不可替代的作用。SRE 需要掌握编程、系统、网络等技术能力,同时也需具备良好的沟通与文档能力。职业发展路径从一线技术岗逐步延伸至平台建设与团队管理。随着 AI 与 DevOps 的发展,SRE 正逐渐向服务开发前期渗透,承担更早的风险控制与系统设计任务。
02:11
02:11
推荐初学者学习 Rust
05:08
05:08
基础设施开发人员往往会最终成为 SRE
05:59
05:59
SRE 模式解决了运维人员随业务扩展线性增加的问题
13:55
13:55
基础设施团队提供统一调用平台,解决上千服务的通信问题
23:51
23:51
SRE 开发的发布系统让开发人员可自助完成部署操作
26:30
26:30
SRE 模式支持业务负责人通过平台参数调整实现扩容
30:08
30:08
SRE 负责服务部署与扩缩容等关键任务
31:51
31:51
使用 Lambda 无需 SRE?实际仍需 SRE 技能的开发人员
42:29
42:29
Facebook 的 Production Engineer 强调写自动化代码而非手动部署
54:17
54:17
用户反馈往往比监控系统更早发现问题
1:05:32
1:05:32
一分钟发现、五分钟止血、十分钟恢复是 SRE 的关键指标
1:10:37
1:10:37
SRE 需在服务开发前期介入,定义问题、风险点、监控点和报警阈值