SRE google运维解密
第四章:服务质量目标
SLI:服务质量指标 --- 指标不需要多,正常四个左右,清淅可说明问题,标准化就好。
SLO:服务质量目标 --- 目标保持简单,不追求完美,避免绝对性,SLO可以建议起用户的预期,所以不要太高,一定要留出安全区,用于系统的改造和新功能的发布。
SLA:服务质量协议(不满足目标后的措施) -- 这个对外用的多,对内系统一般比较少,主要是绩效相关,所以平时我们定的都是SLI及SLO。
PS:如果SRE团队无法说服研发团队接受任务一个SLO,那么这个产品可能压根不需要SRE
第五章:减少琐事
琐事:重复性,不停反复做(超过3次) --- 例如集群部署工作
手动性 可以自动化:
如果需要主观判断的,很可能就不是琐事
战术性:处理报警甚至是紧急报警,突然应对的工作 没有持久价值:
完成后服务状态不会改变
与服务同步增长。
第六章:监控
google使用简单和快速的监控系统及高效工具,避免魔法系统(AI)。
生产故障,人工处理紧急警报,简单定位和深入调度。
黑盒监控:现象,表明系统现有的故障
白盒监控:内部指标,检测即将发生及那些重试所掩盖的问题。
4个黄金指标: 延迟、流量、错误、饱和度
1. 反映真实故障的规则,简单、可预测性强,可靠
2. 不常用的数据收集、汇总警报配置应该删除(一个季度都不用一次的)
3、收集到的信息没有监控台使用,没有规则使用,应该删除
紧急报警的关键:少、可操作性、智力分析、新的问题
是否需要hack或workaround来解决问题应该是leader来解决的。
还没人转发这篇日记