快速注册

SRE google运维解密

dun_2010 2018-11-13 14:02:16

第四章：服务质量目标

SLI：服务质量指标 --- 指标不需要多，正常四个左右，清淅可说明问题，标准化就好。

SLO：服务质量目标 --- 目标保持简单，不追求完美，避免绝对性，SLO可以建议起用户的预期，所以不要太高，一定要留出安全区，用于系统的改造和新功能的发布。

SLA：服务质量协议（不满足目标后的措施） -- 这个对外用的多，对内系统一般比较少，主要是绩效相关，所以平时我们定的都是SLI及SLO。

PS：如果SRE团队无法说服研发团队接受任务一个SLO，那么这个产品可能压根不需要SRE

第五章：减少琐事

琐事：重复性，不停反复做（超过3次） --- 例如集群部署工作

手动性可以自动化：

如果需要主观判断的，很可能就不是琐事

战术性：处理报警甚至是紧急报警，突然应对的工作没有持久价值：

完成后服务状态不会改变

与服务同步增长。

第六章：监控

google使用简单和快速的监控系统及高效工具，避免魔法系统（AI）。

生产故障，人工处理紧急警报，简单定位和深入调度。

黑盒监控：现象，表明系统现有的故障

白盒监控：内部指标，检测即将发生及那些重试所掩盖的问题。

4个黄金指标：延迟、流量、错误、饱和度

1. 反映真实故障的规则，简单、可预测性强，可靠

2. 不常用的数据收集、汇总警报配置应该删除（一个季度都不用一次的）

3、收集到的信息没有监控台使用，没有规则使用，应该删除

紧急报警的关键：少、可操作性、智力分析、新的问题

是否需要hack或workaround来解决问题应该是leader来解决的。

读书

回应转发赞收藏

还没人转发这篇日记

dun_2010

热门话题 · · · · · · ( 去话题广场 )