为什么 CPU 指标不均衡
前几天跟业务查个容器的 CPU 不均衡的问题,图长这样:

确实触目惊心,不只是不均衡,而且每个容器的 CPU 曲线也太波折。但是登容器里看 top 缺没有肉眼可见的大波动。
想起来 prometheus 里 node_exporter 的 CPU 利用率指标 node_cpu_seconds_total 并非 top 里的瞬时值,而是 CPU 时间的一个累加值。所以理论上抓取的时间点会对 rate 的计算结果有干扰。极端情况下如果一个容器的指标有一分钟没有抓到,那么 rate [1m] 计算出来的图里就一定有 0,到下一分钟则利用率会往上跳一下。
没有想到特别好的办法,rate [2m] 的曲线会平滑起来但是总觉得有些损失,要么就 scraper 保障一下抓取的及时性,让 time vector 比抓取周期 * 2 一下。感觉上 gauge 形式的指标可能仍比 counter 要舒服一点。
红色有角F叔的最新日记 · · · · · · ( 全部 )
- random 2025-01-04 (3人喜欢)
- random 2024-12-08 (3人喜欢)
热门话题 · · · · · · ( 去话题广场 )
-
加载中...