性能不好怎么办?对着清单撸一遍
前不久,Brendan Gregg在SREcon16上分享了《Performance Checklists for SREs》,也是干货满满。我们一起来看看。
对于单个实例,可以考虑这10条命令。10条命令,一分钟分析Linux性能问题 一文中有详细介绍。
什么是性能工程?SRE(Site Reliability Engineer,网站可靠性工程师)大家应该并不陌生。SRE遇到性能问题时,要作出应急响应。但性能工程与此并不相同。
性能工程的目标是尽可能获得最好的性价比,持续优化,而优化无止境。修复性能问题,需要的时间也长短不一,可能是数小时,数天,数周,甚至是数个月。需要花时间读文档和源代码,做各种实验。通常没有一个所谓的“良好状态”,好或不好,可能要靠实验或直觉。
这个图很重要,可以看看系统的不同部分分别能用什么命令来做性能分析。
再来看看SRE的应急响应处理。
目标是几分钟内解决问题。快速解决是王道。可以向上扩展,回滚,甚至是把流量转走。必须在压力下解决问题,可能要凌晨三点起来。这种情况下,历史状态就是“良好状态”。
Netflix的云分析流程。