背景
架构
- YARN架构
- 资源抽象
- YARN调度架构
- 资源抽象
- 调度流程
- 作业的组织方式
- 核心调度流程
指标
- 业务指标:有效调度
- 系统性能指标:每秒调度Container数
关键优化点
- 优化排序比较函数
- 优化作业跳过时间
- 队列并行排序优化
稳定上线的策略
- 在线回滚策略
- 数据自动校验策略
总结
- 做性能优化,首先要定义宏观的性能指标,从而能够评估系统的性能。
- 定义压测需要观察的细粒度指标,才能清晰看到系统的瓶颈。
- 工欲善其事,必先利其器。高效的压力测试工具是性能优化必备的利器。
- 优化算法的思路主要有:降低算法时间复杂度;减少重复计算和不必要的计算;并行化。
- 性能优化是永无止境的,要根据真实业务来合理预估业务压力,逐步开展性能优化的工作。
- 代码上线需谨慎,做好防御方案。