全链路压测

zoukankan html css js c++ java

全链路压测
一、背景
- 历年的双11备战过程当中，最大的困难在于评估从用户登录到完成购买的整个链条中，核心页面和交易支付的实际承载能力。
- 2009年第一次双11以来，每年双11的业务规模增长迅速，0点的峰值流量带给我们的不确定性越来越大。
- 2010年上线了容量规划平台从单个点的维度解决了容量规划的问题
- 然而在进行单点容量规划的时候，有一个前提条件：下游依赖的服务状态是非常好的。实际情况并非如此，双11 当天0点到来的时候，从CDN到接入层、前端应用、后端服务、缓存、存储、中间件整个链路上都面临着巨大流量，这个时候应用的服务状态除了受自身影响，还会受到依赖环境影响，并且影响面会继续传递到上游，哪怕一个环节出现一点误差，误差在上下游经过几层累积后会造成什么影响谁都无法确定。
- 所以除了进行事先的容量规划，我们还需要建立起一套验证机制，来验证我们各个环节的准备都是符合预期的。验证的最佳方法就是让事件提前发生，如果我们的系统能够提前经历几次“双11”，容量的不确定性问题也就解决了。全链路压测的诞生解决了容量的确定性问题！
二、面临挑战

提前对双11进行模拟听起来就不简单，毕竟双11的规模和复杂性都是空前的，要将双11提前模拟出来，难度可想而知：
- 跟双11相关的业务系统上百个，并且牵涉到整条链路上所有的基础设施和中间件，如何确保压测流量能够通畅无阻，没有死角？
- 压测的数据怎么构造（亿万级的商品和用户），数据模型如何与双11贴近？
- 全链路压测直接在线上的真实环境进行双11模拟，怎么样来保障对线上无影响？
- 双11是一个上亿用户参与的盛大活动，所带来的巨大流量要怎么样制作出来？
三、为什么需要容量规划

阿里巴巴有着非常丰富的业务形态，每种业务都由一系列不同的业务系统来提供服务，每个业务系统都分布式地部署在不同的机器上。

随着业务的发展，特别是在大促营销等活动场景下（比如双 11），需要为每个业务系统准备多少机器对于阿里巴巴技术团队来说是一大难题。

“容量规划”正是为解决这个难题而诞生，容量规划的目的在于让每一个业务系统能够清晰地知道：什么时候应该加机器、什么时候应该减机器？

双 11 等大促场景需要准备多少机器，既能保障系统稳定性、又能节约成本？

四、在双 11 等大促场景的准备过程当中，容量规划一般分为四个阶段
1. 业务流量预估阶段：通过历史数据分析未来某一个时间点业务的访问量会有多大；
2. 系统容量评估阶段：初步计算每一个系统需要分配多少机器；
3. 容量的精调阶段：通过全链路压测来模拟大促时刻的用户行为，在验证站点能力的同时对整个站点的容量水位进行精细调整；
4. 流量控制阶段：对系统配置限流阈值等系统保护措施，防止实际的业务流量超过预估业务流量的情况下，系统无法提供正常服务。
在第一个阶段当中，通过合适的预测算法和丰富的历史数据，通常能够比较准确地预估业务的访问量。

即使在第一阶段预估的业务访问量跟实际的存在误差，通过第四阶段的流量控制也能够确保站点始终处于良好的服务状态。

做完业务访问量的预估之后，容量规划进入第二阶段，为系统进行容量的初步评估。如何通过精准的容量评估，用最小的成本来支撑好预估的业务量是这个阶段的核心问题。

要计算一个系统需要多少台机器，除了需要知道未来的业务调用量之外，还有一个更重要的变量，就是单台机器的服务能力。

获取单台机器的服务能力在阿里巴巴是通过单机压测的方式来获取。在阿里巴巴，为了精准地获取到单台机器的服务能力，压力测试都是直接在生产环境进行，

这有两个非常重要的原因：单机压测既需要保证环境的真实性，又要保证流量的真实性。否则获取到的单台机器服务能力值将会有比较大的误差，影响到整个容量规划的准确性。

五、生产环境进行单台机器压力测试的方式主要分为 4 种

模拟请求：通过对生产环境的一台机器发起模拟请求调用来达到压力测试的目的

模拟请求的实现比较简单，也有非常多的开源或者商业工具可以来做请求模拟，比如 apache ab、webbench、httpload、jmeter、loadrunner。通场情况下，新系统上线或者访问量不大的系统采用这种方式来进行单机压测。模拟请求的缺点在于，模拟请求和真实业务请求之间存在的差异，会对压力测试的结构造成影响。模拟请求的另一个缺点在于写请求的处理比较麻烦，因为写请求可能会对业务数据造成污染，这个污染要么接受、要么需要做特殊的处理（比如将压测产生的数据进行隔离）。

复制请求：通过将一台机器的请求复制多份发送到指定的压测机器

为了使得压测的请求跟真实的业务请求更加接近，在压测请求的来源方式上，我们尝试从真实的业务流量进行录制和回放，采用请求复制的方式来进行压力测试。请求复制的方式比请求模拟请求方式的准确性更高，因为业务的请求更加真实了。从不足上来看，请求复制同样也面临着处理写请求脏数据的问题，此外复制的请求必须要将响应拦截下来，所以被压测的这台机器需要单独提供，且不能提供正常的服务。请求复制的压力测试方式，主要用于系统调用量比较小的场景。

请求转发：将分布式环境中多台机器的请求转发到一台机器上

对于系统调用量比较大的场景，我们有更好的处理办法。其中的一种做法我们称为请求的引流转发，阿里巴巴的系统基本上都是分布式的，通过将多台机器的请求转发到一台机器上，让一台机器承受更大的流量，从而达到压力测试的目的。请求的引流转发方式不仅压测结果非常精准、不会产生脏数据、而且操作起来也非常方便快捷，在阿里巴巴也是用的非常广泛的一种单机压测方式。当然，这种压测方式也有一个前提条件就是系统的调用量需要足够大，如果系统的调用量非常小，即使把所有的流量都引到一台机器，还是无法压测到瓶颈。

调整负载均衡：修改负载均衡设备的权重，让压测的机器分配更多的请求

与请求引流转发的方式类似，最后一种压测方式同样是让分布式环境下的某一台机器分配更多的请求。不同的地方在于采用的方式是通过去调整负载均衡设备的权重。调整负载均衡方式活的的压测结果非常准确、并且不会产生脏数据。前提条件也需要分布式系统的调用量足够大。

在阿里巴巴，单机压测有一个专门的压测平台。压测平台在前面介绍的 4 种压测方式基础上，构件了一套自动化的压测系统。在这个系统上，可以配置定时任务定期对系统进行压测，也可以在任意想压测的时间点手动触发一次压测。在进行压测的同时，实时探测压测机器的系统负载，一旦系统负载达到预设的阈值即立刻停止压测，同时输出一份压测报告。

因为是在生产环境进行压测，我们必须非常小心，保障压测过程不影响到正常的业务。在单机压测平台上，每个月将进行 5000 次以上的压测，系统发布或者大的变更都将通过单机压测来验证性能是否有变化，通过单机压测获取的单机服务能力值也是容量规划一个非常重要的参考依据。

有了预估的业务访问量，也知道了系统单台机器的服务能力，粗略的要计算需要多少台机器就非常简单了。

最小机器数＝预估的业务访问量／单机能力。

通常情况下，我们会预留少量的 buffer 来防止评估的误差和意外情况。

参考链接：http://jm.taobao.org/2017/03/30/20170330/

参考链接：https://my.oschina.net/cctester/blog/994727
查看全文

相关阅读:
mysql binlog参数设置
 poj 2774 最长公共子--弦hash或后缀数组或后缀自己主动机
 Base64编码和解码算法
 怎样给你的Android 安装文件（APK）减肥
 JAXB 注解
 编程获取linux的CPU使用的内存使用情况
 那么温暖http合约，入门。
什么是关账？
经营活动现金净流量与总股本之比和经营活动现金净流量与净资产之比
 P2P风险淮安样本：5000万连锁漩涡牵出银行内案

原文地址：https://www.cnblogs.com/zhangwangvip/p/13554803.html

一、背景

二、面临挑战

三、为什么需要容量规划

四、在双 11 等大促场景的准备过程当中，容量规划一般分为四个阶段

五、生产环境进行单台机器压力测试的方式主要分为 4 种