zoukankan      html  css  js  c++  java
  • 蚂蚁构建服务演进史

    简介: 自动化构建和CI/CD往往是相辅相成的,可以理解为,自动化构建是温饱问题,解决了温饱就会有更多的提高生产力的诉求,也就是对应的CI平台,CI/CD本篇文章不做扩展。

    image.png

    作者 | 琉克
    来源 | 阿里技术公众号

    一 构建平台的由来

    只要是软件开发就离不开构建,构建无处不在,构建是源代码和用户呈现之间的桥梁。

    这里要澄清一点,构建 != 编译,构建的本质是把源代码翻译成运行环境能识别的产物(源代码可能是Java代码,也可能是配置文件、资源文件等,运行环境可能是物理机,也可能是虚拟机,也可能是mobile phone)。

    所以工程师每天每时每刻都在构建,不构建就没法验证。随着规划的扩大,把构建自动化掉,提供一个“打包平台”也就是一个自然而然的事情,毕竟提高生产力是第一诉求吗,这也就是构建平台最开始的由来,把每天干的事情自动化掉,搬上平台。

    自动化构建和CI/CD往往是相辅相成的,可以理解为,自动化构建是温饱问题,解决了温饱就会有更多的提高生产力的诉求,也就是对应的CI平台,CI/CD本篇文章不做扩展。

    二 理解构建

    构建 != 编译,构建本身是一个很复杂的编排过程。举两个例子:

    1 Android APK的构建过程

    image.png

    上图中绿色部分为工具,浅蓝色部门为源代码+中间产物。可以看到是一系列的工具+输入的编排,最终生成运行环境可识别的产物。上诉构建过程生成的产物(APK)可被Android手机识别并运行。

    2 Java Jar包的构建过程

    image.png

    可以看到jar包的构建过程和上面APK的差异非常大,相对来说也是更简单。

    3 构建工具

    上面两个case可以看出来,构建本身很复杂,要最终构建出一个可以运行的产物需要做很多事情,我们完全可以手动javac copy jar等等一系列操作实现构建过程。但当工程越来越大,文件越来越多,这个事情就不是那么地令人开心了。这些命令往往都是很机械的操作。所以我们可以把这些机械的操作交给机器去做。对应的构建工具也应运而生,毕竟提高生产力是第一诉求。

    拿Java举例:

    Ant

    image.png

    上面的示例中,Ant定义了五个任务:init、compile、build、test和clean。

    每个任务做什么都定义清楚了。在打包之前要先编译,所以通过depends来指定依赖的路径。

    如果在命令行里执行ant build,那就会先执行compile,而compile又依赖于init,所以就会先执行init。

    执行命令:

    ant test

    通过命令就可以执行编程,打包,测试。为开发者带来了很大的便利,提供了工作效率。

    但是Ant有一个很致命的缺陷,那就是没办法管理依赖。

    我们一个工程,要使用很多第三方工具,不同的工具,不同的版本。

    每次打包都要自己手动去把正确的版本拷到lib下面去,不用说,这个工作既枯燥还特别容易出错。为了解决这个问题,Maven如约而至。

    Maven

    Ant仅是一个构建工具,它并未对项目的中的工程依赖以及项目本身进行管理,并且Ant作为构建工具未能消除软件构建的重复性,因为不同的项目需要编写对应的Ant任务。
    Maven作为后来者,继承了Ant的项目构建功能,并且提供了依赖关系,插件机制,项目管理的功能,因此它是一个项目管理和综合工具, 其核心的依赖管理, 项目信息管理, 中央仓库,Maven的核心理念是约定大于配置。每一种类型都有固定的构建生命周期。

    和ant的build.xml相对的,maven项目的核心是pom.xml,java开发同学肯定都很熟。

    Gradle

    Gradle已经抛弃了Ant、Maven中Xml配置的形式,取而代之的是Gradle采用了领域特定语言Groovy的配置。Gradle继承了Maven中仓库,坐标,依赖这些核心概念。文件的布局也和Maven相同。但同时,又继承了Ant中target的概念,我们又可以重新定义自己的任务(在Gradle中叫做task)。

    相比maven会更简洁,比如在maven中要引入依赖:

    image.png

    转换成gradle脚本:

    dependencies {
        compile('org.springframework:spring-core:2.5.6')
        compile('org.springframework:spring-beans:2.5.6')
        compile('org.springframework:spring-context:2.5.6')
        compile('com.google.code.kaptcha:kaptcha:2.3:jdk15')
        testCompile('junit:junit:4.7')
    }

    配置从原来的28行缩减至7行!效果惊人。

    同时gradle在构建性能上也碾压maven,gradle在maven的基础上额外增加了增量构建、build cache、daemon等特性,大大提升构建时间。

    类似的构建工具其实还有很多,基本属于百花齐放,比如facebook的BUCK,Google的bazel等,国内也有一些厂商自己的构建工具,比如腾讯的blade。不同的工具都会有自己的优势和劣势。

    三 构建平台的演进

    1 原始时代

    其实最开始的诉求非常简单,构建工具基本都是现成的,人少,功能简单。所有构建基本都是手动。

    • 移动端:支付宝一个应用,一个仓库,谁发版直接在个人电脑上拉取最新代码执行编译,发布app store。
    • 服务端:一台物理机,一套构建脚本,谁要发布,直接登录,输入仓库/分支信息,执行构建,然后发版。

    2 自动化

    显然,随着人员的增长,规模的扩大,原始时代根本无法支撑进一步发展,主要的矛盾:

    1. 多人协作困难。
    2. 多人抢占。
    3. 个人机器构建的不稳定性,成功率极低。

    这一阶段最大的诉求:项目管理/多人协作/自动化构建。应运而生两个平台:CP SCM。

    • CP主要负责项目管理,多人协作。
    • SCM主要负责代码管理,构建任务调度,构建机器管理运维(SCM慢慢演变成一个大杂烩,jar包上传管理,客户端签名,各种)。

    大概长下面这个样子:

    初级阶段

    image.png

    这里构建比较大的难点还是在机器的管理和调度,其实做了很多事情:

    • 机器管理,增删机器。
    • 机器保活,可用性监控。
    • 机器环境一致性的保障。
    • 机器构建负载均衡。
    • 构建脚本的统一升级维护。

    上面框架运行了一段时间后还是发生了很多问题,构建成功率越来越低,主要有几个问题:

    1. ssh通道是有连接数限制的,抽风性的ssh连接异常。
    2. 负载均衡控制困难,机器之间负载经常不一致,构建时快时慢。
    3. 机器配置管理难度大。

    进阶阶段

    其实这一块,开源有非常成熟的方案 -- jenkins。我们干的很多的事情jenkins都已经帮我们干了。也能很好的解决我们遇到的痛点:

    • C/S架构,无ssh通道限制。
    • 自动控制负载均衡,机器监控。
    • 灵活的构建和任务配置。
    • 强大的开放能力和丰富的API。

    改造完大概长这样:

    image.png

    黑科技(填坑)

    这里要抛出一个新的概念「制品库」。

    Java开发中,大家对maven、gradle这些工具肯定不能再熟悉了。前面讲构建工具的时候讲过,Java构建工具有几代演进:Ant,Maven,Gradle。Maven之前的上古工具,用的人应该非常少了。

    在Maven之前,是不存在版本管理,依赖管理这种概念的,所有的东西都在你的仓库。你的工程里面用到了gson,spring,log等开源框架和功能时,是需要去手动下载对应的jar包,然后放在代码库中。如果需要更新,需要不停去项目对应官网,下载最新发布的包。

    Maven之后的工具,提供了强大的依赖管理功能,只要在pom.xml写上你要使用的依赖,maven会自动下载依赖,修改和升级只需要修改GAV坐标(groupid,artifactid,version),依赖的所有jar包都存储在「制品库」中。

    此时的构建大概长这个样子:

    image.png

    1. 物理机缓存使用overlay文件系统,每次构建缓存独立,防止公共缓存被刷入。
    2. 监控制品库的覆盖记录,生产delete task,快速通知物理机删除公共缓存。
    3. 记录overlay文件系统upper层的增加记录,记录add task,定时刷入物理机公共缓存。

    存在的问题

    1. 环境一致性保证,环境升级。
    2. 复杂的脚本逻辑。

    理解下这两个问题,随着业务的迅速发展,接入的系统越来越多,APP越来越多,构建的环境越来越“胖”。

    比如:App除了支付宝,还有口碑,财富,香港钱包等,各个产品有自己的构建逻辑,也有自己的工具,比如支付宝用gradle4,口碑用gradle2。

    其它的技术栈也越来越多,Java,GO,C++等,需要不同的JDK版本,GO环境等。

    所有环境都塞进一台物理机,这里存在两个比较严重的问题:

    1. 频繁增加新的工具,如何确保不影响既有的环境和构建。
    2. 环境不可复制,新的构建机器,初始化困难,很难保证和旧有环境的一致性。

    历史发生过的问题

    1. 新加的物理机编码异常,导致构建产物异常,运行时出现乱码。
    2. 升级IOT的AndroidSDK,影响支付宝,部分手机计步功能失效。
    3. 环境升级操作不当导致的各种构建失败。

    3 容器化

    构建是一件非常值得敬畏的事情,需要保证构建的绝对正确,一旦构建异常了,后果不堪设想。

    最好的保证构建正确性的方式,就是什么都不要改,不要加机器,不要改环境,什么都不要动。

    但是现实是总是有越来越多新的场景冒出了,今天要支持这个,明天要支持那个,这里是一个比较矛盾的点。

    在容器技术出来之前,大家都是用的是虚拟机技术,我们可以模拟出来一台乃至多台电脑,但是太笨重了,也不好维护。2013年Docker开源,它轻量,高性能(秒级启动),隔离性,让他迅速成为焦点。

    构建也尝试探索,docker技术非常适合在构建时使用,可以很好的解决上面的问题。改造后长下面这样:

    image.png

    之后升级环境再也不是痛,各种场景容器隔离,升级互不影响,物理机秒级扩容。运维人员基本只要维护Dockerfile就行。

    当然也会带来新的问题:

    1. Mac构建没法虚拟化,仍然是传统物理机构建 + Ansible运维。
    2. 容器化之后缓存失效,构建时间暴增。
    3. 镜像本身的管理,物理机磁盘空间管理。

    4 镜像化

    前面讲的都是软件的构建过程和构建服务,这里其实还存在一个问题,除了构建的一致性,软件的运行环境一致性也至关重要。经常会发生,一个软件,在我的电脑可以,在别人的环境却跑不起来。

    随着容器技术越来越火,serverless技术和应用微服务架构的演进。容器正迅速成为企业应用打包和部署的基本单位,可以真正的实现build once & run everywhere。
    在蚂蚁的历史中也是如此,越来越多的场景开始镜像化部署,所以镜像构建本身也变得越来越重要,镜像构建的效率,稳定性,安全性等至关重要。

    镜像构建也经过两次演进:

    docker build

    docker build是比较简单的,我们在之前的架构之上新增了一种镜像构建类型,主要存在下面几个弊端。

    (1)对于multi-stage 的Dockerfile 构建 无法实现并行编译

    image.png

    (2)docker build 缓存利用效率低,改变Dockerfile 前面的一层,后面所有的层都需
    要重新构建而无法使用缓存,这要求用户不得不认真控制写好自己的Dockerfile以确保镜像缓存复用。

    buildkit + K8S

    buildkit是从docker build分离出来的单独项目,目前buildkit已经集成到Docker 18.06之后的版本之中,核心特性:

    • 可扩展的前端格式:buildkit使用前后端分离的架构设计,除了Dockerfile也支持其他类型的前端格式。
    • 并行构建执行:对于multistage类型Dockerfile, buildkit可以实现不同stage之间的并行执行。
    • 支持构建缓存的多种处理方式:buildkit处理本地缓存snapshot,同时还提供了将构建缓存导入/导出到本地或者远程registry。
    • 多种输出格式:buildkit支持导出成tar包或者oci格式的镜像格式。
    • 引入Dockerfile新语法RUN --mount支持构建时挂载。

    这里不进行扩展,有兴趣的同学可以查看buildkit的官方项目(蚂蚁目前每天运行着上万数量的高可用镜像构建服务)。

    5 拥抱云原生

    随着蚂蚁越来越多的业务serverless化,云原生慢慢成为了趋势。伴随着的是对K8s之上的构建和资源的使用诉求。

    而K8s本身使用门槛又极高,同时也缺乏灵活的任务编排能力。相应的构建团队也开始调研和投入云原生的构建和调度解决方案。

    背景

    2019年3月份持续交付基金会(CDF)正式成立,它致力于使企业在多个 CI / CD 平台上更轻松地构建和复用 DevOps 管道。

    第一批进入CDF项目的主要有四个:

    image.png

    Tekton 作为谷歌捐赠的 CDF 重要项目 ,是一组用于构建 CI/CD 系统的共享开源组件,与 Kubernetes 紧密相连,其重要性不言而喻。

    并且jenkinsX底层也选择了tekton作为执行引擎。

    Jenkins X is committing fully to Tekton as its pipeline execution engine. We are convinced that this is the right choice for Jenkins X, as a cloud-native CI/CD platform on Kubernetes, and for our users.

    内部落地

    综合权衡,采用tekton是一个比较合理的解决方案(站在巨人的肩膀,不重复造轮子)。

    经过一段时间的探索和演进,逐步落地了云原生的资源调度和构建解决方案——ironman。服务内部每天几万的构建、代码扫描、CI任务等场景。

    详细细节可以参考下面几篇文章:

    1. tektoncd github
    2. 持续交付基金会

    下一步计划

    tekton相比K8s,复杂度大大降低,并且提供了足够灵活的编排和调度能力,但是仍然有缺陷:

    1. 概念复杂,偏厚重,整体调度相比直接使用POD会更慢
    2. 使用上仍然有一些成本,对一线用户的接入使用不友好

    目前正在投入POD预热等极简模式,解决上诉痛点。当然还有很多未解的难题,就不一一赘述。

    6 构建中台

    经历了自动化,容器化,镜像化等场景,发现用户的需求实在是千奇百怪,越来越多(只能说蚂蚁的业务发展太快)。

    我们有越来越多的业务场景(IOT,小程序,大数据,...),构建的需求差异性也非常大。有Mac构建,Linux构建,Windows构建。应付还是有点吃力。尤其是在Mac和Windows两种无法虚拟化的场景,大量的机器分组,有点维护不动。现状大概长这样:

    image.png

    由于构建逻辑基本都是在构建团队维护,SCM和构建脚本中的代码逻辑也处于一个非常混乱的状态,基本就是大量的if else,伪代码大概长这样:

    if (framework == "sofa") {
        buildCmd = "mvn clean package"
            if (app == "special") {
                buildCmd = "mvn clean package -Ptest=true"
            }
    } else if (framework == "android") {
        buildCmd = "gradle clean assembleRelease"
    } else if (framework == "jar") {
        buildCmd = "mvn clean install && mvn deploy"
    } else if (xxx) {
        buildCmd = "xxx"
    }

    这个阶段在面对一些个性化的构建需求其实有点力不从心,需求千奇百怪:“我要加个额外的参数”,“我要更多的CPU”,“我需要用Mac来跑构建”,“我需要用某某软件的某某版本”。

    当前阶段是没法继续支撑蚂蚁未来的业务发展的,在加上当前底下已经有非常多的资源(linux,windows,Mac,K8S)管理困难。

    所以未来的构建平台,至少是可以做到下面两点:

    1. 构建可描述,逻辑回归业务方。
    2. 构建资源(机器)动态插拔,任意切换。

    构建可描述

    所有的构建逻辑是透明的,可配置化,可代码化,可描述内容包括:

    • 构建机器类型
    • 构建所需资源大小
    • 构建所需环境软件
    • 构建执行逻辑
    • 构建结果产物

    构建资源动态插拔,任意切换

    这里最关键的点是去掉大量分组维护带来的难点,让资源之间可以共用,互相流动。同时可以实现资源之间的任意切换,降级,保障构建服务的高可用(比如K8s资源降低到物理机构建)。

    新的框架大概长下面这样:

    image.png

    业务使用方只要定义好buildspec.yaml文件,就可以实现任何个性化的构建需求。
    底下执行构建的资源可以是K8S,可以是jenkins,可以是物理机,whatever,构建资源描述好自己支持的类型入场即可。

    buildspec.yaml大概长下面这样:

    name: android-aar-build
    params:
      - name: productLine
        default: alipay
      - name: sprintId
        default: ${SPRINT_ID}
    resources:
      - name: code-repo
        type: git
        url: https://code.alipay.com/xxxxx
        ref: master
    environment:
      type: LINUX_CONTAINER
      image: reg.docker.alibaba-inc.com/alipay/aarbuild:latest
    buildTasks:
      - name: Download config
        image: python:3
        commands:
          - python --version
      - name: Install Dependency
        image: ruby:2.6
        commands:
          - echo "-------2 in ruby:2.6"
          ruby -v
    artifacts:
      - name: pod-for-alipay
        type: iot-sign
        path: xxxx.zip

    四 构建的挑战

    1 统一构建中台

    目前还在持续的开发和演进中,作为服务蚂蚁全栈的构建服务,其稳定性,高可用,灵活性至关重要。尤其是极限生存能力。

    2 云原生调度基础设施

    面向K8s的CI/CD,让K8s的资源使用简单优雅。tekton的优雅升级,极简的调度方案,友好的接入成本。

    3 极致的构建效率和体验

    深度定制构建工具

    • Java研发:Maven,Gradle,并发构建,缓存构建,增量构建,甚至秒级构建。
    • 终端研发:秒级构建,快速本地部署验证。
    • 镜像构建:目前仍然需要30+s的构建时间,需要持续做下去,缓存的命中率,镜像加速,remote cache,除了构建提效,还可以帮助部署提效。

    制品库升级

    • 颠覆现有不合理模式,比如因为Jar release覆盖导致的“黑科技”,提升研发体验和研发效率。
    • 软件制品身份追踪,深入可信研发。

    原文链接

    本文为阿里云原创内容,未经允许不得转载。

  • 相关阅读:
    如何将jar包加入到Maven本地仓库
    dubbo 常见错误
    关于spring”通配符的匹配很全面, 但无法找到元素 'context:component-scan' 的声明“的错误
    Maven类包冲突终极三大解决技巧 mvn dependency:tree
    springMVC传对象参数
    scp 对拷文件夹 和 文件夹下的所有文件 对拷文件并重命名
    CATALINA_BASE与CATALINA_HOME的区别
    有return的情况下try catch finally的执行顺序(最有说服力的总结)
    Slf4j MDC 使用和 基于 Logback 的实现分析
    Docker 系列01: Centos7.3 上安装docker
  • 原文地址:https://www.cnblogs.com/yunqishequ/p/14744151.html
Copyright © 2011-2022 走看看