每年的“双11”是阿里技术的大阅兵和创新能力的集中检阅。2016年的“双11”背后,更是蕴藏了异常丰富的技术实践与突破。
历经1个月的编写,最终27篇精华技术文章入册《不一样的技术创新-阿里巴巴2016双11背后的技术》(以下简称《不一样的技术创新》)一书。这27篇“24K纯度”的技术干货,是阿里“双11”八年来技术演进结果的最新展示,凝聚了阿里工程师的智慧和创造力。
所有参与《不一样的技术创新》编写的小伙伴,均参与了2016及历年来“双11”的大促,经历过惊心动魄但酣畅淋漓的“双11”的“零点之战”。我们尽量保持了这些工程师小伙伴文章的原汁原味;我们知道,过多的雕琢和润色反而会破坏文章中知识传递的效果——工程师之间的沟通不需要华丽和精美的文字,只需要那灵犀的一点。
让我们为所有参与《不一样的技术创新》一书编写的小伙伴点赞!不为别的,只为他们这些代表全体阿里技术同学,以及所有中国当下IT工程师勇攀技术高峰的追求精神和其背后不懈的努力点赞!
《不一样的技术创新》内容涉及基础设施、存储、中间件、云计算、业务架构、大数据、认知计算与人工智能、交互技术等技术领域。
在这些领域中,包括:
(1)充分发挥云计算弹性能力,实现资源快速腾挪,支撑交易峰值每秒17.5万笔、支付峰值每秒12万笔的混合云弹性架构;
(2)在双11当天实现万亿级消息流转第三代分布式消息引擎。
(3)交易核心应用容器化,撑起双11交易下单峰值,充分解放资源的超大规模Docker化技术;
(4)支撑全球最大规模在线交易的数据实时和离线计算能力,包括承载阿里巴巴集团核心大数据的离线计算平台,以及双十一保证每秒处理亿条日志的计算能力、毫秒级的计算延迟的实时流计算平台;
(5)阿里人工智能在搜索、推荐以及客服场景下的创新应用,包括人工智能赋能的数千家品牌商家店铺的个性化运营和粉丝会员的精准营销,基于深度强化学习和在线自适应学习的推荐算法创新,以智能+人工模式提供智能导购、服务、助理拟人交互的阿里小蜜;
(6)全球第一个端对端的虚拟购物环境背后的VR技术,全面解读如何解决VR购物三大技术挑战,全面覆盖浏览、下单及支付环节;
(7)揭秘应对前端极限挑战的淘宝直播首屏秒开,以及应用世界级开源跨平台移动开发工具Weex实现双11会场几近全覆盖,实现全网首屏渲染完美践行“秒开”体验;,
(8)所有双11奇迹背后的、基于数据挖掘、机器学习等技术的智能化秒级监控。千万量级监控项,PB级监控数据,亿级报警通知背后的技术。
(9)菜鸟如何打通包裹预测、供应链入库、订单下沉、订单路由调度、电子面单及智能分单,以及末端小件员,捍卫这场十亿级包裹的双11之战。
第一章 基础设施
1.1 万亿交易量级下的秒级监控 (免登录阅读)
2016财年,阿里巴巴电商交易额(GMV)突破3万亿元人民币,成为全球最大网上经济体,这背后是基础架构事业群构筑的坚强基石。在2016年双11全球购物狂欢节中,天猫全天交易额1207亿元,前30分钟每秒交易峰值17.5万笔,每秒支付峰值12万笔。承载这些秒级数据背后的监控产品是如何实现的呢?接下来本文将从阿里监控体系、监控产品、监控技术架构及实现分别进行详细讲述。
在快速发展变化的技术领域,阿里巴巴不断变通调整策略适应新的挑战,制定相应的硬件发展策略,通过源源不断的技术驱动力确保为业务提供质量稳定、技术先进、高性价比的解决方案。本文将从x86核心部件、闪存部件、系统架构等方面的实践创新进行分享。
1.3 阿里视频云ApsaraVideo是怎样让4000万人同时狂欢的
在今年的双11中,双11天猫狂欢夜的直播成为一大亮点。
根据官方披露数据,直播总观看人数超4257万,同时观看人数峰值达529万,在云端实现了高计算复杂度的H.265实时转码和窄带高清技术。其实不光是双11,直播已经成为了2016年互联网最火爆的话题。除了内容的大规模涌现,背后其实是计算、存储、带宽的升级和成本的下降。ApsaraVideo的出现,让直播的技术门槛迅速下降,企业可以快速上线自己的视频业务。笔者作为参与双11视频云的工程师,希望通过本文和大家分享阿里云的ApsaraVideo业务,是如何为双11这个场景快速创建大规模直播场景的经验。
第二章 存储
2.1 永不停止的脚步——数据库优化之路 (免登录阅读)
在今年的双11中,双11天猫狂欢夜的直播成为一大亮点。
根据官方披露数据,直播总观看人数超4257万,同时观看人数峰值达529万,在云端实现了高计算复杂度的H.265实时转码和窄带高清技术。其实不光是双11,直播已经成为了2016年互联网最火爆的话题。除了内容的大规模涌现,背后其实是计算、存储、带宽的升级和成本的下降。ApsaraVideo的出现,让直播的技术门槛迅速下降,企业可以快速上线自己的视频业务。笔者作为参与双11视频云的工程师,希望通过本文和大家分享阿里云的ApsaraVideo业务,是如何为双11这个场景快速创建大规模直播场景的经验。
在今年的双11中,双11天猫狂欢夜的直播成为一大亮点。
根据官方披露数据,直播总观看人数超4257万,同时观看人数峰值达529万,在云端实现了高计算复杂度的H.265实时转码和窄带高清技术。其实不光是双11,直播已经成为了2016年互联网最火爆的话题。除了内容的大规模涌现,背后其实是计算、存储、带宽的升级和成本的下降。ApsaraVideo的出现,让直播的技术门槛迅速下降,企业可以快速上线自己的视频业务。笔者作为参与双11视频云的工程师,希望通过本文和大家分享阿里云的ApsaraVideo业务,是如何为双11这个场景快速创建大规模直播场景的经验。
第三章 中间件
3.1 万亿级数据洪峰下的分布式消息引擎 (免登录阅读)
通过简单回顾阿里中间件(Aliware)消息引擎的发展史,本文开篇于双11消息引擎面临的低延迟挑战,通过经典的应用场景阐述可能会面临的问题 - 响应慢,雪崩,用户体验差,继而交易下跌。为了应对这些不可控的洪峰数据,中间件团队通过大量研究和实践,推出了低延迟高可用解决方案,在分布式存储领域具有一定的普适性。在此基础上,通过对现有有限资源的规划,又推出了分级的容量保障策略,通过限流、降级,甚至熔断技术,能够有效保障重点业务的高吞吐,成功的支撑集团包括海外业务平缓舒畅地度过双11高峰。与此同时,在一些对高可靠、高可用要求极为苛刻的场景下,中间件团队又重点推出了基于多副本机制的高可用解决方案,能够动态识别机器宕机、机房断网等灾难场景,自动实现主备切换。整个切换过程对用户透明,运维开发人员无需干预,极大地提升消息存储的可靠性以及整个集群的高可用性。
第四章 电商云化
4.1 17.5W秒级交易峰值下的混合云弹性架构之路 (免登录阅读)
每年的双11都是一个全球狂欢的节日,随着每年交易逐年创造奇迹的背后,按照传统的方式,我们的成本也在逐年上升。双11当天的秒级交易峰值是平时的近10多倍,我们要用3-4倍的机器去支撑。但大促过后这批机器的资源利用率不高,到次年的双11会形成较长时间的低效运行。试想一下,电商交易有大促峰值,而阿里云有售卖Buffer,如果能充分发挥云计算的弹性能力,让资源可以两边快速腾挪,就可以解决资源浪费的问题。把我们的交易单元部署在云上面,大促的时候我们只需要按照压测模型去云上构建一个符合能力的新单元即可,用完马上释放掉,这样无疑是最优雅的。专有云+公共云的混合云弹性架构成为一种自然而然的选择,不但可以资源合理利用,降低成本,同时锻炼了阿里人的的技术能力,为用户提供更优质的服务。
有了架构思路,实现起来似乎也没那么容易。阿里的交易涉及几百个系统,他们之间的依赖错综复杂,如何能够把他们快速的搭建在云上?系统之间的依赖如何复杂,如果把他们的容量估算好,快速调整他们的容量水位?这就不得不提到下面的两个秘密武器:一键建站和弹性容量交付。
在基础设施方面,今年双11最大的变化是支撑双11的所有交易核心应用都跑在了Docker容器中。几十万Docker容器撑起了双11交易17.5万笔每秒的下单峰值。众所周知Docker技术这几年大热,但如果期望阿里这么大体量的应用全部使用Docker,这可不是一朝一夕就能完成的事情。阿里的应用数量庞大,种类众多,光兼容性的验证没个1、2年的时间没人敢把核心应用放上去。因此,从业界广泛情况来看,虽然Docker能给研发和运维带来好处,作为技术人员大家都心领神会,但是想直接去使用,那面对Docker浪潮只能是——坐观弄潮者,徒有羡鱼情。那么,阿里是怎么做的呢?
第五章 业务架构
5.1 内容+:打造不一样的双11 (免登录阅读)
内容永远是最优质的流量入口。如果不是,那说明你没做对。今年是淘宝全面内容化、社区化的元年;今年的双11,也是一场具有丰富内容、精彩互动的购物狂欢。从必买清单、大咖直播,到KOL草地、人群市场,双11零点时分经历的淘宝网红经济爆发,都是今年独特而又亮丽的风景线。本文将具体介绍这条内容链路,以及在双11大促期间的应用案例。先从位于这条内容链路核心的内容平台开始说起。
2016双11令人眼花缭乱的活动,背后是怎样的体系来支撑起这样多元化的玩法,本文一层层的来解构。在每秒17.5w笔的高峰下,每笔订单所经的链路众多,如何海量的订单有序、准确的运行,如丝般润滑,需要完整的业务、技术架构和对高峰时刻技术的攻坚。
淘宝开放平台(open.taobao.com)是阿里系统与外部系统通讯的最重要平台,每天承载百亿级的API调用,百亿级的消息推送,十亿级的数据同步,经历了8年双11成倍流量增长的洗礼。本文将为您揭开淘宝开放平台的高性能API网关、高可靠消息服务、零漏单数据同步的技术内幕。
在面对天猫双11当天1207亿商品交易额(GMV)和6.57亿物流订单时,供应链作为电子商务企业运作的支柱,是如何有效地组织、协调和优化这个复杂且动态变化的供需网络,从而可以高效地支持2016年猫全球购物狂欢节呢?
菜鸟这几年不断探索,在物流全链路上做了大量的尝试和突破,比如通过海量数据精准的预测大促包裹量及流向、通过供应链预测计划合理入库及分仓铺货、以及做到“单未下、货先行”的货品下沉提前打包等。
那么,菜鸟如何打通包裹预测、供应链入库、订单下沉、订单路由调度、电子面单及智能分单,以及末端小件员,捍卫这场十亿级包裹的双11之战。
第六章 大数据
6.1 双11数据大屏背后的实时计算处理 (免登录阅读)
2016年双11的实时数据直播大屏有三大战场,分别是面向媒体的数据大屏、面向商家端的数据大屏、面向阿里巴巴内部业务运营的数据大屏。每个直播功能需要实时处理的数据量都是非常庞大的,每秒的总数据量更是高达亿级别,这就对我们的实时计算架构提出了非常高的要求。在面对如此庞大数据的时候,我们的实时处理是如何做高精度、高吞吐、低延时、强保障的呢?
整体介绍作为前台在线业务和后端异步数据处理之间桥梁的实时数据总线服务TimeTunnel(TT),大规模数据流处理技术Galaxy,以及承载了阿里巴巴集团所有的离线计算任务MaxCompute。
能够在 4K 的页面上表演,对设计师和前端开发来说,既是机会也是挑战,我们可以有更大的空间设计宏观的场景,炫酷的转场,让观众感受影院式视觉体验;但是,又必须面对因为画布变大带来的性能问题,以及绞尽脑汁实现很多天马行空的的想法。本文介绍双11媒体大屏开发中我们的一些设计和思路。
第七章 人工智能
7.1 基于深度强化学习与自适应在线学习的搜索和推荐算法研究 (免登录阅读)
淘宝的搜索引擎涉及对上亿商品的毫秒级处理响应,而淘宝的用户不仅数量巨大,其行为特点以及对商品的偏好也具有丰富性和多样性。因此,要让淘宝的搜索引擎对不同特点的用户作出针对性的排序,并以此带动搜索引导的成交提升,是一个极具挑战性的问题。与此同时,双11主会场也是一个很复杂的推荐场景。从个性化推荐算法的角度来说,我们在2016年双11主会场尝试了多种新颖的排序模型,并做了严格的效果对比。本文详细阐述人工智能技术在双11搜索与推荐场景中的应用。
在全球人工智能领域不断发展的今天,包括Google、Facebook、Microsoft、Amazon、Apple等互联公司相继推出了自己的智能私人助理和机器人平台,智能人机交互成为各大公司在人工智能战场上激烈竞争的入口级领域。 智能人机交互通过拟人化的交互体验逐步在智能客服、任务助理、智能家居、智能硬件、互动聊天等领域发挥巨大的作用和价值。
阿里也推出了自己的智能私人助理-阿里小蜜,一个围绕着电子商务领域中的服务、导购以及任务助理为核心的智能人机交互产品。通过电子商务领域与智能人机交互领域的结合,提升传统电商领域的能效,带来传统服务行业模式的变化与体验的提升。本文详细阐述人工智能在智能客服中的应用。
95188电话的支付宝热线目前已经用纯语音交互流程全面代替了传统的按键流程,这个我们称之为“蚁人”的智能语音客服会根据用户的描述判断用户的意图,从而为不同需求的用户提供快速的直达服务,或者直接推送自助解决方案,或者发现是属于紧急问题而直接转给对应业务线的人工客服处理。本文详细阐述了人工智能技术在智能语音客服场景下的应用。
新商家事业部自去年12月成立以来,数据赋能商家就是重要的方向之一。我们将之前平台沉淀的数据和算法的能力转过来赋能我们为商家提供的工具和平台,这其中包括客户运营平台、千牛、服务市场等等。很多技术在今年的双11也起到了非常显著的作用,为商家带来实实在在的收益。本文从客户运营平台、千牛头条、服务市场三个产品给大家分享我们如何通过机器学习和人工智能技术重新定义产品。
随着千人千面个性化推荐技术在手机淘宝的全面应用,推荐场景日均引导成交在整个手淘平台占据着非常重要的比例。用户越来越习惯于逛淘宝来满足日常的休闲或者购物的需求。然而很多时候,用户购买的目的性并不是很明确。一个宝贝的成交,可能会跨越多天,经历较长的决策周期。与此同时,在整个用户的购买决策过程中,他们经常在多个异构的推荐场景间进行跳转,进而影响自身后续的行为序列。
因此,推荐的优化需要从单一场景的直接优化,逐步进阶到多场景的联动优化,这就需要我们将用户的长期行为序列纳入建模,从而实现整个手淘推荐链路的累积收益最大化。本文详细阐述基于强化学习算法的智能推荐,
搜索排序的特征分大量的使用了LR,GBDT,SVM等模型及其变种。我们主要在特征工程,建模的场景,目标采样等方面做了很细致的工作。但这些模型的瓶颈也非常的明显,尽管现在阿里集团内部的PS版本LR可以支持到50亿特征规模,400亿的样本,但这对于我们来说,看起来依然是不太够的,现在上亿的item数据,如果直接使用id特征的话,和任意特征进行组合后,都会超出LR模型的极限规模,对于GBDT,SVM等模型的能力则更弱,而我们一直在思考怎么可以突破这种模型的限制,找到更好的特征;另外,及时LR模型能支持到上亿规模的特征,在实时预测阶段也是有极大的工程挑战,性能与内存会有非常大的瓶颈。
本文详细阐述DNN的引入以及RNN模型的应用。
第八章 交互技术
8.1 VR电商购物 (免登录阅读)
GM LAB在2016年3月成立,是一个旨在探索最新电商购物体验的实验室。在探索VR购物的过程中,有两个需要核心解决的问题:一个是VR购物的产品形态是什么,另一个是VR环境下的店铺和商品怎么来。对于这两个问题,我们分别发起了BUY+和造物神计划去解决。一直到双11结束,基于BUY+探索VR购物体验,基于造物神去丰富VR素材,都取得了一定的结果。本文详细介绍Buy+和造物神。
移动直播作为一个连接用户的平台,实时性极强,借助移动设备随时接入的特性,可切入的场景也更多,双向的交互方式对于包括电商在内的其他业务模式来说也是值得探索的新玩法,所以随着这波浪潮的兴起,我们也快速启动淘宝直播来探索电商+直播的各种可能的方向,经过大半年的探索也得到很好的收获,同时也为今年双11直播会场的上线打下了基础。整个过程对产品和技术上均带来很大的挑战,本文将为大家解析整个过程中所遇到关键问题和解决方案。
2016年天猫前端相比去年有了非常多不同维度的突破,本文详细四个方面进行阐述:
1.稳定性、监控
2.极致的性能优化
3.业务创新 / 平台建设
4.技术创新 / 互动
8.4 Weex 双11会场大规模应用的秒开实战和稳定性保障
今天阿里诸多客户端已经面临包大小接近临界值,大促活动页面(H5)体验较差等一系列问题。结合 Native 和 Web 技术亮点,同时又能解决阿里遇到的业务问题,这就是 Weex 在阿里诞生的背景。本文详细阐述包括主会场、分会场、分分会场、人群会场等在内几乎所有的双11会场业务的Weex技术。
双11晚会,在观众看着电视明星流口水的同时,还能参与互动,给心仪的明星支持,然后拿到礼品。这需要有着如丝般柔顺的体验,用户才会愿意玩。这些特性,在晚会史上都是前无古人的。即便是双11天猫晚会本身,在2016年也是超越了2015年太多的。那么“双向互动”晚会背后都有哪些技术突破呢?