zoukankan      html  css  js  c++  java
  • 云技术下的分布式数据库系统

    论文中的介绍:Using Object-Relational Mapping to Create the Distributed Databases in a Hybrid Cloud Infrastructure

    https://www.sciencedirect.com/science/article/pii/S0167739X18306514?via%3Dihub

    具有隐私保护的分布式云数据库中聚合查询的多阶段协议

    https://docs.ucloud.cn/database/uddb/concepts/method

    传统单机数据库面临的挑战

    以电商网站为例,在网站创建之初,日均访问量可能只有几百到几千人,这时整个业务后台可能就一个数据库,所有业务表都放在这个数据库中,一台普通的服务器就可以支撑,而且这种架构对业务开发人员也非常友好,因为所有的表都在一个库中,这样查询语句就可以灵活关联了,使用起来很便捷。如图1所示,所有业务表都在一个数据库中。

    但是随着业务的不断发展,每天访问网站的人越来越多,数据库的压力也越来越大。通过分析发现,所有的访问流量中,80%以上都是读流量,只有20%左右的写流量,这时可以通过读写分离来缓解数据库的访问压力。如图所示为读写分离,

    什么是UDDB?

    由于网站的访问量越来越大,尽管采取了读写分离的方式,但随着数据库的压力继续增加,数据库的瓶颈越来越突出。这时我们发现,我们的网站演进到现在,交易、商品、用户的数据都还在同一个数据库中。然而在这个巨大而且臃肿的数据库中,表和表之间的数据很多是没有关系的,也不需要JOIN操作,理论上就应该把它们分别放到不同的服务器,如图所示为垂直分库。

    随着业务的不断增长,我们发现交易、商品、用户这些库都变得巨大无比,单机数据库已经无法满足业务的继续增长,这时可以考虑对这些表进行水平拆分,即同一个表中的数据拆分到两个甚至多个数据库中。以用户表为例,数据可以根据userid的奇偶来确定数据的划分。把id为奇数的放到DB1,为偶数的放DB2。如下图为水平分表

    单机MySQL面临的挑战

    容量和性能问题

    业务存储的数据量增多和访问量增大,都构成对单机数据库的挑战;在大数据时代,传统的单机数据库在容量和性能上,都存在瓶颈,明显不能满足业务发展的要求;

    成本问题

    单机数据库通过Scale-up的方式,采用高端存储和小型机设备,能够一定程度解决容量和性能问题,但带来的问题是成本昂贵,业务成本曲线快速上升。

    运维风险问题

    数据量达到一定量级后,单机数据库的数据库备份、还原等运维操作需要长时间才能完成,失败概率增加,给日常运维工作带来风险。

    开源中间件解决方案及其存在的问题

    读写分离、垂直拆库、水平分表作为大型网站后台的刚需,市面上有很多中间件可以满足,比较有代表性的有:阿里巴巴的Cobar、MyCAT。然而这些开源中间件都存在以下缺点:

     中间件(英语:Middleware)顾名思义是系统软件和用户应用软件之间连接的软件,以便于软件各部件之间的沟通,特别是应用软件对于系统软件的集中的逻辑,是一种独立的系统软件或服务程序,分布式应用软件借助这种软件在不同的技术之间共享资源。

    配置复杂

    基于开源中间件对一张大表进行水平拆分需要以下六步操作:

    部署数据库节点

    安装和部署中间件软件(多个)

    登录到各数据库节点,创建子表

    把子表的信息,配置到每个中间件的配置文件,然后启动

    用HAProxy等负载均衡收敛中间件IP,对外提供一个IP

    业务正式访问

    运维极其不便

    基于开源中间件对系统进行扩容需要进行以下几步:

     开源中间件使用和运维的复杂性给业务发展造成了非常大的压力,无形中为企业发展带来了很大的负担。

    分布式云数据库UDDB

    UCloud 分布式数据库(UCloud Distributed Database,简称UDDB)是基于公有云构建的新一代分布式数据库,为用户提供稳定、可靠、容量和服务能力可弹性伸缩的关系型数据库服务。UDDB 高度兼容 MYSQL 协议和语法,支持自动化水平拆分,在线平滑扩缩容,服务能力线性扩展,透明读写分离,OLTP 和 OLAP 融合支持, 具备数据库全生命周期运维管控能力。

    OLTP和OLAP介绍

    数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(On-Line Analytical Processing)。OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。 

    OLTP 系统强调数据库内存效率,强调内存各种指标的命令率,强调绑定变量,强调并发操作;
    OLAP 系统则强调数据分析,强调SQL执行市场,强调磁盘I/O,强调分区等。 

    UDDB一开始针对OLTP场景推出, 首先解决用户的生产系统在单机数据库上遇到的容量和性能问题; 在解决容量和性能问题后, 用户又进一步有了数据分析的需求,希望能够利用同一套UDDB,就地实现对业务数据的实时分析。为此,UDDB推出了分析节点来满足用户的需求。UDDB的架构设计如下图所示:

     

    从右往左是通过UCloud官网控制台,创建和管理UDDB的流程; 从左往右,是客户业务程序访问UDDB的路径。

    分布式中间件,是我们团队集中力量打造的一块。一个UDDB实例,至少有两个中间件节点。每个中间件节点下面有两个模块,routerd和mgrd,都跑在一个docker里面。而不同租户之间的docker,都是网络严格隔离的,隔离性和UCloud的SDN来保证。

    routerd负责SQL的路由, 而mgrd负责一些管理工作,如添加节点,数据迁移,修改读策略等,一个UDDB实例下面可能有多个中间件节点,也就可能有多个mgrd,但是这些mgrd,会通过zookeeper集群的选举机制,推举出一个mgrd来进行工作,其他则处于slave模式,不工作,除非主mgrd挂掉。

    对DDL语句的处理,是由routerd和mgrd联合负责的。routerd先介绍DDL语句, 然后将DDL语句,经zookeeper集群转发到主mgrd, 由主mgrd负责提取DDL中的元数据信息, 并将DDL操作广播到多个存储节点(如果需要的话),DDL执行完成后,会通知各routerd刷新元数据缓存。元数据信息,会保存到专门部署的的高可用UDB实例里面。

    UDDB主要包括三大模块

    • 中间件

      用来做SQL路由和查询结果的聚合、读写分离、以及对存储节点的管理

    • 存储节点

      即高可用UDB实例,用来存储分表的数据

    • 只读实例

      存储节点的从库,普通的UDB实例,只能对其进行读操作

    UDDB的主要功能

    • 水平分表

      UDDB通过水平分表来解决容量瓶颈问题,根据一列数据的值把数据行拆分到多个独立的表里。对于开发人员来说,不再需要关心如何切分数据、如何路由请求等待,只需初始化分片字段(shardkey),直接面向逻辑库表进行编程、专注业务逻辑的实现即可,大大降低了程序的复杂度。

    • 读写分离

      UDDB的读写分离功能是一种对应用透明的读写分离实现,应用在不需要修改任何代码的情况下,只需要在UDDB控制台中调整读权重,即可将读流量按照需要的比例在存储节点与只读实例之间调整。写流量则统一走存储节点,不分流。

    • 垂直建表

      可以在创建水平分区表的同时创建普通表,普通表可以指定创建到某个存储节点。

    • 在线平滑扩容

      UDDB可以通过增加存储节点的方式线性增加系统的容量,系统扩容期间业务可以正常访问,读写请求均可以正常进行,仅在修改中间件路由信息的时候会有0.2秒左右的闪断。

    相对开源中间件,分布式云数据库的优势

    • 简单易用

      提供 Web 控制台,数据库操作简单,基于UDDB对一张大表进行水平拆分只需要以下几步:

    1. 在控制台上创建一个UDDB实例(一键创建)
    2. 通过MySQL客户端登录UDDB实例,执行一条create table语句
    3. 业务访问
    • 快速部署

      可在线快速部署实例,节省采购、部署、配置等自建数据库工作,缩短项目周期,帮助业务快速上线。

    • 弹性扩展

      多种规格实例配置;自主升降级,按需扩展;平滑扩展,业务不中断。

    • 低成本

      稳定的产品,完善的运维和技术支持,相比开源产品总体性价比更高;多种实例规格配置覆盖不同业务规模场景,按需购买;自主控制实例升降配,根据业务量调整资源使用。

    • 高可用

      UDDB底层数据存储复用了高可用UDB,可用性有保障。

    • 在线数据迁移

      用户可以通过几行命令将UDB中的数据热迁移到UDDB,业务不受影响。

    分布式云数据库的应用场景

    • 大型应用

      解决百万用户以上的大型应用,如电商、O2O、社交应用,产生海量的数据,普通MySQL架构无法支撑业务增长的问题。

    • 物联网数据

      在工业监控和远程控制、智慧城市的延展、智能家居、车联网等物联网场景下,传感监控设备多,采样率高,数据存储要求高,超大数据规模存储的问题。

    • 文件索引

      平台的图片、小文件、视频的数据极大,文件索引为亿级,该类数据通常只有新增、修改、读取、删除操作,分布式数据库可以有效提高提高索引检索的效率。

    • 大数据存储

      关系型数据是最有价值的数据之一,因大数据分析的需要,需要存储大量历史数据,并解决数据读、写、分析的需求。

  • 相关阅读:
    [LintCode] Single Number 单独的数字
    [LeetCode] 444. Sequence Reconstruction 序列重建
    [LeetCode] K-th Smallest in Lexicographical Order 字典顺序的第K小数字
    [LeetCode] Arranging Coins 排列硬币
    [LeetCode] Ternary Expression Parser 三元表达式解析器
    [LeetCode] 436. Find Right Interval 找右区间
    在Mac上配置全局的Git忽略文件
    Git『Everything up-to-date』问题解决
    Android组件化框架项目详解
    Android架构设计之插件化、组件化
  • 原文地址:https://www.cnblogs.com/qianwangxingfu/p/11729241.html
Copyright © 2011-2022 走看看