zoukankan      html  css  js  c++  java
  • 分库分表

    • 优点
      • 提升数据的访问速度(分表)
        • 减小单个数据表的数据量(水平、垂直都减小了),也就提高了数据的访问检索速度
        • 其实是人为得定一个逻辑,决定怎么去拆分子表和在需要时寻找子表。比如最简单的把一个表根据id的结尾数字分为0到9的10张表(有可能需要更复杂的办法来尽量让各子表的数据均匀分布),然后从代码层级上根据id直接去相应的子表进行查询。
      • 缓解数据库的压力(分库)
        • 单一数据库实例可以支持的连接数是有限的
        • 分散到了多个节点,不再局限于一台服务器,可以利用更多的网络等资源。
      • 提升存储的容量(分库)
        • 分散到了多个节点,不再局限于一台服务器,可以利用更多的存储资源。
    • 缺点
      • 提高了代码、数据库设计的复杂度
    • 使用场景
      • 分库多结合子系统/服务的拆分,主要目的是业务隔离
      • 分表多用于单表数据量特别大的情况,有阿里的文档推荐500万行以上再分表,也有人说如果数据库字段不多表设计合理的话,5000万行也可以。这要结合实际场景和性能测试的结果来看。千万不要做过度过早设计,会提高系统、设计的复杂度。
    • 系统架构的演变
      • 应用系统单体架构 + 数据库单体架构:应用代码混杂,难以排查问题,个别模块的瓶颈会导致整个系统的扩容等。
      • 应用系统多系统架构(子系统、微服务等)+ 数据库单体架构:数据库中表太多,性能、存储都比较差,而且互相影响。
      • 应用系统多系统架构(子系统、微服务等)+ 数据库按应用分库架构:单张表仍可能数据量过大。
      • 应用系统多系统架构(子系统、微服务等)+ 数据库按应用分库再分表架构:比较合适。
    • 分表
      • 垂直切分
        • 按列切分
        • 分为单库切分(一张表切成一个库中的多张表)、多库垂直切分(一张表切成多个库中的多张表)。
        • 可能带来的问题
          • 联表查询
            • 字段冗余(把经常关联的字段也放到自己的表中)
            • 数据同步(通过ETL等把别的库的数据同步过来)
            • 广播表/同步表(所有的库中都放一份相同的重要数据,比如行名行号表)
            • 绑定表/ER表(对于有外键关系的父子表,将相关联的不同表的数据放到同一个库中)
            • 系统级组装(如果前面的办法都不行,那只能在代码中通过接口或者数据库连接分别读取数据再连接了)
          • 分布式事务
            • 不同的库中无法使用本地事务,那么只能使用一些现成开源你框架了,如Atomikos、LCN、阿里刚开源的Seata(GTS的社区版)
      • 水平切分
        • 按行切分,数据结构不变
        • 可能带来的问题
          • 联表查询
          • 分页查询
          • 全局ID(auto increment等自增字段会导致id重复)
          • 拆分规则的选择(难点)
            • 根据业务需求合理选择,比如按时间切分交易数据,就要考虑到热点数据的问题。
            • 目标
              • 均匀
              • 查询方便
              • 扩容
              • 迁移简单
            • 方案
              • 连续分片
              • 随机分片
              • 取模(绝对均匀,ID%3,根据余数即分到了三张表)
              • 基于范围(比如每500W条数据一张表)
              • 枚举(根据某个枚举字段来判断存到哪里,如性别、地域)
              • 哈希
              • 一致性哈希(基于哈希环,避免了数据增减时导致的重新分布问题?)
    • 分库分表后,程序如何访问数据库
      • 程序中如何动态选择、切换数据源
      • 编码层的方案
        • 代码中每个访问数据库的地方都要写if-else,比较臃肿,不太推荐
      • 框架层的方案
        • 可以考虑,之前titan项目好像就是用的这个。
        • ORM这一层,用拦截器拦截sql,然后动态选择数据源。
      • 驱动层的方案
        • 比较推荐。
        • 对代码来说,分库分表是透明的
        • 比如Sharding-JDBC,来自当当网,是一个增强的JDBC驱动,作为客户端直连数据库,以jar包形式提供服务。
          • 推测的实现/处理过程
            • SQL解析
            • 执行器优化
            • SQL路由
            • SQL改写
            • SQL执行
            • 结果归并
          • 动态表
          • 广播表
          • 绑定表
      • 代理层的方案
        • 把分库分表的功能剥离出来做成一个服务,实现数据库的协议来访问数据库,看起来就像一个数据库一样,比如实现mysql的协议
        • 如Mycat
      • 服务层的方案
        • 一些特殊的数据库DBMS本身就提供分库分表的访问功能
    • Spring Boot继承ShardingJDBC
      • 配置方式
        • 可以使用Java config来配置数据源、分片规则(不利于维护)
        • 可以使用yaml文件来定义分片规则
        • 可以使用application.properties文件配置数据源、分片规则
        • 可以使用传统的xml文件配置数据源、分片规则
      • 仍然像传统数据源那样使用Mybatis Generator来生成mapper、model、service等类
      • 数据源配置会有所不同,比如要配置分库策略、分表策略、绑定表(父子表)的相关配置、全局表的相关配置

    参考:
    数据库分库分表思路

    关系型数据库本身比较容易成为系统瓶颈,单机存储容量、连接数、处理能力都有限。当单表的数据量达到1000W或100G以后,由于查询维度较多,即使添加从库、优化索引,做很多操作时性能仍下降严重。此时就要考虑对其进行切分了,切分的目的就在于减少数据库的负担,缩短查询时间。

    数据库分布式核心内容无非就是数据切分(Sharding),以及切分后对数据的定位、整合。数据切分就是将数据分散存储到多个数据库中,使得单一数据库中的数据量变小,通过扩充主机的数量缓解单一数据库的性能问题,从而达到提升数据库操作性能的目的。

    分库分表会带来事务一致性、跨库跨表连接、跨库跨表分页排序、全局主键避重、数据迁移和扩容等问题。

    • 什么时候考虑分库分表
      • 能不切分尽量不要切分
      • 数据量过大致正常运维影响业务访问时
      • 数据量快速增长时
      • 先考虑单库拆分,再考虑多库拆分(分布式)
      • 字段垂直切分倒可以早点考虑
      • 单库的表拆分也可以早点考虑

    1. 性能优化首先考虑的是:

    1.1. 表结构

    1.2 .索引

    1.3. 从库(只读)

    2. 以上无法满足时,数据量过大,查询维度过多时再考虑数据切分:

    2.1. 垂直分库(根据业务拆库)

    根据业务耦合性,将关联度低的不同表存储在不同的数据库。
    垂直分库可以解决部分大哥数据库存储空间过大、业务混杂的问题。
    但总数据量还是那么大,行数还是那么大,只是单个库变小了。

    2.2. 垂直分表(根据业务字段拆表)

    基于数据库中的"列"进行,某个表字段较多,可以新建一张扩展表,将不经常用或字段长度较大的字段拆分出去到扩展表中。
    也没有减小单个库过大或行数过多的存储问题,但提高了性能,命中率更高。

    2.3. 水平分库、分表

    • 根据数值范围
    优点:
    单表大小可控
    天然便于水平扩展,后期如果想对整个分片集群扩容时,只需要添加节点即可,无需对其他分片的数据进行迁移
    使用分片字段进行范围查找时,连续分片可快速定位分片进行快速查询,有效避免跨分片查询的问题。
    缺点:
    热点数据成为性能瓶颈。连续分片可能存在数据热点,例如按时间字段分片,有些分片存储最近时间段内的数据,可能会被频繁的读写,而有些分片存储的历史数据,则很少被查询
    
    • 根据数值取模(即根据余数,一般采用hash取模mod的切分方式)
    优点:
    数据分片相对比较均匀,不容易出现热点和并发访问的瓶颈
    缺点:
    后期分片集群扩容时,需要迁移旧的数据(使用一致性hash算法能较好的避免这个问题)???
    容易面临跨分片查询的复杂问题。比如上例中,如果频繁用到的查询条件中不带cusno时,将会导致无法定位数据库,从而需要同时向4个库发起查询,再在内存中合并数据,取最小集返回给应用,分库反而成为拖累。
    

    垂直切分的优点:
    解决业务系统层面的耦合,业务清晰
    与微服务的治理类似,也能对不同业务的数据进行分级管理、维护、监控、扩展等
    高并发场景下,垂直切分一定程度的提升IO、数据库连接数、单机硬件资源的瓶颈
    缺点:
    部分表无法join,只能通过接口聚合方式解决,提升了开发的复杂度
    分布式事务处理复杂
    依然存在单表数据量过大的问题(需要水平切分)

    水平切分的优点:
    不存在单库数据量过大、高并发的性能瓶颈,提升系统稳定性和负载能力
    应用端改造较小,不需要拆分业务模块
    缺点:
    跨分片的事务一致性难以保证
    跨库的join关联查询性能较差
    数据多次扩展难度和维护量极大

  • 相关阅读:
    Go语言中的管道(Channel)总结
    Go语言的构建方法总结
    Java里的equals总结
    Cracking the coding interview 第二章问题及解答
    2014年度总结
    一种识别验证码方法的介绍
    由记忆的角度分析我们学习为什么要知其所以然
    pvlan 配置
    f5 数据转发分析
    elasticsearch logstash kibana 研究第一篇
  • 原文地址:https://www.cnblogs.com/wyp1988/p/10019289.html
Copyright © 2011-2022 走看看