zoukankan      html  css  js  c++  java
  • Mongodb 分片操作 介绍

    为什么需要分片操作?由于数据量太大,使得CPU,内存,磁盘I/O等压力过大。当MongoDB存储海量的数据时,一台机器可能不足以存储数据,也可能不足以提供可接受的读写吞吐量。这时,我们就可以通过在多台机器上分割数据,使得数据库系统能存储和处理更多的数据。

    • 当单个MongoDB节点的数据量过大的时候,我们通常考虑将数据切分为多个shard,也就是切分为多片。
    • (一)数据分片之后,整个集群中的MongoDB节点就分为了三类,一类是Router节点,实现前端路由,客户端由此接入,且让整个集群看上去像单一数据库,前端应用可以透明使用。一类是Config节点,存储了整个 元数据ClusterMetadata,其中包括 chunk信息,明确知道客户端请求的数据在哪个shard节点上。第三类,shard节点,存储真实的数据,将原有的数据集分片之后平均存储在每一个shard节点之上。

    • (二)MongoDB的分片机制上建立在副本集概念之上的概念,因为这里每一个shard节点都将组成一个副本集,使每一个shard节点的数据具有高可用性。这里需要补充一个chunk的概念,大数据集首先是切分为多个chunk,之后再将chunk发布到各个shard节点中,就是每一个shard节点的数据都是一个一个的chunk组成的。那么chunk又是基于什么标准切分出来的呢?是这样的,一般在切分chunk的时候,会指定索引,比如age,如果在一个collection中给age这个字段创建了一个索引,那么切分chunk的时候,就以age这个索引来切分,使得1~60岁这个年龄阶段的数据能够根据不同的区间范围,切割为多个chunk,例如1~15岁为一个chunk,15~20岁一个chunk,21~30岁一个chunk,31~60岁一个chunk,每一个chunk的数量大小均等,因此整个collection就被切割成为了3个chunk,chunk信息将会保存至config节点中,而chunk数据将会保存在每一个shard节点中。

    • (三)shard分片的衡量的标准,也就是根据哪个索引(切片键)进行切片(让经常写的数据尽量离散分散到各个shard中,让经常读的数据尽量集中到一个shard中)
    1:基于范围range做分片
    例如:以年龄、时间等切片
     
    2:基于离散列表切片
    例如:以区域、地名等数据切片
     
    3:基于hash值进行随机切片
    例如:以热点人物(例如:aa和bb)做hash之后切片
  • 相关阅读:
    数学--数论---欧拉筛 模板
    数学--数论--HDU 5019 revenge of GCD
    数学--数论--HDU 2674 沙雕题
    数学--数论--HDU 2104 丢手绢(离散数学 mod N+ 剩余类 生成元)+(最大公约数)
    数学--数论-- HDU -- 2854 Central Meridian Number (暴力打表)
    数学--数论--HDU 2197 本原串 (推规律)
    数学--数论--HDU 2582 F(N) 暴力打表找规律
    C# 命名规范
    文本分类学习 (十)构造机器学习Libsvm 的C# wrapper(调用c/c++动态链接库)
    文本分类学习 (九)SVM入门之拉格朗日和KKT条件
  • 原文地址:https://www.cnblogs.com/liu1026/p/7787959.html
Copyright © 2011-2022 走看看