问题:集群内部通信压力较大。出现在某一个节点创建普通表并插入数据,在其他点读的问题。会造成每次读表都要进行一次完整的数据传输。
前提: Mongodb处于Sharding Cluster状态。
造成原因:系统架构和运维不能要求其他同事对Mongodb的底层设计深入理解,不能要求其他同事了解什么是普通collection什么是Sharding collection。更不能要求其他同事对集群网络使用进行优化。所以出现在某一个节点创建普通表并插入数据,在其他点读这种严重影响网络带宽的问题应当在系统设计之初(尤其是权限设计)时纳入考量。
心得:
1、实现通用的Spark工具类,这样可以解决使用Spark查询Sharding Collection的统一性问题。其他同事不必关心底层到底有多少个Mongos可以访问,是不是底层Mongodb架构进行了改变,可以通过工具类直接执行。
2、对每个用户组或者每个用户分配不同的Mongos访问节点,如果单机访问的话不论插入还是读都从此节点访问。
3、实现通用的创建表的脚本或者工具类,如果需要大表进行分布式处理话统一通过此方法创建Sharding Collection。使用时调用1中的spark工具类即可。