zoukankan      html  css  js  c++  java
  • GreenPlum 与hadoop什么关系?(转)

    没关系.

    gp 可以处理大量数据, hadoop 可以处理海量.
    gp 只能处理湖量,或者河量. 无法处理海量.

    作者:SallyLeo
    链接:https://www.zhihu.com/question/36935504/answer/109882162
    来源:知乎
    著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

    GreenPlum的组件分成三个部分MASTER/SEGMENT以及MASTER与SEGMENT之间的高效互联技术GNET。其中MASTER和SEGMENT本身就是独立的数据库SERVER。不同之处在于,MASTER只负责应用的连接,生成并拆分执行计划,把执行计划分配给SEGMENT节点,以及返回最终结果给应用,它只存储一些数据库的元数据,不负责运算,因此不会成为系统性能的瓶颈。这也是GREENPLUM与传统MPP架构数据库的一个重要区别。 SEGMENT节点存储用户的业务数据,并根据得到执行计划,负责处理业务数据。也就是用户关系表的数据会打散分布到每个SEGMENGT节点。当进行数据访问时,首先所有SEGMENT并行处理与自己有关的数据,如果需要segment可以通过进行innterconnect进行彼此的数据交互。 segment节点越多,数据就会打的越散,处理速度就越快。因此与SHARE ALL数据库集群不同,通过增加SEGMENT节点服务器的数量,GREENPLUM的性能会成线性增长。

    GREENPLUM是典型关系型数据库产品,是面向查询的关系型数据库,它的

    特点主要就是查询速度快,数据装载速度快,批量DML处理快。而且性能

    可以随着硬件的添加呈线性增加,拥有非常良好的可扩展性。因此,它主

    要适用于面向分析的应用。GreenPlum基于 Apache MADLib 的高级机器

    学习功能,支持快速复杂查询分析,满足各种BI用户需求。

    所以,greenplum是分布式数据库系统。


    apache hadoop是大规模分布式计算的框架,涉及分布式存储HDFS,分布式并行计算框架MapReduce,Hadoop Yarn 作业调度和集群资源管理框架,hadoop架构相关的框架HBase,Hive,Pig,ZooKeeper,还有火到爆的spark。
    可以看出hadoop更像是一种分布式计算的框架,会有越来越多的应用框架使用hadoop框架完成大数据分析,你甚至可以把Greenplum部署到hadoop上,完成大数据的分析处理。
  • 相关阅读:
    使用Stream流递归 组合树形结构
    MySQL 8 通用表表达式
    sa-token 权限认证
    先更新缓存还是先更新数据库?
    钉钉 回调事件 消息加解密
    commons-io
    stream和parallelstream的区别
    消除if...else
    springboot 扩展xml请求和响应
    springboot admin 邮箱
  • 原文地址:https://www.cnblogs.com/yaoyiyao/p/7073767.html
Copyright © 2011-2022 走看看