zoukankan      html  css  js  c++  java
  • 浅评数据仓库三大王者

    TeraData, 当仁不让的霸主
    TeraData已经在这个领域纵横好多年了, 你从Tera这个词就能看出这点. 如果是新兵的话, 名字肯定不会是Tera, 这年头还叫Tera, 那也太没有发展的眼光了. 在国内, 多为不差钱的公司采用, 比如银行什么的.
    数据仓库流图, OLTP-->ETL-->TeraData-->BI
    优点: (1)生态环境已经营造的很好了, 无论ETL工具还是BI工具都很好地支持. (2) 开箱即用, 甚至将硬件也打包在一起, 省事. (3)成功案例比较多
    缺点: (2)巨贵

    Greenplum, 新锐,
    2010年被EMC收购, 算是嫁入豪门了(据传Oracle近来有意收购要EMC了). 采用Share nothing的架构, 支持Map-reduce, 后台数据库基于开源的PostgreSQL数据库.
    数据仓库流图, OLTP-->ETL(或简单的EL)-->Greenplum-->BI
    优点:(1)因为采用RDBMS数据库, 容易集成现有的ETL和BI工具. (2) 能够运行在所有的X86/X64硬件上, 所以硬件的选择自由度比较大. (3)线性扩展.
    缺点:(1)案例还不算多. (2)具有丰富运维经验的工程师还不多

    Hadoop+Hive, 新兵蛋子, 极具王者风范
    互联网企业用的比较多, Yahoo/Facebook, 国内阿里系的公司也在用
    优点: (1)开源搭配, 免费. (2)互联网巨人不断贡献和完善代码, 发展前景不错. (3)和greenplum一样, 硬件的选择自由度大, (4)线性扩展
    缺点: (1)需要较高的技术储备, 学习曲线比较陡, 这也是为什么仅仅在互联网公司用的比较多. (2)仍在不断完善中, 换句话讲, 现在还不成熟.
    考虑到简化和BI等的集成, 我认为下面是1个比较靠谱的数据仓库流图:
    OLTP(或 结构化文档)-->定制hive的inputFormat/outputFormat适配器-->Hadoop+Hive-->编写 hive的自定义函数UDF (只将必需的数据传到数据库)-->RDBMS(比如Oracle等)-->BI

  • 相关阅读:
    python 对xls写入信息
    Python 字符串前面加u,r,b,f的含义
    inner join 与 left join 之间的区别
    时间戳转换成日期展示的方法 且 搜索范围
    Python与C/C++相互调用(python2 调c++那个试了ok)
    爆库记录(X-Forwarded-For注入漏洞实战 记录)
    笔记
    墨者学习安全测试的网站(看起来很不错的样子 有空看看)
    sqlmap开源 测试sql注入的工具 各种参考链接
    菜鸟浅谈——web安全测试(这篇不错有空看看)
  • 原文地址:https://www.cnblogs.com/harrychinese/p/brief_intro_huge_dwh_dominating_providers.html
Copyright © 2011-2022 走看看