zoukankan      html  css  js  c++  java
  • Hortonworks,快速上手 Hadoop 的套件

    最近我在思考的一件事情:如何帮助团队 SQL 开发快速掌握大数据相关技术呢?面对疯狂暴涨的数据,SQL Server 存储成本越来越高了,日志的增长量也极大超过预期,隔三差五总有空间不足导致的应用异常。而且各种多样化的查询需求,在海量数据环境中,响应也越发慢了。

    打开Google ,开始琢磨起来,找到两个工具: HDP, CDH.

    Hortonwork Hadoop 与 Cloudera Hadoop 是两大 Hadoop 实施商。

    Cloudera 是老牌的 Hadoop 供应商,除了定制化的 Hadoop 还提供培训以及支持。

    Hortonworks 是新兴的 Hadoop 供应商,与 Cloudear 最大的不同,他是免费的。但同样也提供培训与支持,培训与支持是收费的。

    https://www.springpeople.com/blog/hortonworks-or-cloudera-which-one-is-better

    文章针对 hortonworks hadoop(HDP) , Cloudera hadoop(CDH) 的优缺点做了详细的阐述,给我们选型 Hadoop 供应商提供了参考

    之所以对 Hortonworks 的 Hadoop 进行研究,纯碎是因为它开源。因为你研究透了它,你自己就可以定制 Hadoop 套件,成立自己的大数据咨询公司,这么想,是不是有些许动心了呢?

    Hortonworks 旨在用 Apache 开源组件搭建 Hadoop 平台,这些组件都是属于 Apache 旗下,全部开源。包括三大产品: Horton Data Platform, HDP;Apache Ambai ; SmartSense

    Hortonworks Hadoop 提供了VMWare, Virtual box 以及 Docker 容器等快速安装的镜像,这些镜像基于单个节点,用来快速体验 HDP 的使用,这是台一体机,下载的文件后缀名是.ova. 这才是本文的重点。完完全全从一个扣 SQL 的开发者,摇身一变,操盘 10 个亿的大数据工程师。这段时间不会超过 2 小时!

    就看你 In Or Not , 来不来?下载地址在这里,只帮你到这儿了:

    https://hortonworks.com/downloads/#data-platform

    这不是替他们打广告,我不持有他们公司的任何股票!

    介绍这款软件,来源于曾经的一个失败的想法:我想用 http://asp.net 搭建一个学习环境,让所有的使用者都可以在不用安装 SQL Server 环境下就可以学会 SQL。基于种种原因,这个项目破产了。而如今有这么好的资源,可以帮大家快速上手大数据的学习,我当然愿意推荐了!

    回到正题,我们来走一遍 Hortonworks Hadoop 的玩法。

    在整个不到 2 小时的使用中,我大概体验了这些操作:

    1 在 Hive 中创建表
    2 学会了 Hive 基本的 DML 语句,比如: SELECT, WHERE,GROUP BY, SORT,Join
    3 使用 Pig Latin1, 做了一次 ETL 的实现

    比起纯粹使用 Apache Hadoop, Hive 来构建分布式系统, 使用套件可以更形象的帮我们建立直观感受,加深对概念的理解。

    在 HDP 中,Ambari 是作为开发者与 Hadoop 底层交互的界面,非常友好,拿出一照片,领略下界面的风格(保证看了之后,想自己开公司做咨询的,至少在底层封装方向上,可以放弃了):

    这是 HDP 的 Dashboard, 通过它我们可以连接到其他组件的控制台,比如 HDFS, Hive, Pig, Spark 等

    Hive 作为分布式数据仓库,在支持 SQL 基本语法的同时,帮我们开发者封装了 MapReduce 底层编程实现,使得我们不需要重复开发 Java 程序来实现常见的数据库操作,亦可操作 T/P/E 级的数据量。

    1 我们只需要在 Ambari 中找到 Hive 2 View 就可以像 SQL Server Management Studio 管理SQL Server 一样来操作 Hive.

    如此清晰的编辑界面,简洁的 SQL 风格,SQL 开发者们可谓分分钟上手

    2 使用 Pig 实现 ETL: 我们平时用的最多的ETL 工具,有 SSIS, Informatic 等, 而在大数据环境下,使用 Pig Latin 一样可以实现 ETL 的功能。遇上特别复杂的计算,Pig 还可以扩展,调用 Java, Python 的方法。

    是不是够简单,想要跃跃欲试,超级方便,下载他的一体机打开运行即可!

    唯一的条件,内存要超级强悍,我的内存 8G, 大家看图感受下我当时的心情。

    本文转载自:https://blog.csdn.net/wujiandao/article/details/80558759

  • 相关阅读:
    在linux下搭建wiki环境【转】
    GitLab版本管理【转】
    linux设备驱动中的并发控制【转】
    分享三个USB抓包软件---Bus Hound,USBlyzer 和-USBTrace【转】
    Git常用命令总结【转】
    Linux中断(interrupt)子系统之一:中断系统基本原理【转】
    大话Linux内核中锁机制之原子操作、自旋锁【转】
    自旋锁spin_lock和raw_spin_lock【转】
    Linux内核同步机制之(四):spin lock【转】
    spin_lock浅析【转】
  • 原文地址:https://www.cnblogs.com/wpcnblog/p/10974409.html
Copyright © 2011-2022 走看看