zoukankan      html  css  js  c++  java
  • Tajo--一个分布式数据仓库系统(分布式环境安装试用)

    前面两篇介绍了一下tajo,下面就说一下安装和使用吧。

    一、分布式安装

    前提:hadoop2中的hdfs和yarn已经安装并运行正常。

    1、下载source并build源码

    $git clone https://git-wip-us.apache.org/repos/asf/incubator-tajo.git tajo
    
    $ cd tajo
    
    $ mvn clean package -DskipTests -Pdist -Dtar
    
    $ ls tajo-dist/target/tajo-x.y.z-SNAPSHOT.tar.gz

    2、将tag.gz解压到需要安装的地方

    1 $ tar xzvf tajo-0.2.0-SNAPSHOT.tar.gz

    3、配置tajo-site.xml

     1 <property>
     2 
     3     <name>tajo.rootdir</name>
     4 
     5     <value>hdfs://hostname:9000/tajo</value>
     6 
     7   </property>
     8 
     9   <property>
    10 
    11     <name>tajo.worker.tmpdir.locations</name>
    12 
    13     <value>/home/ds/clouderaCDH/tajoTmp</value>
    14 
    15   </property>
    16 
    17 <property>
    18 
    19     <name>tajo.master.umbilical-rpc.address</name>
    20 
    21     <value>hostname:26001</value>
    22 
    23   </property>
    24 
    25  
    26 
    27   <property>
    28 
    29     <name>tajo.catalog.client-rpc.address</name>
    30 
    31     <value>hostname:26005</value>
    32 
    33   </property>
    34 
    35  <property>
    36 
    37     <name>tajo.master.client-rpc.address</name>
    38 
    39     <value>hostname:26002</value>
    40 
    41   </property>
    42 
    43 <property>
    44 
    45     <name>tajo.worker.parallel-execution.max-num</name>
    46 
    47     <value>12</value>
    48 
    49   </property>

    4、 配置tag-env.sh

    # Hadoop home. Required
    
    export HADOOP_HOME=/home/ds/clouderaCDH/hadoop-2.0.0-cdh4.2.1
    
     
    
    # The java implementation to use.  Required.
    
    export JAVA_HOME=/usr/lib/jvm/java-6-sun
    
    # The maximum amount of heap to use, in MB. Default is 1000.
    
    export TAJO_MASTER_HEAPSIZE=4000
    
    # The maximum amount of heap to use, in MB. Default is 1000.
    
    export TAJO_WORKER_HEAPSIZE=8000

    5、 配置workers文件

    worker01
    worker02

    6、 将配置好的tajo同步到其他节点并启动

    scp -r tajo02 worker01:/home/ds/clouderaCDH/
    
    bin/start-tajo.sh

    7、 查看进程是否启动

    jps
    24019 TajoMaster
    23451 TajoWorker

    二、SQL交互

    创建表

    1、 从hdfs上得csv文件创建外部表

    test文件夹下放一个data.csv文件,内容:

    1|abc|1.1|a
    2|def|2.3|b
    3|ghi|3.4|c
    4|jkl|4.5|d
    5|mno|5.6|e

    创建表并load数据

    create external table table1 (id int, name text, score float, type text) using csv with ('csvfile.delimiter'='|') location 'hdfs://hostname:9000/tajo/warehouse/test’

    查询交互

    支持绝大部分的SQL92。

    1、使用limit查询

    $ select * from table1 limit 2;
    
    id,  name,  score,  type
    -------------------------------
    1,  abc,  1.1,  a
    2,  def,  2.3,  b

    三、参考资料

    [1]     http://wiki.apache.org/tajo

    [2]     http://tajo.incubator.apache.org/

    [3]     https://issues.apache.org/jira/browse/TAJO

    [4]     http://www.slideshare.net/hyunsikchoi/tajo-intro

    [5]     http://vdisk.weibo.com/s/xpJ29

  • 相关阅读:
    New Skateboard
    1127
    一张图看懂开源许可协议,开源许可证GPL、BSD、MIT、Mozilla、Apache和LGPL的区别
    vim 快捷键绑定
    使用git 上传项目到gitee/github
    Linux进程/线程调度策略与 进程优先级
    【框架】共享内存组设计思路与实现(更新中)
    linux下六大IPC机制【转】
    详解Linux内核红黑树算法的实现
    Linux 内核里的数据结构:红黑树(rb-tree)
  • 原文地址:https://www.cnblogs.com/nexiyi/p/3452998.html
Copyright © 2011-2022 走看看