zoukankan      html  css  js  c++  java
  • 初识alluxio

    Alluxio
    Tachyon 前身的名字 超光速粒子
    以内存为中心的分布式文件系统
    HDFS、S3....
    介于计算层和存储层之间
    计算层:Spark、Flink、MapReduce
    存储层在内存中的一个Cache系统
    Spark/Alluxio:AMPLab
    2012/12 0.1.0
    将计算和存储分离 移动计算优于移动数据

    能够为我们带来什么???

    Flink能否替代Spark成为第三代/新一代执行引擎?
    Hadoop真的凉了吗?那我还有必须学习Hadoop吗?
    Flume吞吐量多少?Spark Application放多少资源?
    如何保证数据不丢失
    
    自动动手测试一下
    
    时效性的要求是越来越高的
    
    基于内存  Memory is King   Spark Flink
    
    两面性
    

    1) 2 Spark Application 需要共享数据,必须通过写XX操作
    2)基于JVM对数据进行缓存
    Spark Application = 1 Driver + N executor
    3)2 Spark Application操作相同的数据
    HDFS ==> WC ==> SINK
    HDFS ==> XXX ==> SINK

    Alluxio不是Apache的顶级项目
    https://www.alluxio.io/
    https://github.com/Alluxio/alluxio

    特点:
    1)原生的API和文件系统的非常类似
    2)兼容性 Hadoop Spark Flink
    3)列式
    4)底层文件系统是可插拔的
    5)Web UI
    6)Command line interaction
    hadoop/hdfs fs -ls ...
    alluxio fs ....

    Spark 两个不同角度的应用进行实战
    Spark 离线
    Spark 实时

    Alluxio部署
    1)下载
    2)解压到app
    3)配置到系统环境变量
    4)conf/
    alluxio-site.properties
    masters
    workers
    5)格式化
    6)启动
    7)hadoop000:19999 可以看到Alluxio的Web UI

    Alluxio常用的命令行参数
    alluxio fs
    ls lsr mkdir cat
    copyFromLocal copyToLocal mv
    pin
    count location

    Alluxio和HDFS整合

    Alluxio和MapReduce整合

    hadoop jar hadoop-mapreduce-examples-2.6.0-cdh5.15.1.jar wordcount -libjars /home/hadoop/app/alluxio-1.8.1/client/alluxio-1.8.1-client.jar alluxio://hadoop000:19998/alluxio/wc/input/hello.txt alluxio://hadoop000:19998/alluxio/wc/output

    Alluxio和Spark整合

    做了这几个与Alluxio的整合,业务逻辑根本没有发生变化,只是:

    1. 环境上变化
    2. hdfs ==> alluxio
  • 相关阅读:
    vb移动窗体的代码
    vb得到一个进程的启动参数?
    UTF8方式读写文件的模块
    JavaScript中Window.event详解
    vb设置窗体不可移动
    一拖二
    实习第一天
    사랑해
    决定考研
    Eclipse快捷键
  • 原文地址:https://www.cnblogs.com/lixiangbetter/p/12182815.html
Copyright © 2011-2022 走看看