zoukankan      html  css  js  c++  java
  • Atlas 2.1.0 实践(1)—— 编译Atlas

    为什么要做数据治理? 业务繁多,数据繁多,业务数据不断迭代。人员流动,文档不全,逻辑不清楚,对于数据很难直观理解,后期很难维护。

    在大数据研发中,原始数据就有着非常多的数据库,数据表。

    而经过数据的聚合以后,又会有很多的维度表。如果想要对这些数据做好管理,光用文字、文档等东西是不够的,必须用图。

    Atlas就是把元数据变成图的工具。

    http://atlas.apache.org/

    Atlas是一组可扩展和可扩展的核心基础治理服务,使企业能够有效地满足Hadoop中的合规性要求,并允许与整个企业数据生态系统集成。

    Apache Atlas为组织提供开放的元数据管理和治理功能,以建立其数据资产的目录,对这些资产进行分类和治理,并为数据科学家,分析师和数据治理团队提供围绕这些数据资产的协作功能。

    那么如何安装并使用Altas呢?

    Atlas的安装坑较多,本教程将详细介绍Atlas2.1.0整个安装过程,有任何问题欢迎关注 实时流式计算

    后台留言~

    下载

    请前往官网 https://atlas.apache.org/#/Downloads

    下载对应版本的源码包 本文使用最新的 2.1.0版本

    国内站点 速度要快一些

    https://mirrors.tuna.tsinghua.edu.cn/apache/atlas/2.1.0/apache-atlas-2.1.0-sources.tar.gz

    编译

    比较难受的是 Atlas不提供安装包 下载的是源码包 需要自行编译打包

    注意,需要先安装maven,因为这是使用maven开发的java web工程。maven3.6.3版本即可

    安装maven

    一些下载地址

    http://maven.apache.org/download.cgi

    https://mirrors.tuna.tsinghua.edu.cn/apache/maven/maven-3/3.6.3/binaries/apache-maven-3.6.3-bin.tar.gz

    上传到linux的/usr/local目录

    cd /usr/local
    

    解压文件

    tar -zxvf apache-maven-3.6.3-bin.tar.gz
    

    配置环境变量

    vi /etc/profile
    
    export MAVEN_HOME=/usr/local/apache-maven-3.6.3
    export PATH=MAVEN_HOME/bin:PATH 
    

    刷新环境变量

    source /etc/profile
    

    检查版本

    mvn -v 
    

    配置好maven的环境变量
    注意国内需要配置好maven的国内镜像,一般使用阿里,华为,清华等镜像
    vi /usr/local/apache-maven-3.6.3/conf/settings.xml

    <mirror>
        <id>alimaven</id>
        <name>aliyun maven</name>
        <url>http://maven.aliyun.com/nexus/content/groups/public/</url>
        <mirrorOf>central</mirrorOf>
    </mirror>
    

    把这个setting.xml 拷贝到 ~/.m2/

    cp settings.xml .m2/

    编译Atlas

    解压源码包

    tar -zxvf apache-atlas-2.1.0-sources.tar.gz 
    
    1.修改atlas源码工程的pom.xml

    将hbase zookeeper hive等依赖的版本修改成自己环境中一致的版本(或者兼容的版本)

    父工程pom文件
    <zookeeper.version>3.4.14</zookeeper.version>
    <hbase.version>2.2.3</hbase.version>
    <solr.version>7.7.2</solr.version>
    
    2.执行maven编译打包

    atlas可以使用内嵌的hbase-solr作为底层索引存储和搜索组件,也可以使用外置的hbase和solr
    如果要使用内嵌的hbase-solr,则使用如下命令进行编译打包
    cd apache-atlas-sources-2.1.0/
    export MAVEN_OPTS="-Xms2g -Xmx2g"
    mvn clean -DskipTests package -Pdist,embedded-hbase-solr

    不用内置就这样 mvn clean -DskipTests package -Pdist

    改完路径还会非常快的 耐心等待

    atlas的webui子模块中依赖了nodejs,会从nodejs的中央仓库去下载相关依赖库

    编译完成之后,会产生打包结果,所在位置是:源码目录中的新出现的distro/target目录

    • 注意,这里产出的有压缩包也有解压后的包。这里面的hook包,可以看到有各种平台的hook包。
    • 顾名思义,这就是钩子包,也就是各个大数据框架会提供各种生命周期回调函数,并且将相关信息以数据方式提供出来。这些钩子就可以去监听和接收数据

    如果没有错误 并看到一排success就是成功了

    踩坑大全:

    包下载失败

    在Atlas编译过程中,遇到最多的就是包下载失败的问题,这和当前网络有很大的关系。

    选择网速较好的网络。

    还有一种解决办法就是去官网上找一下,如果真没有就切换到争取的maven源

    了解大数据实时计算 感受数据流动之美 欢迎关注 实时流式计算

  • 相关阅读:
    图书管理系统---基于form组件和modelform改造添加和编辑
    Keepalived和Heartbeat
    SCAN IP 解释
    Configure Active DataGuard and DG BROKER
    Oracle 11gR2
    我在管理工作中積累的九種最重要的領導力 (李開復)
    公募基金公司超融合基础架构与同城灾备建设实践
    Oracle 11g RAC for LINUX rhel 6.X silent install(静默安装)
    11gR2 静默安装RAC 集群和数据库软件
    Setting Up Oracle GoldenGate 12
  • 原文地址:https://www.cnblogs.com/tree1123/p/14167687.html
Copyright © 2011-2022 走看看