zoukankan      html  css  js  c++  java
  • Atlas 2.1.0 实践(1)—— 编译Atlas

    为什么要做数据治理? 业务繁多,数据繁多,业务数据不断迭代。人员流动,文档不全,逻辑不清楚,对于数据很难直观理解,后期很难维护。

    在大数据研发中,原始数据就有着非常多的数据库,数据表。

    而经过数据的聚合以后,又会有很多的维度表。如果想要对这些数据做好管理,光用文字、文档等东西是不够的,必须用图。

    Atlas就是把元数据变成图的工具。

    http://atlas.apache.org/

    Atlas是一组可扩展和可扩展的核心基础治理服务,使企业能够有效地满足Hadoop中的合规性要求,并允许与整个企业数据生态系统集成。

    Apache Atlas为组织提供开放的元数据管理和治理功能,以建立其数据资产的目录,对这些资产进行分类和治理,并为数据科学家,分析师和数据治理团队提供围绕这些数据资产的协作功能。

    那么如何安装并使用Altas呢?

    Atlas的安装坑较多,本教程将详细介绍Atlas2.1.0整个安装过程,有任何问题欢迎关注 实时流式计算

    后台留言~

    下载

    请前往官网 https://atlas.apache.org/#/Downloads

    下载对应版本的源码包 本文使用最新的 2.1.0版本

    国内站点 速度要快一些

    https://mirrors.tuna.tsinghua.edu.cn/apache/atlas/2.1.0/apache-atlas-2.1.0-sources.tar.gz

    编译

    比较难受的是 Atlas不提供安装包 下载的是源码包 需要自行编译打包

    注意,需要先安装maven,因为这是使用maven开发的java web工程。maven3.6.3版本即可

    安装maven

    一些下载地址

    http://maven.apache.org/download.cgi

    https://mirrors.tuna.tsinghua.edu.cn/apache/maven/maven-3/3.6.3/binaries/apache-maven-3.6.3-bin.tar.gz

    上传到linux的/usr/local目录

    cd /usr/local
    

    解压文件

    tar -zxvf apache-maven-3.6.3-bin.tar.gz
    

    配置环境变量

    vi /etc/profile
    
    export MAVEN_HOME=/usr/local/apache-maven-3.6.3
    export PATH=MAVEN_HOME/bin:PATH 
    

    刷新环境变量

    source /etc/profile
    

    检查版本

    mvn -v 
    

    配置好maven的环境变量
    注意国内需要配置好maven的国内镜像,一般使用阿里,华为,清华等镜像
    vi /usr/local/apache-maven-3.6.3/conf/settings.xml

    <mirror>
        <id>alimaven</id>
        <name>aliyun maven</name>
        <url>http://maven.aliyun.com/nexus/content/groups/public/</url>
        <mirrorOf>central</mirrorOf>
    </mirror>
    

    把这个setting.xml 拷贝到 ~/.m2/

    cp settings.xml .m2/

    编译Atlas

    解压源码包

    tar -zxvf apache-atlas-2.1.0-sources.tar.gz 
    
    1.修改atlas源码工程的pom.xml

    将hbase zookeeper hive等依赖的版本修改成自己环境中一致的版本(或者兼容的版本)

    父工程pom文件
    <zookeeper.version>3.4.14</zookeeper.version>
    <hbase.version>2.2.3</hbase.version>
    <solr.version>7.7.2</solr.version>
    
    2.执行maven编译打包

    atlas可以使用内嵌的hbase-solr作为底层索引存储和搜索组件,也可以使用外置的hbase和solr
    如果要使用内嵌的hbase-solr,则使用如下命令进行编译打包
    cd apache-atlas-sources-2.1.0/
    export MAVEN_OPTS="-Xms2g -Xmx2g"
    mvn clean -DskipTests package -Pdist,embedded-hbase-solr

    不用内置就这样 mvn clean -DskipTests package -Pdist

    改完路径还会非常快的 耐心等待

    atlas的webui子模块中依赖了nodejs,会从nodejs的中央仓库去下载相关依赖库

    编译完成之后,会产生打包结果,所在位置是:源码目录中的新出现的distro/target目录

    • 注意,这里产出的有压缩包也有解压后的包。这里面的hook包,可以看到有各种平台的hook包。
    • 顾名思义,这就是钩子包,也就是各个大数据框架会提供各种生命周期回调函数,并且将相关信息以数据方式提供出来。这些钩子就可以去监听和接收数据

    如果没有错误 并看到一排success就是成功了

    踩坑大全:

    包下载失败

    在Atlas编译过程中,遇到最多的就是包下载失败的问题,这和当前网络有很大的关系。

    选择网速较好的网络。

    还有一种解决办法就是去官网上找一下,如果真没有就切换到争取的maven源

    了解大数据实时计算 感受数据流动之美 欢迎关注 实时流式计算

  • 相关阅读:
    tornado中form表单验证详解
    关于tornado中session的总结
    Linux常用命令
    css3动画属性详解 与超酷例子
    keepalive高可用的健康检查
    keepalive的nginx防火墙问题
    安装配置hadoop
    tmux的简单快捷键
    部署使用elk
    k8s搭建部署
  • 原文地址:https://www.cnblogs.com/tree1123/p/14167687.html
Copyright © 2011-2022 走看看