zoukankan      html  css  js  c++  java
  • 《OD学Sqoop》数据转换工具Sqoop

    一、 第二阶段课程回顾

    hadoop 2.x

      HDFS

      YARN

      MapReduce

      Zookeeper

    Hive

    二、大数据协作框架

    对日志类型的海量数据进行分析

    hdfs

    mapreduce/hive

    1. 数据来源

    (1)RDBMS(Oracle、MySQL、DB2...)  ->   sqoop(SQL to Hadoop)

    (2)文件(apache,nginx日志数据)  ->   Flume(实时抽取数据)

    2. 任务调度

    对数据的分析任务Job,至少都是上千(互联网公司)

    任务调度:什么时候执行,多长执行一次

    某一些业务的分析,需要许多job任务共同完成,相互依赖关系,工作流。

    Ooozie 

    宙斯

    3. 监控

    统一WEB UI界面管理 Hue

    三、业务流程

    对数据进行分析

    结果集存储:hdfs文件/hive表中

    Sqoop=>导出到RDBMS

    四、Apache Sqoop

    1. Sqoop: SQL-to-Hadoop

    2. 连接传统关系型数据库和Hadoop的桥梁

    (1)把关系型数据库的数据导入到Hadoop与其相关的系统(如HBase和Hive)中

    (2)把数据从Hadoop系统里抽取并导出到关系型数据库里

    3. 利用MapReduce加快数据传输速度

    批处理方式进行数据传输

     将常用的MapReduce(数据导入导出)进行封装,通过传递参数的形式,运行MapReduce任务。

    MapReduce任务

    Cli 

    bin/sqoop import ...

    4. 以Hadoop为主体,RDBMS为客体

    sqoop import 

    将RDBMS数据放入hadoop中,就是导入,import

    sqoop export

    将hadoop中的数据放入到RDBMS中,就是导出,export

    5. sqoop依赖于hadoop

    (1)数据的乙方,存储在hdfs

    (2)底层的数据的传输实现MapReduce / YARN

    五、环境搭建

  • 相关阅读:
    Codeforces Round #605 (Div. 3)E
    Codeforces Round #628 (Div. 2)
    Codeforces Round #627 (Div. 3)
    AC自动机,知识点+hdu模板题
    Tire树,hdu2846,hdu4825
    Educational Codeforces Round 83 (Rated for Div. 2)
    分层最短路
    初入mysql的学习
    赛后总结
    Codeforces Round #625 (Div. 2, based on Technocup 2020 Final Round) D
  • 原文地址:https://www.cnblogs.com/yeahwell/p/5684443.html
Copyright © 2011-2022 走看看