《OD学Sqoop》数据转换工具Sqoop

zoukankan html css js c++ java

《OD学Sqoop》数据转换工具Sqoop

一、第二阶段课程回顾

hadoop 2.x

　　HDFS

　　YARN

　　MapReduce

　　Zookeeper

Hive

二、大数据协作框架

对日志类型的海量数据进行分析

hdfs

mapreduce/hive

1. 数据来源

（1）RDBMS（Oracle、MySQL、DB2...） -> sqoop（SQL to Hadoop）

（2）文件（apache，nginx日志数据） -> Flume（实时抽取数据）

2. 任务调度

对数据的分析任务Job，至少都是上千（互联网公司）

任务调度：什么时候执行，多长执行一次

某一些业务的分析，需要许多job任务共同完成，相互依赖关系，工作流。

Ooozie

宙斯

3. 监控

统一WEB UI界面管理 Hue

三、业务流程

对数据进行分析

结果集存储：hdfs文件/hive表中

Sqoop=>导出到RDBMS

四、Apache Sqoop

1. Sqoop: SQL-to-Hadoop

2. 连接传统关系型数据库和Hadoop的桥梁

（1）把关系型数据库的数据导入到Hadoop与其相关的系统（如HBase和Hive）中

（2）把数据从Hadoop系统里抽取并导出到关系型数据库里

3. 利用MapReduce加快数据传输速度

批处理方式进行数据传输

将常用的MapReduce（数据导入导出）进行封装，通过传递参数的形式，运行MapReduce任务。

MapReduce任务

Cli

bin/sqoop import ...

4. 以Hadoop为主体，RDBMS为客体

sqoop import

将RDBMS数据放入hadoop中，就是导入，import

sqoop export

将hadoop中的数据放入到RDBMS中，就是导出，export

5. sqoop依赖于hadoop

（1）数据的乙方，存储在hdfs

（2）底层的数据的传输实现MapReduce / YARN

五、环境搭建

查看全文

相关阅读:
TCP/IP的确认号,序列号和超时重传的学习笔记
 Linux进程的虚拟内存
 Linux内存：物理内存管理概述
 Linux进程: task_struct结构体成员
 Linux进程：管理和调度
 Golang基础(8)：go interface接口
 技术管理：团队建设
 从分布式一致性谈到CAP理论、BASE理论
 技术管理：项目管理概要
 [译]深入 NGINX: 为性能和扩展所做之设计

原文地址：https://www.cnblogs.com/yeahwell/p/5684443.html