zoukankan      html  css  js  c++  java
  • 大数据学习总结03

    二、可视化ETL平台——Kettle

    ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经(extrac过抽取t)、转换(transform)、加载(load)至目的端的过程。ETL是将业务系统的数据经过抽取、清洗、转换之后加载到数据仓库的过程,目的是将分散、零乱、标准不统一的数据整合到一起。

    1、入门案例

    摘要:跟随着视频教学,做了一些基于kettle的demo

    ①表的输入、输出组件

    案例01:使用kettle将txt文件抽取,然后装载到Excel

    案例02:使用kettle将Excel文件抽取,然后导入到MySQL

    案例03:使用kettle将MySQL数据库表中的数据抽取,然后装载到另一张表

    ②插入、更新组件

    插入/更新组件能够将Kettle抽取的数据,与某个表的数据进行对比,如果数据存在就更新,不存在就插入。

    案例04:修改 t_user中的张三这一行数据,修改age为22,同时,使用Kettle将 t_user1 中的张三这一行数据的age也修改为22。

    ③删除组件

    删除组件能够按照指定条件,将表中的数据删除。

    案例05:文本文件包含了要删除的两个用户id,使用Kettle将文本文件中两个ID对应的t_user1表的数据删除。

    ④排序记录组件

    案例06:使用Kettlet_user表中的用户数据,按照年龄升序排序,并将排序后的数据装载到Excel

    ⑤switch/case组件

    案例07:t_user 表中读取所有用户数据,我们需要将性别为男的用户导出到一个Excel、性别为女的导出到另外一个Excel

    ⑥SQL脚本组件

    案例08:使用Kettle执行SQL脚本,将 t_user1 表中的数据清空。

    案例09:用户输入指定参数来删除t_user1表中对应数据

    ⑦JOB(作业)开发

    案例10:每5秒钟执行一次Kettle转换,也就是每5秒钟将Excel中的数据抽取并装载到MySQL

    ⑧基于Linux系统使用kettle

    案例11: /root/kettle/user.txt数据抽取到 /root/kettle/out_user.xls 表格中

    案例12:5秒钟执行一次Kettle转换,也就是每5秒钟将Excel中的数据抽取并装载到MySQL

    2、总结

    在学习大数据的过程中,我们可能经常会遇到各种数据的处理,转换,迁移,所以为了以后更好的学习大数据,掌握一种etl工具的使用,必不可少。 

  • 相关阅读:
    http 状态码及含义
    PHP CURL 调用API
    Bootstrap
    JavaScript和快速响应的用户界面
    GitHub配置步骤和简单的git关联
    Git的导入
    java 对象 类 知识点 概览
    java程序执行时,JVM内存
    java区分大小写,使用TAB进行缩进,public类名只能有一个,而且文件名与类名保持一致.
    第六章 进程总结
  • 原文地址:https://www.cnblogs.com/MoooJL/p/13509648.html
Copyright © 2011-2022 走看看