zoukankan      html  css  js  c++  java
  • kettle菜鸟学习笔记1----相关准备知识

    最近导师让给师弟师妹做个关于kettle的培训,瞬间囧了,kettle我也只是简单学过,连皮毛都算不上,而且,上次使用kettle已然是去年的事了……

    没办法,只好重新学习下,好在之前写了几个文档,也留下了几行代码,想想还是放到博客上,以后自己查看也比较方便。

    数据清洗

    数据清洗是指发现并纠正数据文件中可识别的错误,包括检查数据一致性,处理无效值和缺失值等。

    从这个技术的名称简单理解,就是把脏的数据洗掉(丢弃),或者洗干净(修正)。

    如同大象放进冰箱,一般来说数据清洗也可以分为三步:

    ETL:Extract-Transform-Load这其实描述了构建数据仓库的三个环节:数据抽取、数据转换、数据装载。

    但是通常认为,数据清洗指的仅仅是数据转换这一环节。

    Kettle

    开源的ETL工具,纯java编写。

    Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。

    下载及相关使用帮助,可访问:http://community.pentaho.com/projects/data-integration/

    有兴趣研究kettle源码的,可以下载kettle源码:

    SVN地址:svn://source.pentaho.org/svnkettleroot

    注:SVN上只有5.0及之前的版本,之后迁移到github

    GIT地址:https://github.com/pentaho/pentaho-kettle/

    有兴趣进行kettle二次开发的,可能会用到

    在线帮助手册:http://javadoc.pentaho.com/kettle/

  • 相关阅读:
    SVN安装
    清楚OpenGL代码中的列主矩阵和行主矩阵
    UVA-122(Trees on the level)
    POJ
    POJ-1797(Heavy Transportation)
    POJ
    POJ
    最短路经---SPFA算法
    POJ
    HDU
  • 原文地址:https://www.cnblogs.com/dqrcsc/p/4627702.html
Copyright © 2011-2022 走看看