zoukankan      html  css  js  c++  java
  • 合并 hdfs 文件

    

    待研究,只做保存



    将HDFS中不同目录下面的数据合在一起,并存放在指定的目录中,示例如:

    sqoop merge –new-data /test/p1/person –onto /test/p2/person –target-dir /test/merged –jar-file /opt/data/sqoop/person/Person.jar –class-name Person –merge-key id


    其中,–class-name 所指定的 class 名是对应于 Person.jar 中的 Person 类,而 Person.jar 是通过 Codegen 生成的



    --new-data <path> Hdfs中存放数据的一个目录,该目录中的数据是希望在合并后能优先保留的,原则上一般是存放越新数据的目录就对应这个参数。
    --onto <path> Hdfs中存放数据的一个目录,该目录中的数据是希望在合并后能被更新数据替换掉的,原则上一般是存放越旧数据的目录就对应这个参数。
    --merge-key <col> 合并键,一般是主键ID
    --jar-file <file> 合并时引入的jar包,该jar包是通过Codegen工具生成的jar包
    --class-name <class> 对应的表名或对象名,该class类是包含在jar包中的。
    --target-dir <path> 合并后的数据在HDFS里的存放目录


  • 相关阅读:
    .gitignore语法
    每日阅读
    css摘要
    ubuntu安装qq、微信
    django中views中方法的request参数
    js html标签select 中option 删除除了第一行外的其他行
    js 新增标签、标签属性
    python中None与0、Null、false区别
    python class中__init__函数、self
    for foreach循环
  • 原文地址:https://www.cnblogs.com/ggzone/p/5170970.html
Copyright © 2011-2022 走看看