zoukankan      html  css  js  c++  java
  • Spark API编程动手实战-07-join操作深入实战

    我们在hdfs的/data/join创建两个文件:


    上传第一个文件名称为1.txt

    内容第一列是日期,第二列uid(普通用户id)


    上传第二个文件名称为2.txt

    内容第一列是日期,第二列uid(普通用户id)


    执行上传到hdfs:


    hdfs命令行查询:


    web控制台管理查询:


    首先在命令行中设置日期格式:


    然后声明两个case class:Register、Login


    读取第一个文件(1.txt)并进行操作:



    take操作:



    该操作是首先读取文件的内容,然后以Tab键进行分词,然后以第二列为key,每一行的所有内容为Value构建起的Register作为Value的值;


    读取第二个文件(2.txt)并进行操作:


    take操作:



    下面对文件执行join操作:


    取出join操作的结果:


    take结果:



    或者把执行结果保存到HDFS:


    到Web控制台上查看执行结果:




    在hdfs查看一下其执行结果:



    版权声明:本文为博主原创文章,未经博主允许不得转载。

  • 相关阅读:
    系统综合实践第三次实践
    系统综合实践第二次实践作业
    第1次实践作业
    软工总结
    团队Beta演示
    团队Beta5
    软工实践个人总结
    第09组 Beta版本演示
    第09组 Beta冲刺(5/5)
    第09组 Beta冲刺(4/5)
  • 原文地址:https://www.cnblogs.com/stark-summer/p/4829797.html
Copyright © 2011-2022 走看看