zoukankan      html  css  js  c++  java
  • 大数据Hadoop第八周——Wordcount程序的运行+Spark下载解压+Scala语言环境和简介

    大数据第8周

    1.Wordcount程序的运行

    1.1准备数据

    上传到hdfs一个英文的文本文件,尽量不要在根目录下。文件内容也不要太多,可以自己数清楚有几个词,方便检查是否正确。

    1.2写入运行参数

    当前界面显示出要运行的程序,然后点击主菜单的“run”。

    并选择“Run Configurations”

    双击右侧“Java Appliction”,会自动显示“WordCount”,在“main”标签页,查看相关信息是否正确,

    然后选择“Arguments”标签页,写入参数,前面的是输入文件的路径,最后一个是输出文件路径。输出文件路径一定是新路径(就是当前hdfs文件系统中没有的路径)。写好后,点击“Close”,在提示时选择“Save”。

    可以选择在菜单中选择“Run As”,或者程序上点击鼠标右键,弹出的快捷菜单里选择“Run As”,“Run on Hadoop”。

    运行后的结果如下,“output1”里的文件将会显示程序的结果。

     

    2.Spark下载解压及相关信息

    下载解压spark2.4.5:tar -zxvf spark-2.4.5-bin-hadoop2.7.tgz。

    Spark的开发语言是scala。Scala是运行在jvm虚拟机上的。

    在路径/home/user1/spark-2.4.5/bin下运行./spark-shell。

     

    3.Scala语言环境

    下载解压scala2.11.12:tar -zxvf scala-2.11.12.tgz。

    在路径/home/user1/scala-2.11.12/bin下运行./scala。

    配置scala路径:vi .bash_profile,添加如下内容:

    export SCALA_HOME=/home/caiyishuai/scala-2.11.12

    export PATH=$SCALA_HOME/bin:$PATH

    然后执行:source .bash_profile。

    可以通过env | grep scala命令检查是否配置成功。

    再直接执行:scala看是否能运行。

    4.scala语言简介

    4.1值和变量

    值:val

    变量:var

    “值”类型声明后不可以更改数值,而“变量”类型可以。

    声明时可以指定数值类型,也可以不指定,不指定时系统会自动判定。

    指定类型方式:用冒号“:”:例如:val c:Float=5

    注意对大小写敏感。

  • 相关阅读:
    为什么你应该(从现在开始就)写博客
    ASP.net 中使用Flexigrid详细教程之二直接使用数据库数据(有图有真相)
    保护眼睛的方法 (眼睛累了吗 来看看吧)
    程序员不如快递员?
    项目管理界面
    地址栏射击游戏!对,你没看错,就是在地址栏上玩的游戏,有图有真相!
    书写是为了更好的思考
    IT人员如何找到自己的时间?
    std::mem_fun_ref,mem_fun1_ref分析
    __declspec(selectany) 的作用是什么
  • 原文地址:https://www.cnblogs.com/caiyishuai/p/12744114.html
Copyright © 2011-2022 走看看