zoukankan      html  css  js  c++  java
  • Spark基础:(一)初识Spark

    1、Spark中的Python和Scala的Shell

    (1): Python的Spark Shell
    也就是我们常说的PySpark Shell进入我们的Spark目录中然后输入
    bin/pyspark

    (2): Scala中的Shell
    bin/spark-shell

    利用spark进行行数的统计
    例如:Scala版本的

       val lines=sc.textFile("/home/txp/test.txt")   #创建一个名为lines 的RDD
       lines.count()   #统计RDD中的元素个数
       lines.first()   #RDD中的第一个元素 也就是test.txt中的第一行

    如图
    这里写图片描述

    2、Spark的核心概念简介

    这里写图片描述

    从上层来看每一个Spark应用都有一个驱动器程序(driver)来发起集群上的各种并行的操作。驱动器程序通过一个SparkContext对象来访问Spark,shell 启动的时候已经自动创建了一个SparkContext对象,是一个叫sc的变量。一旦有了SparkContext对象,就可以用它来创建RDD(分布式弹性数据集)。驱动器程序一般要管理多个执行器节点

    3、独立应用

    一旦完成应用与Spark的连接,接下来就要在你的程序中导入Spark包并且创建SparkContext
    例如:在scala语言中初始化Spark 进行单词计数

    val conf=new SparkConf().setMaster("local").setAppName("My App")
    val sc=new SparkContext(conf)
    //读取我们的输入数据
    val input=sc.text(inputfile)
    //切分成一个个单词  俗称压扁
    val words=input.flatMap(line=>line.split(" "))
    //转换为键值对  并进行计数
    val counts=words.map(word=>(word,1)).reduceByKey(_+_))
    //将统计出来的单词总数存入到一个文本文件  引发求值
    counts.saveAsTextFile(outputfile)
    希望在知识中书写人生的代码
  • 相关阅读:
    Java虚拟机------JVM内存区域
    Java虚拟机------垃圾收集器
    Java虚拟机--------JVM常见参数
    Kafka和的安装与配置
    Kafka介绍与消息队列
    Kafka命令操作
    Kafka深度解析
    Flume架构
    四十三、NPM报错ERR! code UNABLE_TO_VERIFY_LEAF_SIGNATURE
    四十二、在线预览pdf文件
  • 原文地址:https://www.cnblogs.com/tongxupeng/p/10259551.html
Copyright © 2011-2022 走看看