zoukankan      html  css  js  c++  java
  • Python+Spark2.0+hadoop学习笔记——pyspark基础

    在历经千辛万苦后,终于把所有的东西都配置好了。

    下面开始介绍pyspark的一些基础内容,以字数统计为例。

    1)在本地运行pyspark程序

    读取本地文件

    textFile=sc.textFile("file:/usr/local/spark/README.md")

    textFile.count()

    读取HDFS文件

    textFile=sc.textFile('hdfs://master:9000/user/*********/wordcount/input/LICENSE.txt")

    textFile.count()

    2)在Hadoop YARN运行pyspark

    HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop pyspark --master yarn --deploy-more client

    textFile=sc.textFile('hdfs://master:9000/user/*********/wordcount/input/LICENSE.txt")

    textFile.count()

    3)构建Spark Standalone Cluster运行环境

    cp /usr/local/spark/conf/spark-env.sh.template /usr/local/spark/conf/spark-env.sh

    sudo gedit /usr/local/spark/conf/spark

    然后进行下面的设置

    export SPARK_MASTER_IP=master

    export SPARK_WORKER_CORES=1

    export SPARK_WORKER_MEMORY=512m

    export SPARK_WORKER_INSTANCES=4

    然后连接每个计算机,之后启动Spark Standalone Cluster

    /usr/local/spark/sbin/start-all.sh

    pyspark --master spark://master:7077 --num-executors 1 --total-executor-cores 3 --executor 512m

    读取本地文件

    textFile=sc.textFile("file:/usr/local/spark/README.md")

    textFile.count()

    读取HDFS文件

    textFile=sc.textFile('hdfs://master:9000/user/*********/wordcount/input/LICENSE.txt")

    textFile.count()

  • 相关阅读:
    解决PHP下打开phpMyAdmin出现403错误 Jimmy
    SQL Server连接中三个常见的错误分析
    CD唱片格式知识
    ehlib的DBGridEh控件中使用过滤功能的方法
    TransactSQL MSDN入口
    发烧音响网站大全
    Transact SQL 语 句 功 能
    wwFilterDialog 取得條件
    器材价格 参考用
    phpadmin.config设定
  • 原文地址:https://www.cnblogs.com/zhuozige/p/12603599.html
Copyright © 2011-2022 走看看