zoukankan      html  css  js  c++  java
  • spark学习笔记

    Spark通过减少磁盘IO来达到性能的提升

    为了适应迭代计算,Spark将经常被重用的数据缓存到内存中以提升数据读取速度,当内存容量有限的时候则将数据存入磁盘中或根据最近最少使用页面置换算法(Least Recently Used,LRU)算法将内存中使用频率较低的文件空间收回,从而让新的数据进来

    spark官网:http://spark.apache.org/docs/latest/rdd-programming-guide.html

    参考资料:http://spark.apachecn.org/docs/cn/2.2.0/

    1 Apache Spark 是一个快速的, 多用途的集群计算系统
    2 Spark可以通过Hadoop client库使用HDFS和YARN.
    3 它可以很容易的在一台本地机器上运行Spark,你只需要安装一个JAVA环境并配置PATH环境变量,或者让JAVA_HOME指向你的JAVA安装路径
    4 在 Python interpreter(解释器)中运行交互式的 Spark, 请使用 bin/pyspark:
    ./bin/pyspark --master local[2]
    Python 中也提供了应用示例。例如,
    ./bin/spark-submit examples/src/main/python/pi.py 10
    5 Spark 既可以独立运行, 也可以在一些现有的 Cluster Manager(集群管理器)上运行
    6

     参考资料:http://www.ituring.com.cn/article/198895

    spark-submit
    这个就有点像hadoop了,一般用于写app,可以使用python,java,scala来写程序


    cd 到WordCount项目根目录下运行: spark-submit --master local[4] script/WordCount.py input/TheMostDistantWayInTheWorld.txt output 然后就会多出一个output文件夹,里面存有结果

    Streaming spark的流式计算系统

    与 Hadoop 对比,如何看待 Spark 技术?

    https://www.zhihu.com/question/26568496/answer/41608400

  • 相关阅读:
    从体制内的国家干部转变为自由职业者-2017年总结
    为什么选择Django?
    Django contrib Comments 评论模块详解
    Django 2.0 新特性 抢先看!
    Python 为何能坐稳 AI 时代头牌语言
    为什么说Python 是大数据全栈式开发语言
    继承中的构造方法
    super关键字
    方法的重写
    类的继承与访问控制
  • 原文地址:https://www.cnblogs.com/testzcy/p/9033785.html
Copyright © 2011-2022 走看看