zoukankan      html  css  js  c++  java
  • spark学习笔记

    Spark通过减少磁盘IO来达到性能的提升

    为了适应迭代计算,Spark将经常被重用的数据缓存到内存中以提升数据读取速度,当内存容量有限的时候则将数据存入磁盘中或根据最近最少使用页面置换算法(Least Recently Used,LRU)算法将内存中使用频率较低的文件空间收回,从而让新的数据进来

    spark官网:http://spark.apache.org/docs/latest/rdd-programming-guide.html

    参考资料:http://spark.apachecn.org/docs/cn/2.2.0/

    1 Apache Spark 是一个快速的, 多用途的集群计算系统
    2 Spark可以通过Hadoop client库使用HDFS和YARN.
    3 它可以很容易的在一台本地机器上运行Spark,你只需要安装一个JAVA环境并配置PATH环境变量,或者让JAVA_HOME指向你的JAVA安装路径
    4 在 Python interpreter(解释器)中运行交互式的 Spark, 请使用 bin/pyspark:
    ./bin/pyspark --master local[2]
    Python 中也提供了应用示例。例如,
    ./bin/spark-submit examples/src/main/python/pi.py 10
    5 Spark 既可以独立运行, 也可以在一些现有的 Cluster Manager(集群管理器)上运行
    6

     参考资料:http://www.ituring.com.cn/article/198895

    spark-submit
    这个就有点像hadoop了,一般用于写app,可以使用python,java,scala来写程序


    cd 到WordCount项目根目录下运行: spark-submit --master local[4] script/WordCount.py input/TheMostDistantWayInTheWorld.txt output 然后就会多出一个output文件夹,里面存有结果

    Streaming spark的流式计算系统

    与 Hadoop 对比,如何看待 Spark 技术?

    https://www.zhihu.com/question/26568496/answer/41608400

  • 相关阅读:
    linux下的crontab定时执行任务命令详解
    494. Target Sum
    347. Top K Frequent Elements
    5. Longest Palindromic Substring
    时间复杂度计算方法
    62. Unique Paths
    54. Spiral Matrix && 59. Spiral Matrix II
    57. Insert Interval
    53. Maximum Subarray
    42.Trapping rain water
  • 原文地址:https://www.cnblogs.com/testzcy/p/9033785.html
Copyright © 2011-2022 走看看