spark学习笔记

zoukankan html css js c++ java

spark学习笔记

Spark通过减少磁盘IO来达到性能的提升

为了适应迭代计算，Spark将经常被重用的数据缓存到内存中以提升数据读取速度，当内存容量有限的时候则将数据存入磁盘中或根据最近最少使用页面置换算法（Least Recently Used，LRU）算法将内存中使用频率较低的文件空间收回，从而让新的数据进来

spark官网：http://spark.apache.org/docs/latest/rdd-programming-guide.html

参考资料：http://spark.apachecn.org/docs/cn/2.2.0/

1 Apache Spark 是一个快速的, 多用途的集群计算系统
2 Spark可以通过Hadoop client库使用HDFS和YARN.
3 它可以很容易的在一台本地机器上运行Spark，你只需要安装一个JAVA环境并配置PATH环境变量，或者让JAVA_HOME指向你的JAVA安装路径
4 在 Python interpreter（解释器）中运行交互式的 Spark, 请使用 bin/pyspark:
./bin/pyspark --master local[2]
Python 中也提供了应用示例。例如,
./bin/spark-submit examples/src/main/python/pi.py 10
5 Spark 既可以独立运行, 也可以在一些现有的 Cluster Manager（集群管理器）上运行
6

参考资料：http://www.ituring.com.cn/article/198895

spark-submit
这个就有点像hadoop了，一般用于写app，可以使用python，java，scala来写程序

cd 到WordCount项目根目录下运行： spark-submit --master local[4] script/WordCount.py input/TheMostDistantWayInTheWorld.txt output 然后就会多出一个output文件夹，里面存有结果

Streaming spark的流式计算系统

与 Hadoop 对比，如何看待 Spark 技术？

https://www.zhihu.com/question/26568496/answer/41608400

查看全文

相关阅读:
Hive性能分析和优化方法
 浅谈MySQL中优化sql语句查询常用的30种方法
 spark 源码阅读博客
 spark shell学习笔记
 用shell 实现对MySQL数据库分页
 hive 1.2 配置
 spark1.4配置安装
 HBase学习
 【转】解密饿了么大前端团队
 【转】我心目中的支付宝架构

原文地址：https://www.cnblogs.com/testzcy/p/9033785.html

Streaming spark的流式计算系统

与 Hadoop 对比，如何看待 Spark 技术？