【Spark学习】Apache Spark项目简介

zoukankan html css js c++ java

【Spark学习】Apache Spark项目简介
引言：本文直接翻译自Spark官方网站首页

Lightning-fast cluster computing

从Spark官方网站给出的标题可以看出：Spark——像闪电一样快的集群计算

Apache Spark™ 是一个应用于大规模数据处理的快速且通用的引擎。

速度

Spark在内存中运行程序的速度比Hadoop MapReduce要快100多倍，在磁盘上则要快10多倍。它使用先进的DAG执行引擎来支持循环数据流和内存计算。
Logistic regression in Hadoop and Spark

易用

用户可以使用Java、Scala或Python语言来快速编写应用程序。Spark提供了80多种高级运算符来帮助用户轻松创建并行应用。而且，用户还可以借助Spark-shell（Scala和Python语言有各自的Spark-shell）来交互地使用Spark。

# Word count in Spark's Python API file = spark.textFile("hdfs://...") file.flatMap(lambda line: line.split()) .map(lambda word: (word, 1)) .reduceByKey(lambda a, b: a+b)
通用性

Spark兼备SQL、流处理以及复杂分析等功能。它为多个高级工具提供驱动，包括数据库框架Spark SQL、机器学习框架MLlib、图运算框架GraphX，以及流处理框架Spark Streaming。用户可以在相同的应用程序中无缝兼备这几种框架。

兼容

Spark可以运行在Hadoop、Mesos、Standalone 或者 Cloud平台之上。它可以访问各种数据源，包括HDFS、HBase、S3，以及Cassandra。用户可以分别使用Standalone集群模式，EC2，Hadoop YARN或者Apache Mesos平台轻松运行Spark。Spark可以从HDFS、HBase、Cassandra，以及其他任何Hadoop数据源中读取数据。

【参考】

　　　　1）Spark官方网站 http://spark.apache.org/
查看全文

相关阅读:
对于Volatile的认识
 TextView图文混排
 android自定义控件
 我最喜欢的SQL分页查询方法
 nopCommerce开发者指南（十）：开发者怎样为nopCommerce 项目贡献代码？
nopCommerce开发者指南（九）：设置 API
nopCommerce开发者指南（八）：暴露和处理事件
 nopCommerce开发者指南（七）：计划任务
 nopCommerce开发者指南（六）：数据验证
 nopCommerce开发者指南（五）：怎样注册新路由？

原文地址：https://www.cnblogs.com/zhangningbo/p/4105053.html

【Spark学习】Apache Spark项目简介

速度

易用

通用性

兼容