后续会添加spark生态系统中各个组件的兼容支持情况。。。
Spark2.0.0
* 2016-07-27正式发布
* 它是2.x版本线的上的第一个版本。
* 300位contributors的超过2500个patches
* Programming APIs
* DataFrame和Dataset统一(scala和Java中)
* SparkSession将要替换旧的SQLContext和HiveContext,保留后者
* Spark SQL
* 支持SQL2003,Spark SQL现在可以运行所有的99 TPC-DS查询
* Removals
* 支持Hadoop 2.1及其之前版本
* Behavior Changes
* 编译时默认使用Scala 2.11而不是2.10
Spark1.6新特性
* 新增Dataset API
Spark1.5新特性
* 引入Project Tungsten(钨丝项目)
* 该项目通过对几个底层框架构建的优化进一步Spark性能
* 可用性和互操作性
* 增加了在UI界面中查看SQL和DataFrame查询计划,能够根据不同的操作和运行时的内存使用显示不同的查询计划
* Hive支持
* 支持可以连接Hive 0.13, 0.14, 1.0/0.14.1, 1.1, 1.2的metastore。
Spark1.4新特性
* 正式引入SparkR
它是一个R API, SparkR是基于Spark的DataFrame抽象。
* Spark Core
Spark为应用提供了REST API来获取各种信息(jobs / stages / tasks / storage info)
* Spark Streaming
Streaming在这个版本中增加了新的UI
Spark1.3新特性
* 新增DataFrame API
* Spark SQL正式脱离alpha版本
Spark1.0新特性
* 引入Spark SQL组件(alpha项目)
* 应用提交工具spark-submit