zoukankan      html  css  js  c++  java
  • Spark各个版本新特性

    后续会添加spark生态系统中各个组件的兼容支持情况。。。

    Spark2.0.0

    * 2016-07-27正式发布
    	* 它是2.x版本线的上的第一个版本。
    	* 300位contributors的超过2500个patches
    * Programming APIs
    	* DataFrame和Dataset统一(scala和Java中)
    	* SparkSession将要替换旧的SQLContext和HiveContext,保留后者
    * Spark SQL
    	* 支持SQL2003,Spark SQL现在可以运行所有的99 TPC-DS查询
    * Removals
    	* 支持Hadoop 2.1及其之前版本
    * Behavior Changes
    	* 编译时默认使用Scala 2.11而不是2.10
    

    Spark1.6新特性

    * 新增Dataset API
    

    Spark1.5新特性

    * 引入Project Tungsten(钨丝项目)
    	* 该项目通过对几个底层框架构建的优化进一步Spark性能
    * 可用性和互操作性
    	* 增加了在UI界面中查看SQL和DataFrame查询计划,能够根据不同的操作和运行时的内存使用显示不同的查询计划
    * Hive支持
    	* 支持可以连接Hive 0.13, 0.14, 1.0/0.14.1, 1.1, 1.2的metastore。
    

    Spark1.4新特性

    * 正式引入SparkR
    	它是一个R API, SparkR是基于Spark的DataFrame抽象。
    * Spark Core
    	Spark为应用提供了REST API来获取各种信息(jobs / stages / tasks / storage info)
    * Spark Streaming
    	Streaming在这个版本中增加了新的UI
    

    Spark1.3新特性

    * 新增DataFrame API
    * Spark SQL正式脱离alpha版本
    

    Spark1.0新特性

    * 引入Spark SQL组件(alpha项目)
    * 应用提交工具spark-submit
  • 相关阅读:
    Maven错误recv failed
    eclipse集成tomcat修改字符集参数
    eclipse luna 无法安装veloeclipse问题
    TortoiseSVN忽略文件夹
    类之特性
    __new()__与__init__()
    flask中models设计
    flask读书记录
    JS中的event 对象详解
    redis 持久化 RDB
  • 原文地址:https://www.cnblogs.com/fuyiming/p/6270406.html
Copyright © 2011-2022 走看看