zoukankan      html  css  js  c++  java
  • Spark学习笔记1(初始spark

    Spark学习笔记一

    初步认识spark

    1.什么是spark?

    spark是一个基于内存的,分布式的,大数据的计算框架,可以解决各种大数据领域的计算问题,提供了一站式的服务

    Spark2009年诞生于伯克利大学的AMPLab实验室

    2010年正式开源了Spark项目

    2013年Spark成为Apache下的项目

    2014年飞速发展,成为Apache的顶级项目

    2015年在国内兴起,代替mr,hive,storm等

     

    2.SparkCore :spark是用来取代Hadoop的?

    这种说法是不对的,spark由于只能做计算,所以取代掉MapReduce是没有问题的,但是基于spark无法存储数据,所以其数据的存储还是要依赖于hdfs,资源调度可以依赖于yarn,亦可以依赖于其他。

    3.spark的功能?

    ①sparkCore 离线计算 

    ②sparkSQL 交互式查询

    ③sparkStreaming 实时的流式计算

    ④sparkGraphx 图形计算

    ⑤spark mllib 机器学习 人工智能 其核心是算法

    4.spark的特点及解释?

    spark的特点有:

    ①一站式:就是说spark可以用一个技术堆栈就可以解决大数据领域的所有的计算问题

    ②基于内存:这个特点也是spark的运行速度比Mr的速度快的原因,因为spark是基于内存的,内存的

    读写的速度要大大的超过磁盘,但是,有一些操作也是无法避免的,spark也有shuffle,所以说最后的

    结果也要落地,落地就i需要走磁盘。另一方面的原因就是spark是迭代式的计算框架,内部又有很多的

    优化手段,DAG,切分STAGE,这一套机制可以最大限度的优化计算的性能

    5.sparkSQL和hive的关系?

    hive 首先来说是一个数据仓库,里面放了很多的数据,其次hive还可以通过sql做一些数据的离线批处理,

    运行的是MapReduce。

    spark SQL 肯定不可以用来做数据仓库,但spark SQL也是通过写sql的方式,做数据的离线计算,底层用的

    是RDD。可以直接操作hive

    6.sparkStreaming和strom的关系?

    strom有很多的有点,比较老了,如果说是纯粹的实时(全部都是实时的业务),现在有一个更加优秀的解决方案

    :flink,在一些绝大部分的场景下,sparkStreaming是可以取代掉strom的

    实时性,容错都比sparkstreamming优秀

    和sparkstreaming相比之下不足的地方:

    吞吐量不如sparkstreaming,后者可以方便的和spark SQL ,sparkCore,sparkMLlib无缝的结合

    7.spark开发语言的选择?

    现如今关于spark的主流语言是scala,如果说是单纯的大数据项目,scala较其他语言相比更为合适一些,但是也有不足的地方:会scala 的人太少,第二点就是由于Scala和第三方的架构整合起来困难。

    Java:如今最最主流的编程语言,整合第三方架构的时候也比较简单,如果用java来写spark的话,更为适合写一些比较复杂的大数据项目。

    两者的相同之处在于:java可以把代码实现,scala也可以把代码实现

    现在比较火的编程语言python,也可以用来开发spark,不过略有不同于其他两种语言的是,python更倾向于机器学习,即(sparkMLlib),因为python的库特别多,而机器学习的算法库也有很多,所以python更多的时间用于机器学习。

    转载本文请和本文作者联系,本文来自博客园一袭白衣一

  • 相关阅读:
    arcgis对谷歌遥感影像拼接
    animation动画
    通过$ref设置样式
    Element drawer添加 滚动条 无法上下滚动
    ECharts 点击事件的 param参数
    解析后台参数
    .NET Core中具有多个实现的依赖注入实现
    玩转Firefox侧栏
    实用AutoHotkey功能展示
    利用7z实现一键解压
  • 原文地址:https://www.cnblogs.com/LangZiXiYan/p/8340174.html
Copyright © 2011-2022 走看看