zoukankan      html  css  js  c++  java
  • spark的若干问题

    问题1:SPARK与HADOOP之间的关系?

      spark是一种高效处理hadoop分布式数据的处理引擎。借助hadoop的yarn框架,spark就可以运行在hadoop集群中。同时spark也可以处理存储在hdfs、Hbase、Cassandra、hive和所有存储在hadoop中的数据。spark可以采取类似于hadoop的mapreduce的方式处理一般数据,也可以采取stream的方式处理流式数据。

    问题2:SPARK支持的开发语言?

      spark支持scala、java和python三种语言。

    问题3:SPARK目前可以支持多大的集群?

      目前已知的spark最大集群节点数已经超过1000台。

    问题4:SPARK中已经缓存的数据不适合存储在内存时,spark如何处理?

      spark将数据序列化到磁盘中或者spark重新计算内存中的数据。默认情况下,spark采取重新计算的方式,即每次请求内存中的数据时,spark都是重新从磁盘中读取数据到内存,然后重新计算。可以通过修改storage level级别来修改处理方式(默认为MEMORY_AND_DISK)

    问题5:spark如何在集群中执行?

      如果集群中每个节点中都存在JAVA执行环境,那么也可以执行纯spark程序。如果你需要在Amazon EC2环境中执行spark程序,那么就需要在每个节点执行EC2 脚本。如果目前没有集群环境,那么可以通过local参数执行单机模式。local[n]中的n代表的是CPU核数,这个n也可以理解成spark并行执行数。

    问题6:执行spark时一定需要存在hadoop环境么?

      如果你不需要在集群环境中执行,那么就不需要hadoop环境。如果你需要执行集群环境,那么你需要搭建一下共享文件系统(NFS文件系统也可以的)。

    问题7:学习spark有好资源么?

      可以访问http://www.artima.com/scalazine/articles/steps.html做个入门,同时在apache也有一个 Scala tutorial for Java programmers和 Programming in Scala.如果你有JAVA开发经验和其他脚本开发经验,那么将程序迁移到scala中就很容易了。spark目前提供JAVA、scala和python三种API。

    如果您认为此文章对您有所帮助,请您点击推荐。进步来源于思想的碰撞,所以欢迎大家踊跃留言评论。
  • 相关阅读:
    SQL Server 2008 R2下载地址
    [转]sqlserver2014两台不同服务器上数据库同步
    笔记本(ThinkPad)怎样关闭触摸板
    10 Free Image Hosting Sites for Your Photos
    Photobucket不能用了怎么办?推荐10个在线图片储存服务!
    证书错误 导航已阻止 无法跳转 最终解决
    用websploit获取管理员后台地址
    10 Free Image Hosting Sites for Your Photos
    Css3动画属性总汇
    23个适合logo设计的常用英文字体
  • 原文地址:https://www.cnblogs.com/vikings-blog/p/3849735.html
Copyright © 2011-2022 走看看