zoukankan      html  css  js  c++  java
  • spark学习流程

    作者:匿名用户
    链接:https://www.zhihu.com/question/31427697/answer/75234187
    来源:知乎
    著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

    其实,我想说,起初学习Hadoop的一些经验对现在学习和理解spark有了很大的帮助,尤其反反复复几次Hadoop的配置,现在linux基础指令和spark安装,比较顺手了,出错了也知道哪里遗漏了。

    肯定第一步是配置spark环境:包括linux系统的安装,java,ssh,Hadoop,Scala,spark的安装与环境变量设置。虽说简单,但对于初学者说,尤其是没有使用过linux系统的,还是有些挑战。其中遗漏一些细节问题,都会出错。

    第二步:java学习。会java的可以忽略,不会的建议还是学习下java,虽说可以跳过java直接学习Scala,但是Scala毕竟和java联系密切,教材中也经常拿Scala和Java做比较。掌握Java基础就行,最差就是能看懂吧。。

    第三步:Hadoop学习。HDFS,MR计算框架,必须得知道吧。spark也是需要在HDFS上进行数据获取的,学习Hadoop才能知道其不足,明白spark的优势,为什么Hadoop必死。在hdfs的操作指令也必须掌握。能会写MapReduce程序就再好不过了。(我还不会。。。)

    第四步:Scala学习。函数式编程,重点明白这个吧。一些trait什么的使用,会java了这些都是小菜,本质一样,表达方式不同而已。所以。再次强调要学习JAVA。对我来说,不需要深入学习Scala编程,只需能看懂,而且会使用Scala操作RDD就行。后面的复杂高级编程我没学,以后用到再看。

    第五步:就是spark学习。当然,最好学习spark的方式就是看官方文档,读源码,看博客(博客写的都太简单,没有特别深入的),看RDD的论文,作业如何调度,什么什么的。对于英语水平不高,阅读官方文档略困难的童鞋,推荐某研究院的spark官方文档中文翻译,还是很全的。不推荐买国内的书看,想看度娘参考下就行了,所以。英语也得提升啊。

  • 相关阅读:
    OSPF如何生成默认路由(转)
    H3C MSR830 V5.01 PPPOE拨号配置
    H3C V5 Ipsec 野蛮模式
    OSPF NSSA区域内有多个ABR时,7类LSA转换5类LSA的站点选择(转)
    什么是MTU?为什么MTU值普遍都是1500?(转)
    OSPF链路状态数据的结构
    Cisco Cpos STM 配置示例(转)
    Juniper SRX Junos升级(自己做的升级)
    Juniper SRX Junos升级(转)
    接口自动化测试 python+request+excel(踩‘坑’)
  • 原文地址:https://www.cnblogs.com/txfsheng/p/8989694.html
Copyright © 2011-2022 走看看