zoukankan      html  css  js  c++  java
  • 20210715 学习就是持续总结套路

    你自己不用总结概念性东西,尚硅谷都给你总结好了。

    看源码的套路,源码就是一个方法套一个方法,真正干事的就一两个屈指可数的方法,一直点就行了,只要了解大概是在干啥就行。

    比较容易混淆的几点:

    1.MapTask并行度:也就是启动了几个Map任务。

    数据块和切片的区别:真实存储的是数据块,切片只是逻辑上的概念,每一个切片对应一个MapTask,所以切片数量决定了启动几个MapTask。

    2.Job提交流程的源码:如何把一个任务提交给集群,这块很乱啊,有时间再重新看下源码,现在大概知道咋回事就行。

    (1)首先是创建和集群的连接,要判断下是跟远程yarn集群连接还是本地集群。

    (2)提交job,这里会先创建一个临时路径,把材料准备好才会提交任务给集群。先申请一个job的ID,然后把jar包(如果是提交给yarn集群)、切片信息、所有集群配置的文件都拷贝到临时路径,最后提交。

  • 相关阅读:
    shell eval命令
    嘟嘟嘟
    07 linkextractor的基本用法
    rabbitmq消息队列
    5. 哨兵集群
    4.主从同步
    3. redis持久化存储
    2. redis 安全
    1.redis基础
    06. scrapy的Request对象
  • 原文地址:https://www.cnblogs.com/gen2122/p/15016565.html
Copyright © 2011-2022 走看看