zoukankan      html  css  js  c++  java
  • Spark(4)

    Spark Core官网学习回顾

      Speed
            disk 10x
            memory 100x
        Easy
            code
            interactive shell
        Unified Stack
            Batch
            Streaming
            ML
            Graph
        Deployment
            Local
            Standalone
            YARN
            K8S
        Multi Language
            Scala
            Python
            R
            Java
    
        RDD: Resilient Distributed Dataset
            five <==> source code
    
    
    
        Create way:
            textFile: local HDFS s3
            parallelize: test
    
        Transformation
            lazy evaluated
            map filter flatMap 
    
        Action
            eager
            return a value to Driver
            collect reduce count take top
    
        Cache
    
    
    处理的日志: (有问题,就是有脏数据,(考虑代码的健壮性,所以要在代码中进行判断)) 
        别想当然是正确的
        虽然说日志中每个字段的含义以及分隔符是什么都是事先定义好的
    
    
    一行核心代码,需要N多行代码来保障
    
    
    LogApp: 目的性
        了解Spark如何进行大数据业务处理
        掌握生产上边界值 ==》 使的你的代码
    
        运行架构是什么样子的呢?   ********
    
    
    
    一个task就是一个分区
    
    一个core上有多个线程   看并行度
    
  • 相关阅读:
    【PAT】1001 害死人不偿命的(3n+1)猜想(动态更新)
    文件指令集
    近距离接触电脑
    文件管理
    文件写作方法
    文件读取方法
    打开文件的逻辑
    话术库
    max的逻辑
    抽象化指令
  • 原文地址:https://www.cnblogs.com/suixingc/p/spark-core-hui-gu.html
Copyright © 2011-2022 走看看