zoukankan      html  css  js  c++  java
  • 大数据需求衍生出的各种框架

    大数据需求衍生出的各种框架

    1.

    早期的MR 资源分配 计算 后来yarn 引入 作为资源分配

    hive 将mr包装成sql 减少代码量

    flume 端口 日志 mysql 音频 图片 数据
    来源-去向 单独写一段代码 有flume 一个配置文件

    kafka
    flume-kafka-spark(hdfs)
    峰值150 spark 100
    不稳定 波峰波谷 蓄水池 消息队列(kafka)

    zookeeper 为去中心的框架 作为协调中心 kafka HA

    HDFS 解决了存储的问题 思路:分布式存储(一台计算机存不下,多台存)namenode 存储元数据 block映射文件的位置 保存文件到块的映射 datanode 存储具体数据 分布式存储到block中

    分布式计算 分布式计算框架(mapreduce spark) 将一个计算任务 拆分成多个计算任务 分布式资源调度框架(yarn)

    nodemanage负责管理每个节点的资源 resorucemanage 负责汇总每个节点的资源情况

    hadoop 第三章 fileInputFormat切片机制
    maptask 如何拆分任务
    1GB 切片 分成多个计算任务
    reducetask如何拆分任务

    分区

  • 相关阅读:
    uva 10129
    年化利率
    house买房原理,2019,第一版
    car二手车购买原理
    car购车翻译篇
    car配置篇
    健身原理
    语法学习,从句
    语法学习,简单语句
    名词解释
  • 原文地址:https://www.cnblogs.com/xiao-bu/p/14414750.html
Copyright © 2011-2022 走看看