zoukankan      html  css  js  c++  java
  • 大数据总结

    学习过得技术

    • HDFS
    • YARN
    • MR
    • HIVE
    • HBASE
    • SPARK
    • SPARK(sparkCore、sparkSql、sparkStreaming)

    HDFS

    • 数据库管理、
    • 存磁盘
    • Ha模式(在zookeeper之上)
    • 联邦机制(把大象装进冰箱)
    • split切片

    Hbase

    • 列式数据库
    • 半结构化
    • 非结构化
    • 读写缓存
    • 布隆过滤器
    • 有多节点:node01、node02、node03
    • dataNode

    yarn

    • 资源管理框架,就是内存和CPU分配
    • 主从架构
    • ha模式
    • 主是RM 从事NM

    分布式任务MapReduce计算框架

    • 任务多的时候,资源乱抢,会带来很多问题,多以需要资源框架管理,基于磁盘
    • sparkCore、sparkSq、sparkStreaming: 计算框架、基于内存(性能高)

    Hive: 

    • 计算 默认依赖MR
    • 存储 默认依赖HDFS+mysql(存储元数据)
    • hive原默认使用的是derby,因为derby只支持单链接,不支持多客户端连接,所以更换mysql
    • hive基础元数据提供了meta服务,可以通过这个服务提供元数据,也就是spark可以通过访问meta服务,也就是可以访问hive上的数据表,也就能拿到hdfs上的数据

    hive on spark

    • sql在hive上运行,解析成spark, 计算引擎是spark, 基于内存  spark找yarn

    spark on hive

    • sql在spark上运行,解析成hive语句,计算引擎是MR,基于磁盘 慢! MR找yarn

    flume

    • 数据采集

    sqoop

    • 关系型数据和非关系型数据迁移

    kafka 

    • mq
  • 相关阅读:
    菜根谭#77
    菜根谭#76
    菜根谭#75
    菜根谭#74
    菜根谭#73
    python迭代器
    python爬取网页数据
    yii2验证规则
    python装饰器的理解
    php中多图上传采用数组差集处理(array_diff,array_map)
  • 原文地址:https://www.cnblogs.com/bigdata-familyMeals/p/14613795.html
Copyright © 2011-2022 走看看