大数据总结 - 走看看

zoukankan html css js c++ java

大数据总结
学习过得技术
- HDFS
- YARN
- MR
- HIVE
- HBASE
- SPARK
- SPARK(sparkCore、sparkSql、sparkStreaming)
HDFS
- 数据库管理、
- 存磁盘
- Ha模式(在zookeeper之上)
- 联邦机制(把大象装进冰箱)
- split切片
Hbase
- 列式数据库
- 半结构化
- 非结构化
- 读写缓存
- 布隆过滤器
- 有多节点：node01、node02、node03
- dataNode
yarn
- 资源管理框架，就是内存和CPU分配
- 主从架构
- ha模式
- 主是RM 从事NM
分布式任务MapReduce计算框架
- 任务多的时候，资源乱抢，会带来很多问题，多以需要资源框架管理，基于磁盘
- sparkCore、sparkSq、sparkStreaming: 计算框架、基于内存(性能高)
Hive:
- 计算默认依赖MR
- 存储默认依赖HDFS+mysql(存储元数据)
- hive原默认使用的是derby,因为derby只支持单链接，不支持多客户端连接，所以更换mysql
- hive基础元数据提供了meta服务，可以通过这个服务提供元数据，也就是spark可以通过访问meta服务，也就是可以访问hive上的数据表，也就能拿到hdfs上的数据
hive on spark
- sql在hive上运行，解析成spark，计算引擎是spark，基于内存 spark找yarn
spark on hive
- sql在spark上运行，解析成hive语句，计算引擎是MR，基于磁盘慢！ MR找yarn
flume
- 数据采集
sqoop
- 关系型数据和非关系型数据迁移
kafka
- mq
查看全文

相关阅读:
Java复制数组
 关于js正则表达式的理解
 js声明const, var, let的区别
 原生js删除多个相同类名的子元素
 python -反射hasattr、setattr、delattr
Python-反射getattr的应用
 Python-库安装
 python -函数
 Appium -作业5（2）
Appium appium1.6.5 使用 set_value () 输入中文，真机上无显示

原文地址：https://www.cnblogs.com/bigdata-familyMeals/p/14613795.html

Copyright © 2011-2022 走看看