学习过得技术
- HDFS
- YARN
- MR
- HIVE
- HBASE
- SPARK
- SPARK(sparkCore、sparkSql、sparkStreaming)
HDFS
- 数据库管理、
- 存磁盘
- Ha模式(在zookeeper之上)
- 联邦机制(把大象装进冰箱)
- split切片
Hbase
- 列式数据库
- 半结构化
- 非结构化
- 读写缓存
- 布隆过滤器
- 有多节点:node01、node02、node03
- dataNode
yarn
- 资源管理框架,就是内存和CPU分配
- 主从架构
- ha模式
- 主是RM 从事NM
分布式任务MapReduce计算框架
- 任务多的时候,资源乱抢,会带来很多问题,多以需要资源框架管理,基于磁盘
- sparkCore、sparkSq、sparkStreaming: 计算框架、基于内存(性能高)
Hive:
- 计算 默认依赖MR
- 存储 默认依赖HDFS+mysql(存储元数据)
- hive原默认使用的是derby,因为derby只支持单链接,不支持多客户端连接,所以更换mysql
- hive基础元数据提供了meta服务,可以通过这个服务提供元数据,也就是spark可以通过访问meta服务,也就是可以访问hive上的数据表,也就能拿到hdfs上的数据
hive on spark
- sql在hive上运行,解析成spark, 计算引擎是spark, 基于内存 spark找yarn
spark on hive
- sql在spark上运行,解析成hive语句,计算引擎是MR,基于磁盘 慢! MR找yarn
flume
- 数据采集
sqoop
- 关系型数据和非关系型数据迁移
kafka
- mq