HDFS（笔记二） - 走看看

zoukankan html css js c++ java

HDFS（笔记二）
1. MapReduce：进行批处理（离线计算）基于磁盘。
2. Spark：基于内存（性能高一个层次）。
3. Hive：数据仓库，可以使用sql语句，Hive把sql语句转换成MapReduce作业，批量数据处理。
4. Pig：流数据处理，提供类似sql的查询语句PigLatin。
5. Oozie：作业流调度系统。
6. Zookeeper：分布式协调服务，分布式锁集群管理。
7. Hbase：分布式数据库。
8. Flume：日志收集。
9. Sqoop：数据导入导出，数据从关系型数据库中导入Hadoop。
10. Ambari：安装部署工具。
一、MapReduce两大核心组件
二、HDFS的局限性
1. 不适合低延迟数据访问。
2. 无法高效储存大量小文件。
3. 不支持多用户写入及任意修改文件。
三、HDFS两大组件
- 名称节点：负责提取索引，目录功能，保存元数据。
- 数据节点：负责存储实际数据。
四、HDFS读取数据

五、HDFS写数据
查看全文

相关阅读:
eclipse 注释模板
 解决win7访问不了局域网共享文件
 java 执行command
解决Unable to reach a settlement: [diffie-hellman-group1-sha1, diffie-hellman-group-exchange-sha1] and [curve25519-sha256@li
解决java.lang.UnsupportedClassVersionError
hadoop命令备忘
 intellij 提交代码到git
java用代理访问
 解决 jersey javax.ws.rs.core.UriBuilder.fromUri(UriBuilder.java:119)
解决Unable to locate Kerberos realm

原文地址：https://www.cnblogs.com/libinhyq/p/15247906.html

Copyright © 2011-2022 走看看