Hadoop虽然强大，但不是万能的(CSDN)

zoukankan html css js c++ java

Hadoop虽然强大，但不是万能的(CSDN)
Hadoop很强大，但企业在使用Hadoop或者大数据之前，首先要明确自己的目标，再确定是否选对了工具，毕竟Hadoop不是万能的！本文中列举了几种不适合使用Hadoop的场景。
随着 Hadoop 应用的不断拓展，使很多人陷入了对它的盲目崇拜中，认为它能解决一切问题。虽然Hadoop是一个伟大的分布式大型数据计算的框架，但Hadoop不是万能的。比如在下面这几种场景就不适合使用Hadoop：

1、低延迟的数据访问

Hadoop并不适用于需要实时查询和低延迟的数据访问。数据库通过索引记录可以降低延迟和快速响应，这一点单纯的用Hadoop是没有办法代替的。但是如果你真的想要取代一个实时数据库，可以尝试一下HBase来实现数据库实时读写。

2、结构化数据

Hadoop不适用于结构化数据，却非常适用于半结构化和非结构化数据。Hadoop和RDBMS不同，一般采用分布式存储，因此在查询处理的时候将会面临延迟问题。

3、数据量并不大的时候

Hadoop一般适用于多大的数据量呢？答案是：TB 或者PB。当你的数据只有几十GB时，使用Hadoop是没有任何好处的。按照企业的需求有选择性的的使用Hadoop，不要盲目追随潮流。Hadoop很强大。但企业在使用Hadoop或者大数据之前，首先要明确自己的目标，再确定是否选对了工具。

4、大量的小文件

小文件指的是那些size比HDFS的block size(默认64M)小得多的文件。如果在HDFS中存储大量的小文件，每一个个文件对应一个block，那么就将要消耗namenode大量的内存来保存这些block的信息。如果小文件规模再大一些，那么将会超出现阶段计算机硬件所能满足的极限。

5、太多的写入和文件更新

HDFS是采用的一些多读方式。当有太多文件更新需求，Hadoop没有办法支持。

6、MapReduce可能不是最好的选择

MapReduce是一个简单的并行编程模型。是大数据并行计算的利器，但很多的计算任务、工作及算法从本质上来说就是不适合使用MapReduce框架的。

如果你让数据共享在MapReduce，你可以这样做：

迭代：运行多个 MapReduce jobs ，前一个 MapReduce 的输出结果，作为下一个 MapReduce 的输入。

共享状态信息：但不要分享信息在内存中，由于每个MapReduce的工作是在单个JVM上运行。

原文链接：Hadoop isn’t Silver Bullet
查看全文

相关阅读:
DQL：data query language用来查询数据库表中的数据
 Mysql训练：两个表中使用 Select 语句会导致产生笛卡尔乘积，两个表的前后顺序决定查询之后的表顺序
 最常用SQL joins:内连接（交集）、左外连接、右外连接、左连接、右连接、全连接（并集），全外连接
 空间异常即刻诊断，华为云数据管理服务DAS又出新招~
【华为云技术分享】【论文阅读】增量式物体检测
 【华为云技术分享】如何让敏捷回顾会议更有效果，这样做就对了
 【华为云技术分享】如何处理暗数据？
【华为云技术分享】MongoDB经典故障系列五：sharding集群执行sh.stopBalancer()命令被卡住怎么办？
【华为云技术分享】云图说 | 初识云耀云服务器，打造“极优、极简”的云上体验
 【华为云技术分享】十分钟从入门到精通（上）—对象存储服务的OBS权限配置

原文地址：https://www.cnblogs.com/xymqx/p/4477214.html