解决的问题:
1. 磁盘读取速度慢:磁盘容量大了,将一个大的文件存在磁盘上,但读取速度慢。
解决方法:hdfs将文件拆开存在不同的节点(datanode)上,namenode记载文件存储的位置(管理datanode)。
一次写入,多次读取,hdfs同时读取多个datanode上数据,最后将datanode数据组合成该大文件。
只是增加了数据查找的时间(namenode找datanode数据时间)。
2. 数据分析速度和正确性:任务的平均分割,多个任务结果的合并和排序等处理。
map reduce