大数据网络设计要点
对大数据,Gartner的定义是:需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
维基百科的定义是:无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。
大数据的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。
大数据的研究非常热门,也产生了很多理论和实践,本章不是探索大数据实现的技术原理,而是从一个典型的大数据模型Hadoop为例,重点
放在其对网络的要求和深远影响。
图 map-shuffle-reduce工作原理
首先将任务进行分割
每份子任务复制三份传送到三个节点进行计算
将计算任务与计算结果映射的模块叫shuffle
最后由reduce输出结果(如果是Hadoop,则写入HDFS文件系统)