大数据及Hadoop的概述

zoukankan html css js c++ java

大数据及Hadoop的概述

一、大数据存储和计算的各种框架即工具

　　1.存储：HDFS：分布式文件系统

　　　　　 Hbase：分布式数据库系统

　　　　　 Kafka：分布式消息缓存系统

　　2.计算：Mapreduce：离线计算框架

　　　　　 storm：实时流式计算

　　　　　 spark：离线批处理/实时流处理计算框架（MR的二次封装）

　　3.辅助类工具：hive：数据仓库工具

　　　　　　　　 flume：数据采集工具

　　　　　　　　 sqoop：数据迁移工具

二、大数据应用场景：

　　典型应用：公司运营情况 =>典型网站：CNZZ、数据专家、友盟

　　电商广告推荐系统：淘宝、京东、苏宁

　　　　大量基于算法模型的运算，得出各种推荐结论

　　天气预报等。。。

三、Hadoop的概述

　　Hadoop软件库是一个框架，允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个服务器扩展到数千台计算机，每台计算机都提供本地计算和存储。该库本身不是依靠硬件来提供高可用性，而是设计用于检测和处理应用层的故障，从而在计算机集群之上提供高可用性服务，每个计算机都可能容易出现故障。

　　Hadoop中单个核心组件：

　　　　分布式文件系统：HDFS =>实现存储在多台服务器之上

　　　　分布式运行编程框架：Mapreduce=>实现在很多太机器的分布式并行计算框架

　　　　分布式资源调度平台：Yarn=>帮助我们调度大量MR任务，并合理分配运算资源

查看全文

相关阅读:
Intellij IDEA 使用总结
 Apache Camel之FTP组件学习
 谈一谈EasyUI中TreeGrid的过滤功能
 JAVA实用案例之图片水印开发
 三、SolrCloud的搭建
 style里面设置变量
 for 循环中 break-continue 与label标签的使用
 vue ref的用法
 Vuex实践
 vue 数据动态响应(Vue.set方法)

原文地址：https://www.cnblogs.com/HelloBigTable/p/10578354.html