大数据技术名词

zoukankan html css js c++ java

大数据技术名词

大数据的知识结构：

一、大数据的相关名词：

Hadoop：是一个分布式的大数据框架，包含有三个核心组件：HDFS，YARN，MapReduce。

HBase：是一个NoSql数据库，列式存储。存储并处理大型数据，可以对大型数据提供随机、实时的读写访问。

Hive：

　　是一个数据仓库工具，运行在Hadoop的数据仓库环境之上，是一种HQL语言，支持标准SQL。

　　提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行，非常适合数据仓库的统计分析。

Spark：是一个基于内存的计算框架，性能比Hadoop强，支持Sql，对数据进行流式处理。

Kafka：提供了分布式消息队列，流式处理。

Storm：做流式处理

Zookeeper：是一个分布式应用程序协调服务；其特点是：分布式协调，集群管理。

Sqoop：在Hadoop(Hive)与传统的数据库(mysql、oracle等)间进行数据的传递。

　　　　可以将一个关系型数据库（MySql ,Oracle等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。

Impala：接近实时的处理引擎，之后也加入了Hadoop生态圈。

Mahout：是机器学习和数据挖掘的分布式框架。

二：其他

Hadoop和Spark都是大数据框架，Spark只对数据进行计算，本身不对数据进行存储。

Hadoop支持多种计算框架：MapReduce、Spark

流处理：实时处理数据　　　　　　//在线的数据

分布式：多个电脑处理同一数据 //离线的数据

查看全文

相关阅读:
释放下一代网络应用的能量[转载]
帮助创建未来的 .NET 客户端开发
 ASP.NET Ajax替代品AjaxWidgets
Microsoft Surface
有意思的《致招商银行的公开信》行动！
Applying DomainDriven Design and Patterns(ADDDP) With examples in C# and .NET
Silverlight ASP.NET control
StructureMap 轻量IOC框架
 DDay.iCal an iCalendar class library
Mono ASP.NET 上几个性能调优技巧

原文地址：https://www.cnblogs.com/quan-coder/p/6781954.html