zoukankan      html  css  js  c++  java
  • 大数据技术名词

    大数据的知识结构:

    一、大数据的相关名词:

    Hadoop:是一个分布式的大数据框架,包含有三个核心组件:HDFS,YARN,MapReduce。

    HBase:是一个NoSql数据库,列式存储。存储并处理大型数据,可以对大型数据提供随机、实时的读写访问。

    Hive:

      是一个数据仓库工具,运行在Hadoop的数据仓库环境之上,是一种HQL语言,支持标准SQL。

      提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行,非常适合数据仓库的统计分析。

    Spark:是一个基于内存的计算框架,性能比Hadoop强,支持Sql,对数据进行流式处理。

    Kafka:提供了分布式消息队列,流式处理。

    Storm:做流式处理

    Zookeeper:是一个分布式应用程序协调服务; 其特点是:分布式协调,集群管理。

    Sqoop:在Hadoop(Hive)与传统的数据库(mysql、oracle等)间进行数据的传递。

        可以将一个关系型数据库(MySql ,Oracle等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。

    Impala:接近实时的处理引擎,之后也加入了Hadoop生态圈。

    Mahout:是机器学习和数据挖掘的分布式框架。

    二:其他

    Hadoop和Spark都是大数据框架,Spark只对数据进行计算,本身不对数据进行存储。

    Hadoop支持多种计算框架:MapReduce、Spark

    流处理:实时处理数据        //在线的数据

    分布式:多个电脑处理同一数据        //离线的数据

  • 相关阅读:
    电力基本知识
    .net图表工具汇总
    最重要的十年做什么才不浪费?
    花10分钟看一看少走30年弯路
    给明年依然年轻的我们
    Qt经典—线程、事件与Qobject
    C#源码500份
    .NET 性能优化方法总结==转
    qt +ChartDirector 绘制图表
    创业者,你为什么这么着急?
  • 原文地址:https://www.cnblogs.com/quan-coder/p/6781954.html
Copyright © 2011-2022 走看看