zoukankan      html  css  js  c++  java
  • 大数据技术名词

    大数据的知识结构:

    一、大数据的相关名词:

    Hadoop:是一个分布式的大数据框架,包含有三个核心组件:HDFS,YARN,MapReduce。

    HBase:是一个NoSql数据库,列式存储。存储并处理大型数据,可以对大型数据提供随机、实时的读写访问。

    Hive:

      是一个数据仓库工具,运行在Hadoop的数据仓库环境之上,是一种HQL语言,支持标准SQL。

      提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行,非常适合数据仓库的统计分析。

    Spark:是一个基于内存的计算框架,性能比Hadoop强,支持Sql,对数据进行流式处理。

    Kafka:提供了分布式消息队列,流式处理。

    Storm:做流式处理

    Zookeeper:是一个分布式应用程序协调服务; 其特点是:分布式协调,集群管理。

    Sqoop:在Hadoop(Hive)与传统的数据库(mysql、oracle等)间进行数据的传递。

        可以将一个关系型数据库(MySql ,Oracle等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。

    Impala:接近实时的处理引擎,之后也加入了Hadoop生态圈。

    Mahout:是机器学习和数据挖掘的分布式框架。

    二:其他

    Hadoop和Spark都是大数据框架,Spark只对数据进行计算,本身不对数据进行存储。

    Hadoop支持多种计算框架:MapReduce、Spark

    流处理:实时处理数据        //在线的数据

    分布式:多个电脑处理同一数据        //离线的数据

  • 相关阅读:
    办公开发环境(外接显示屏,wifi热点)
    awk, sed, xargs, bash
    regular expression, grep (python, linux)
    Linux环境常用命令
    Approximate timing for various operations on a typical PC
    numpy初用
    shell代码模板
    virtualenv(for python)
    《Oracle RAC性能优化》
    【Oracle 集群】ORACLE DATABASE 11G RAC 知识图文详细教程之缓存融合技术和主要后台进程(转)
  • 原文地址:https://www.cnblogs.com/quan-coder/p/6781954.html
Copyright © 2011-2022 走看看