zoukankan      html  css  js  c++  java
  • 大数据除了Hadoop还有哪些常用的工具?

    大数据除了Hadoop还有哪些常用的工具?

    1.Hadoop大数据生态平台
    Hadoop 是一个能够对大量数据进行分布式处理的软件框架。
    但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。
    Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。
    Hadoop 还是可伸缩的,能够处理 PB 级数据。
    此外,Hadoop 依赖于社区服务器,因此它的成本比较低,任何人都可以使用。

    2.Spark,大数据分析的“瑞士军刀”
    Spark 也是 Apache 基金会的开源项目,它由加州大学伯克利分校的实验室开发,是另外一种重要的分布式计算系统。
    它在 Hadoop 的基础上进行了一些架构上的改良。
    Spark 与 Hadoop 最大的不同点在于,Hadoop 使用硬盘来存储数据,而 Spark 使用内存来存储数据,因此 Spark 可以提供超过Hadoop100 倍的运算速度。
    但是,由于内存断电后数据会丢失,Spark 不能用于处理需要长期保存的数据。
    目前 Spark 完成了大部分的数据挖掘算法由单机到分布式的改造,并提供了较方便的数据分析可视化界面。

    3.Storm,实时大数据处理工具
    Storm 是 Twitter 主推的分布式计算系统,它由 BackType 团队开发,是 Apache 基金会的孵化项目。
    它在 Hadoop 的基础上提供了实时运算的特性,可以实时地处理大数据流。
    不同于 Hadoop 和Spark,Storm 不进行数据的收集和存储工作,它直接通过网络实时地接收数据并且实时地处理数据,然后直接通过网络实时地传回结果。

    4.Apache Drill
    为了帮助企业用户寻找更为有效、加快Hadoop数据查询的方法,Apache软件基金会发起了一项名为“Drill”的开源项目。Apache Drill 实现了 Google’s Dremel。

    5.RapidMiner
    RapidMiner是世界领先的数据挖掘解决方案,在一个非常大的程度上有着先进技术。它数据挖掘任务涉及范围广泛,包括各种数据艺术,能简化数据挖掘过程的设计和评价。
    耶鲁大学已成功地应用在许多不同的应用领域,包括文本挖掘,多媒体挖掘,功能设计,数据流挖掘,集成开发的方法和分布式数据挖掘。

    6.Pentaho BI
    Pentaho BI 平台不同于传统的BI 产品,它是一个以流程为中心的,面向解决方案(Solution)的框架。
    其目的在于将一系列企业级BI产品、开源软件、API等等组件集成起来,方便商务智能应用的开发。
    它的出现,使得一系列的面向商务智能的独立产品如Jfree、Quartz等等,能够集成在一起,构成一项项复杂的、完整的商务智能解决方案。

    ===============
    1.开源大数据生态圈Hadoop HDFS、Hadoop MapReduce, HBase、Hive 渐次诞生,早期Hadoop生态圈逐步形成.开源生态圈活跃,并免费,但Hadoop对技术要求高,实时性稍差.

    2. 商用大数据分析工具一体机数据库/数据仓库(费用很高)
    IBM PureData(Netezza), Oracle Exadata, SAP Hana等等.数据仓库(费用较高)
    Teradata AsterData, EMC GreenPlum, HP Vertica 等等.数据集市(费用一般)
    QlikView、 Tableau 、国内永洪科技Yonghong Data Mart 等等.

    前端展现用于展现分析的前端开源工具有JasperSoft,Pentaho, Spagobi, Openi, Birt等等.

    用于展现分析商用分析工具有Cognos,BO, Microsoft, Oracle,Microstrategy,QlikView、 Tableau 、国内永洪科技Yonghong Z-Suite等等.

    ===============
    Top Tools (Platforms) / Technical Skills in Big Data Analytics:
    第一个就是 Hadoop
    Hadoop: Hadoop is one of the most in-demand tools in the field. It is an open source platform for distributed data storage.

    NoSQL: Common database that are often the source of data crunched in Hadoop. In the world of Big Data Hadoop and NoSQL are opposite sides of a virtual cycle.

    Flume: it allows businesses to collect, aggregate and move massive amount of log data.

    Chef: Chef is a configuration management tool for server management. It can integrate with public cloud systems like Rackspace, Amazon EC2, Google Cloud Platform, OpenStack, Microsoft Azure etc.

    ABAP: a programming tool from SAP.

    Pig: a platform for analyzing large data sets with ease, better optimization and extensibility.

    HBase: an open source platform for non-relational and distributed database

    Cloudera: One of the most popular next-generation data management and analytics platforms. It provides one of the fastest, secure and fastest Apache Hadoop-based software, support and services.

    MapReduce: a programming model for processing and generating large data sets on a cluster.

    Cassandra: NoSQL database system designed for handling large data sets across commodity servers.

    PaaS: a cloud computing service that provides platform to customers to develop, run and manage applications in the cloud without the need of building and maintaining complex underlying infrastructure.

    YARN: a large-scale, distributed operating system for Big Data applications.

    Hive: another platform analyzing large data sets. First created at Facebook, Hive is a data warehouse system for Hadoop that allows easy data summarization, ad-hoc queries, and analysis of large data sets.

  • 相关阅读:
    牛牛的揠苗助长(二分)
    树型DP简单入门
    Rational Ratio(一道思维题)
    Tima goes to Xentopia(条件最短路)
    中国剩余定理
    求解逆元的三种方法
    samba 基本配置及自定义控制
    vue之虚拟DOM、diff算法
    vue-cli3构建ts项目
    VMware+node+nginx+vue
  • 原文地址:https://www.cnblogs.com/zdz8207/p/hadoop-bigdata.html
Copyright © 2011-2022 走看看