zoukankan      html  css  js  c++  java
  • 大数据除了Hadoop还有哪些常用的工具?

    大数据除了Hadoop还有哪些常用的工具?

    1.Hadoop大数据生态平台
    Hadoop 是一个能够对大量数据进行分布式处理的软件框架。
    但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。
    Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。
    Hadoop 还是可伸缩的,能够处理 PB 级数据。
    此外,Hadoop 依赖于社区服务器,因此它的成本比较低,任何人都可以使用。

    2.Spark,大数据分析的“瑞士军刀”
    Spark 也是 Apache 基金会的开源项目,它由加州大学伯克利分校的实验室开发,是另外一种重要的分布式计算系统。
    它在 Hadoop 的基础上进行了一些架构上的改良。
    Spark 与 Hadoop 最大的不同点在于,Hadoop 使用硬盘来存储数据,而 Spark 使用内存来存储数据,因此 Spark 可以提供超过Hadoop100 倍的运算速度。
    但是,由于内存断电后数据会丢失,Spark 不能用于处理需要长期保存的数据。
    目前 Spark 完成了大部分的数据挖掘算法由单机到分布式的改造,并提供了较方便的数据分析可视化界面。

    3.Storm,实时大数据处理工具
    Storm 是 Twitter 主推的分布式计算系统,它由 BackType 团队开发,是 Apache 基金会的孵化项目。
    它在 Hadoop 的基础上提供了实时运算的特性,可以实时地处理大数据流。
    不同于 Hadoop 和Spark,Storm 不进行数据的收集和存储工作,它直接通过网络实时地接收数据并且实时地处理数据,然后直接通过网络实时地传回结果。

    4.Apache Drill
    为了帮助企业用户寻找更为有效、加快Hadoop数据查询的方法,Apache软件基金会发起了一项名为“Drill”的开源项目。Apache Drill 实现了 Google’s Dremel。

    5.RapidMiner
    RapidMiner是世界领先的数据挖掘解决方案,在一个非常大的程度上有着先进技术。它数据挖掘任务涉及范围广泛,包括各种数据艺术,能简化数据挖掘过程的设计和评价。
    耶鲁大学已成功地应用在许多不同的应用领域,包括文本挖掘,多媒体挖掘,功能设计,数据流挖掘,集成开发的方法和分布式数据挖掘。

    6.Pentaho BI
    Pentaho BI 平台不同于传统的BI 产品,它是一个以流程为中心的,面向解决方案(Solution)的框架。
    其目的在于将一系列企业级BI产品、开源软件、API等等组件集成起来,方便商务智能应用的开发。
    它的出现,使得一系列的面向商务智能的独立产品如Jfree、Quartz等等,能够集成在一起,构成一项项复杂的、完整的商务智能解决方案。

    ===============
    1.开源大数据生态圈Hadoop HDFS、Hadoop MapReduce, HBase、Hive 渐次诞生,早期Hadoop生态圈逐步形成.开源生态圈活跃,并免费,但Hadoop对技术要求高,实时性稍差.

    2. 商用大数据分析工具一体机数据库/数据仓库(费用很高)
    IBM PureData(Netezza), Oracle Exadata, SAP Hana等等.数据仓库(费用较高)
    Teradata AsterData, EMC GreenPlum, HP Vertica 等等.数据集市(费用一般)
    QlikView、 Tableau 、国内永洪科技Yonghong Data Mart 等等.

    前端展现用于展现分析的前端开源工具有JasperSoft,Pentaho, Spagobi, Openi, Birt等等.

    用于展现分析商用分析工具有Cognos,BO, Microsoft, Oracle,Microstrategy,QlikView、 Tableau 、国内永洪科技Yonghong Z-Suite等等.

    ===============
    Top Tools (Platforms) / Technical Skills in Big Data Analytics:
    第一个就是 Hadoop
    Hadoop: Hadoop is one of the most in-demand tools in the field. It is an open source platform for distributed data storage.

    NoSQL: Common database that are often the source of data crunched in Hadoop. In the world of Big Data Hadoop and NoSQL are opposite sides of a virtual cycle.

    Flume: it allows businesses to collect, aggregate and move massive amount of log data.

    Chef: Chef is a configuration management tool for server management. It can integrate with public cloud systems like Rackspace, Amazon EC2, Google Cloud Platform, OpenStack, Microsoft Azure etc.

    ABAP: a programming tool from SAP.

    Pig: a platform for analyzing large data sets with ease, better optimization and extensibility.

    HBase: an open source platform for non-relational and distributed database

    Cloudera: One of the most popular next-generation data management and analytics platforms. It provides one of the fastest, secure and fastest Apache Hadoop-based software, support and services.

    MapReduce: a programming model for processing and generating large data sets on a cluster.

    Cassandra: NoSQL database system designed for handling large data sets across commodity servers.

    PaaS: a cloud computing service that provides platform to customers to develop, run and manage applications in the cloud without the need of building and maintaining complex underlying infrastructure.

    YARN: a large-scale, distributed operating system for Big Data applications.

    Hive: another platform analyzing large data sets. First created at Facebook, Hive is a data warehouse system for Hadoop that allows easy data summarization, ad-hoc queries, and analysis of large data sets.

  • 相关阅读:
    Poj 1742 Coins(多重背包)
    Poj 2350 Above Average(精度控制)
    求二进制数中1的个数
    Poj 1659 Distance on Chessboard(国际象棋的走子规则)
    Poj 2411 Mondriaan's Dream(压缩矩阵DP)
    Poj 2136 Vertical Histogram(打印垂直直方图)
    Poj 1401 Factorial(计算N!尾数0的个数——质因数分解)
    poj 2390 Bank Interest(计算本利和)
    Poj 2533 Longest Ordered Subsequence(LIS)
    Poj 1887 Testing the CATCHER(LIS)
  • 原文地址:https://www.cnblogs.com/zdz8207/p/hadoop-bigdata.html
Copyright © 2011-2022 走看看