zoukankan      html  css  js  c++  java
  • 分布式 并行软件平台 Dryad Hadoop HPCC

    1.为了 能够方便记忆, 总结一下。

    2.  并行软件平台,不是 一个。

     (1)这个特别熟悉的 以 hadoop 为平台的 生态系统

    (2)还有以 微软的 并行软件平台 生态系统

    (3) 还有LexisNexis公司的  基于  C++  开发的  HPCC

    下面补充(1) 有介绍

    补充说明:

    (一)HPCC 与 hadoop 

    1.Hadoop是许多年前由当时的Yahoo员工Doug CuttingApache软件基金会创建的项目。Hadoop现已成为网络公司的重要工具。包括Yahoo、Facebook,并帮助他们处理不断增长的非结构化数据。Hadoop催生了一批用于商业的基于分布式技术的产品,包括ClouderaEMCIBM等公司。

    2.  LexisNexis公司将发布一款开源的数据处理工具,LexisNexis公司宣称其处理工作负载的能力要优于Hadoop。该技术被称为HPCC系统,并在10年前帮助LexusNexis公司Risk Solutions分析大量的客户数据。并在金融

    LexisNexis公司将发布一款开源的数据处理方案,LexisNexis公司宣称其处理工作负载的能力要优于Hadoop。该技术被称为HPCC系统,该系统在10年前帮助LexusNexis公司的Risk Solutions分析大量的客户数据。并在金融业和其他重要的行业中应用。看来HPCC(High-Performance Cluster Computing 高性能集群计算)似乎有能力成为替代Hadoop的解决方案。

    据LexisNexis Risk Solutions部门CTO Armando Escalante表示,LexisNexis公司决定发布HPCC系统,目前的状况是Hadoop技术已经成为处理海量数据的首选。Armando Escalante表示Hadoop虽然在海量数据处理方面走在前边,但他认为HPCC系统更为优越。

    但重要的是,Hadoop的开源模式吸引了大量相关人员对其进行开发和创新。Armando Escalante解释说,如果公司想要继续保持HPCC的影响力就需要通过一个新社区提供应用和好的创意。

    3.HPCC如何工作

    Hadoop依靠两个核心组件来存储和处理海量数据——Hadoop分布式文件系统和Hadoop Mapreduce。Cloudant公司CEO Mike Miller认为MapReduce在编写并行处理工作流时依然相对复杂,HPCC旨在通过ECL(Enterprise Control Language)改善这一局面。

    Escalante表示ECL是一种声明式并以数据为中心的语言,它剥离了大量MapReduce必要的工作。对于某些千行代码的MapReduce任务ECL只需要99行。此外,他还表示ECL对集群中节点的数量没有要求,系统会自动将数据分布式的存放在当前节点之中。从技术上讲,HPCC还可以运行在单一的虚拟机上。HPCC基于C++,如同Google最早的Mapreduce,这使得HPCC天生在效率上就优于基于Java开发的Hadoop。

    4. HPCC提供两种数据处理和服务的方式——Thor Data Refinery Cluster和Roxy Rapid Data Delivery Cluster。Escalante表示如此命名是因为其能像Thor(北欧神话中司雷、战争及农业的神)一样解决困难的问题,Thor主要用来分析和索引大量的Hadoop数据。而Roxy则更像一个传统的关系型数据库或数据仓库,甚至还可以处理Web前端的服务。

    虽然没有深入探讨HPCC存储组件的细节,但Escalante表示HPCC基于分布式文件系统,并可支持各种off-node存储架构和本地的SSD。

    Escalante认为为了确保LexisNexis产品质量,应采用“eating its own dogfood”(指软件公司强调自己的软件产品首先应内部使用,如果希望顾客购买公司的产品,公司内部也应该愿意使用它们)做法。HPCC开发团队还聘请了Hadoop专家帮助检验其产品是否有问题疏漏。HPCC还构建了一个转换器,用于迁移Hadoop Pig编写的应用并转换为ECL。

    5. HPCC具有竞争力吗?

    一个关键的问题是HPCC是否能吸引到业界的构建者和用户,这将有助于提升其在海量数据领域的话语权。Escalante认为HPCC能够成功,因为HPCC已经证明了自己,它已处理LexisNexis Risk Solutions的35000个数据源。同时HPCC还可以每秒处理5000次的和支付客户打交道的交易事物。

    6. Hadoop已经证明了自己,其潜在的巨大核心业务每天都在增长,现在企业和组织在海量数据上依托于Hadoop。但Hadoop并不满足这些成就。这使得微软也在海量数据的竞争中推出了自己的分布式计算技术Dryad。(李智/译)

    原文链接:GIGAOM

     
  • 相关阅读:
    黄聪:解决Bootstrap模态框(modal)弹出后页面跑到顶部的办法
    黄聪:visual studio 2017编译运行出现脚本发生错误等问题如何解决?
    黄聪:xampp启动后mysql报Error
    黄聪:公众号怎么用微信做出点击此处查看答案
    黄聪:保持web页面生成的app一直处于用户登录状态不退出
    黄聪: $(document).click() 在iphone上不触发事件解决办法
    黄聪:bootstrap的模态框modal插件在苹果iOS Safari下光标偏离问题解决方案
    黄聪:pjax使用心得总结
    黄聪:Pjax无刷新跳转页面实现,支持超链接与表单提交
    黄聪:Pjax 无刷新开发web,更好用户体验
  • 原文地址:https://www.cnblogs.com/nucdy/p/8024190.html
Copyright © 2011-2022 走看看