zoukankan      html  css  js  c++  java
  • Hadoop基础

    互联网的变化结果:

    火车 =》汽车    超级计算机 =》个人计算机   公司应用 =》大众应用

    云计算:一种基于互联网的超级计算模式,几万cpu甚至几十万cpu连接成一片;

      是并行计算、分布式计算以及网络计算的发展;

    Hadoop最核心的设计就是:HDFS(提供存储)和MapReduce(提供计算);

    MapReduce算法将查询操作和数据集都分解为组件,即映射,查询时,被映射的组件可以被同时处理(即简化),从而映射的返回结果;

    map(映射) reduce(化简)

    HDFS:

    1.hadoop:common公共部分包括文件系统,远程过程调用rpc和序列化函数等;

    2.hdfs:提高高吞吐量的可靠分布式文件系统,是GFS的开源实现;

    3.MapReduce:为大型分布式数据处理模型,一种编程模型,用于大规模数据规约,集(大于1Tb)的并行计算;

    4.HBASE:分布式数据库是bigtable的开源实现;

    5.hive:提供数据摘要和查询功能的数据仓库;

    6.pig:是mapReduce上构建的一种高级数据流语言,可简化MapReduce任务的开发;

    7.Cassandra:高可扩展分布式数据库;

    8.chukwa:数据采集系统;

    9.zookeeper:用于解决分布式系统中一致性问题,是chubby的开源实现;

    扩展:

    haddoop包含:

      一个nameNode

      一个DateNode

    分布式节点之间有关联时,要考虑之间的通行,节点多,要有监控和管理来支撑;

    storm:一个分布式容错的实时计算系统(流计算)

    kafka:流处理平台,由Scala和java编写;高吞吐量的分布式订阅消息系统;性能是hadoop性能的几十倍【计算速度】;

    聚类分析的对象是变量,关联分析用于描述多个变量之间的关联;

    Lucene:开源的全文检索引擎工具包,但它不是一个完整的全文检索引擎,而是一个检索引擎的架构,是一套用于全文检索和搜寻的开源程式库;

    分布式解决的问题:

     1.客户端如何进行访问;

     2.服务与服务之间如何通信;

     3.这么多服务,他们是这么实现的;

     4.服务挂了,如何处理;

    关键技术研究:

      虚拟化技术

      数据存储技术

      资源管理技术

      能耗管理技术

      云检测技术

    基础知识兴趣:

      &a[0][1] <==> a[0] + 1 或者 *(a+0) + 1

      &a[1][2] <==> a[1] + 2 或者 *(a+1)  + 2

    小思考:

    新框架会越来越多,将会越来越简单,越来越安全、好用;技术永远在过时的路上

    软件最终走向的道路:简单、高效、成本低、功能强大;

    毫无目标的追求会使有限的积累能力稀释,从而使知识和技能的提升变得低效,甚至走上错误的道路;

    加油 programmer

  • 相关阅读:
    HDU 1075 What Are You Talking About(字典树)
    HDU 1075 What Are You Talking About (stl之map映射)
    HDU 1247 Hat’s Words(字典树活用)
    字典树HihoCoder
    HDU 1277全文检索(字典树)
    HDU 3294 Girls' research(manachar模板题)
    HDU 3294 Girls' research(manachar模板题)
    HDU 4763 Theme Section(KMP灵活应用)
    Ordering Tasks UVA
    Abbott's Revenge UVA
  • 原文地址:https://www.cnblogs.com/Sam-2018/p/hadoop.html
Copyright © 2011-2022 走看看