zoukankan      html  css  js  c++  java
  • Hadoop: The Definitive Guide (3rd Edition)

    chapter 1

    解决计算能力不足的问题,不是去制造更大的计算机,而是用更多的计算机来解决问题。

    我们生活在一个数据的时代。“大数据”的到来不仅仅是影响到那些科研和金融机构,对小型企业以及我们个人都有影响力。

    datanode

    tasktracker

    namenode

    jobtracker

    secondary namenode

    HDFS Clusters don't benefit from RAID fro datanode storage(It's OK for namenode).

    为了方便集群的安装,推荐使用自动化安装方法,比如Red Hat的Kickstart或者是Debian的Fully Automatic Installation。

    最好专门创建一个使用Hadoop的用户,这样便于把Hadoop的安装和其它运行在机器上的服务相隔离。

    大数据代表的不是一种解决方案,而是一类问题。大数据谈的不仅仅是数据量(Volume),还包括数据的时效性(Velocity),多样性(Variety)和可疑性(Veracity)。

    数据量,就是指大量数据的产生,处理和存储,PB级数据,甚至ZB级数据。

    时效性,指利用大数据做市场预测的时候,如果需要太长时间,就失去了预测的意义。

    多样性,指数据的形态,包括文字,影音,网页,串流等结构性和无结构性的数据。

    可疑性,指当数据来源变得多元时,这些数据的可靠度,质量是否满足,如果数据本身有问题,分析数据后得出的结果就不可能正确。

    ZB=1000EB=1000,000PB=1000,000,000TB

  • 相关阅读:
    Unity The Method Signature Matching Rule
    Unity The Property Matching Rule
    Unity The Type Matching Rule
    Unity The Custom Attribute Matching Rule
    Unity The Member Name Matching Rule
    Unity No Policies
    Unity The Return Type Matching Rule
    Unity The Parameter Type Matching Rule
    Unity The Namespace Matching Rule
    关于TSQL递归查询的(转)
  • 原文地址:https://www.cnblogs.com/hare/p/3606363.html
Copyright © 2011-2022 走看看