zoukankan      html  css  js  c++  java
  • 大数据笔记(一)——Hadoop的起源与背景知识

    一.大数据的5个特征(IBM提出):

      Volume(大量)

      Velocity(高速)

      Variety(多样)

      Value(价值)

      Varacity(真实性)

    二.OLTP与OLAP

     1.OLTP:联机事务处理过程,也称面向交易的处理过程,是对用户操作快速响应的方式之一。OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易:

            开启事务——>从转出账号中扣钱——>往转入账号中加钱——>提交事务

     2.OLAP:联机分析处理过程,是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。例如商品推荐:

            抽取(读取)历史订单——>分析历史订单,找到最受欢迎的商品——>展示结果

     3.OLTP和OLAP的区别:

      OLTP OLAP
    用户 操作人员 决策人员,高级管理人员
    功能 日常操作处理 分析决策
    DB设计 面向应用 面向主题
    数据 当前的,最新的细节的,二维的分立的 历史的,聚集的,多位的,集成的,统一的
    存取 读/写数十条记录 读上百万条记录
    工作单位 简单的事务 复杂的事务
    DB大小 100MB-GB 100GB-TB

    三.数据仓库

      为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。

      

    四.Google的基本思想

      Hadoop的思想来源:Google

          1.Google的低成本之道

    • 不使用超级计算机,不使用存储(淘宝的去i,去e,去o之路)
    • 大量使用普通的pc服务器,提供有冗余的集群服务
    • 全世界多个数据中心
    • 运营商向Google倒付费

      

          2.Google的三篇论文(Hadoop的思想来源)

    • GFS(Google File System:Google的文件系统)

      

    • 倒排索引

      把文件ID对应到关键词的映射转换为关键词到文件ID的映射,每个关键词都对应着一系列的文件,这些文件中都出现这个关键词。

      

    • Page Rank(排名先后)
    • BigTable(大表):Google设计的分布式数据存储系统,用来处理海量数据的一种非关系型数据库

      常见的NoSQL数据库(Key-value值):

    • HBase:基于HDFS,面向列的:region
    • Redis:基于内存、支持持久化:rdb和aof
    • MongoDB:面向文档,Json型

        

  • 相关阅读:
    Android中的Prelink技术
    Android 性能分析工具之 ARM Streamline
    Android之Systrace
    学习资源收藏夹
    Linux利器之perf(火焰图)
    Linux程序Segmentation fault (core dumped)
    C++编译器、链接器工作原理
    react使用redux
    Mac更新node版本和npm版本
    Nuxt引入axios;AXIOS的模块化封装
  • 原文地址:https://www.cnblogs.com/lingluo2017/p/8455770.html
Copyright © 2011-2022 走看看