zoukankan      html  css  js  c++  java
  • Hadoop基础-01-基本概念

    源码见 https://github.com/hiszm/hadoop-train

    大数据概述

    hadoop

    导学

    学习内容

    • Hadoop
    • 分布式文件系统HDFS
    • 分布式资源调度YARN
    • 分布式计算机框架MapReduce
    • 数据仓库Hive
    • Hadoop分布式集群搭建

    环境参数

    • Linux:Centos7
    • Hadoop:CDH5.15.1
    • 开发工具:IDEA

    案例

    有一天,一名美国男子闯入他家附近的一家TARGET,抗议道:“你们竟然给我17岁的女儿发婴儿尿片和童车的优惠券,你们这是赤裸裸的侮辱,我要起诉你们!”
    店铺经理立刻跑出来承认错误,迷惑的经理到最后也没明白,到底发生了什么
    一个月后,这名男子来TARGET道歉
    因为他后来才知道女儿的确怀孕了
    这样说来,TARGET比这位父亲知道他女儿怀孕的时间,足足早了一个月。
    那么问题来了,TARGET是怎么知道的呢?
    这个女孩之前并没有购买过任何的母婴用品
    原来,这就是神秘的大数据发挥的作用。

    定义和特征

    • 海量的计算
    • 大量的用户全体
    • 数据分析
    • 数据管理

    4V特征

    4V特征

    技术变革

    • 技术驱动:数据量大
    • 存储: 文件存储->分布式存储
    • 计算:单机-> 分布式计算
    • 网络:万兆
    • DB:RDBMS(关系型数据库)-> NoSql(HBase/Redis)

    现存的模式

    • 手握大数据,无大数据行为(金融。通讯运营商)
    • 没数据,又大数据思维(一些It企业)
    • 又大数据,又有大数据思维(google,阿里)Ω

    存储和分析

    数据采集:Flume sqoop
    数据存储:Hadoop
    数据处理,分析,挖掘:Hadoop,Spark,Flink
    数据可视化:echart

    差异

    • 对数据库的技术升级
    • 经典数据库没有考虑到的多类别
    • 实时性的技术
    • 对网络,数据中心,运维的要求

    Google的大数据结束

    为了应对大数据带来的挑战

    • 存储容量
    • 读写数据
    • 计算机效率

    Google提供的思路(未开源)

    • MapReduce
    • BigTable
    • GFS

    所以开发者根据谷歌的思路构建了Hadoop

  • 相关阅读:
    Golang中使用set
    go 删除数组元素
    golang slice 简单排序
    WSGI 配置禁止反向DNS查找
    OpenStack Restful API框架介绍
    kubebuilder controller 资料学习
    package controllerutil
    JavaWeb开发好资料
    Hibernate3.6中文手册
    软件项目版本号的命名规则及格式
  • 原文地址:https://www.cnblogs.com/hiszm/p/13368085.html
Copyright © 2011-2022 走看看