zoukankan      html  css  js  c++  java
  • hadoop第一课

    Hadoop基本概念
    • 在当下的IT领域,大数据很“热”,实现大数据场 景的Hadoop系列产品更“热”。
    • Hadoop是一个开源的分布式系统基础架构,由 Apache基金会开发。
    • 此架构可以帮助用户可以在不了解分布式底层细 节的情况下,开发分布式程序。
    • 目前,主要的发展版本有Hadoop1.0和Hadoop2.0 。
    • 名字来源于创始人——Doug Cutting儿子的一个黄 色的玩具大象
    • 雏形:Doug Cutting用java代码编写,实现与 Google类似的全文搜索功能,它提供了全文检索 引擎的架构,包括完整的查询引擎和索引引擎。
    • 2001年年底成为apache软件基金会jakarta的一个 子项目。
    • Hadoop起源于Google的集群系统
    • Google的三大核心的分布式技术
                – 2003年,GFS分布式存储系统
                – 2004年,MapReduce分布式处理技术
                – 2006年,BigTable分布式数据库
    • 对于大数据量的场景,迫使Doug Cutting学习 和模仿Google解决这些问题。
    目前最新应用领域
    农业 • 地震台网监测 • 医疗 • 可穿戴设备 • 无人驾驶汽车
    讨论课题
    任何事物都具有两面性,请分组讨论:在你的眼中“大数据”处理技术给人类带来了哪些好处? 哪些问题?
    课程安排
    课程安排分为理论课(32学时)和实验课(16学时)
    • 理论课 
      – Hadoop概述
      – YARN设计理念与基础架构
       – MapReduce编程模型
      – HDFS详解
    • 实验课
      – Hadoop2.0的环境搭建
      – MapReduce开发环境搭建
      – 调试运行编写MapReduce词频统计程序
      – MapReduce程序编程
    课程目标
    • 了解YARN的基本工作原理
    • 了解Hadoop2.0的两大核心模块的工作原理
    • 熟悉Hadoop2.0环境搭建、配置与管理
    • 熟练向Hadoop提交作业以及查询作业运行情况
    • 能书写Map-Reduce程序 • 能熟练地对HDFS中的文件进行管理
    参考文献
    • Hadoop实战
    • Hadoop权威指南
     
     
    课堂笔记
    (1)理解 集群 分布式 数据中心的概念 以及其中的关系?
    答:集群大抵是指硬件,分布式大抵是指软件,集群加上分布式的商业化体现就是数据中心。
    (2)理解可迁移技术与负载均衡的概念。
    答:举个例子,一个游戏,有三个区,每个区各有三台服务器。我们都知道晚饭过后,登录游戏的人很多,倘若一区爆满,二区三区人相对比较少,此时可迁移技术就派上了用场,把二三区空闲的服务器迁移到一区或者将另外备用的服务器给一区,进而负载均衡。同样的道理,在游戏中,过不了的动画,副本排队,卡下线,都和可迁移技术和负载均衡有关。再举个例子,深夜的时候,打游戏的人相对会少很多,这时,运营商可能就会关掉二区三区的服务器,只留下一区的服务器,以此来减少成本。
    (3)理解互联网 云计算 大数据 人工智能的概念 以及彼此之间的关系?
    答:略。
    ————————————————————————————————
     
    爱笑的男孩运气都不会差
  • 相关阅读:
    关于网站的性能瓶颈——(阅读笔记)
    Servlet原理解析
    配置Ubuntu Server高速aptget源
    字节对齐
    linux学习笔记—之—linux文件管理
    JavaWeb过滤器Filter
    C语言编程程序的内存布局
    修改Linux下MySQL编码
    C语言中——关于typedef
    linux学习笔记—之—LVM管理
  • 原文地址:https://www.cnblogs.com/DC0307/p/8569591.html
Copyright © 2011-2022 走看看