zoukankan      html  css  js  c++  java
  • hadoop深入了解(一)

    学习hadoop目标

    安装资料链接: http://pan.baidu.com/s/1bnfkl9H 密码: fmb8

    1、掌握Hadoop基本知识,进行Hadoop的HDFS和MapReduce应用开发,搭建Hadoop集群。

    2、掌握Hbase基本知识,搭建Hbase集群,Hbase的基本操作

    3、掌握数据仓库基本知识,用Hive建立数据仓库,并进行多维分析

    一、初识hadoop

    hadoop是有两个核心组成。这也就是hadoop作为分布式存储和计算的功能体现。HDFS用来存储文件。mapreduce用来计算。

    HDFS主从结构

    主节点,只有一个: namenode

    从节点,有很多个: datanodes

    namenode负责: 接收用户操作请求

            维护文件系统的目录结构 管理文件与block之间关系,block与datanode之间关系

    datanode负责: 存储文件

            文件被分成block存储在磁盘上 为保证数据安全,文件会有多个副本

    Mapreduce主从结构

    主节点,只有一个: JobTracker 从节点,有很多个: TaskTrackers

    JobTracker负责: 接收客户提交的计算任务 把计算任务分给TaskTrackers执行 监控TaskTracker的执行情况

    TaskTrackers负责: 执行JobTracker分配的计算任务

    sqoop作用

    RDBMS和非关系型数据库的转换。

    HIVE 是high level interface 支持SQL语句很强大

    pig支持一步一步的执行

    Hbase处理OLTP在线事务处理应用,特点是低延迟。

    mahout 封装了很多的数据挖掘算法。

    Jobtacker和namebode就像是两个部门的经理(只有一个)分别管理计算和存储,两个部门分属两个机架。通过交换机连接

    tasktracker和databode像是两个部门的多个职员。

    下面在介绍hadoop安装之前了解三种网络连接方式

    虚拟机的作用是在现有操作系统下,允许安装更多的操作系统,相互之间物理隔离,组成网络,可以更大的发挥计算机的性能。

    VirtualBox作为一款免费的虚拟机,非常好用。与之类似的,还有VMWare,这也是一款非常非常好用的虚拟机,操作也非常类似。我们依次为例,讲述VBox下的各种网络连接方式。

    为什么要讲这个哪?因为在教学中,发现很多学员对网络知识比较缺乏,对各种网络连接方式哪,知之甚少。现在总结一下,希望来个根本解决。

    首先,大家知道一下网络常识:

    • 网络中对电脑的访问是通过ip定位的。就好像我们的身份证号,可以唯一辨识一个人。ip是用来区分网络中的电脑的,因此同一网络(准确讲是“网段”)中,ip地址不能相同。如果同一网络中有相同的ip存在,经常发生无法联网或者经常掉线的情况。
    • 网络是分段管理的。拿局域网为例,我们通常的网段是192.168.1.xxx。我们的ip地址就是把xxx成1到254的数字。如果多台计算机的ip的前面数字都是192.168.1,那么就叫做属于同一个网段,他们之间是可以互相通信的。如果一台机器的ip是192.168.1.100,另一台机器的ip是192.168.3.100,正常情况下,不能互相通信的(有办法可以搞定,我们不讨论)。所以,在设置虚拟机时要考虑是否同一个网段。
    • 怎么知道电脑的ip地址?在windows系统下,在命令行中执行ipconfig;在linux系统下,在命令行中执行ifconfig即可,下文会详述。
    • 怎么判断是否与对方能够通信?最简单的方式是执行ping命令。无论是windows还是linux,都可以在命令行中执行“ping 对方ip”

      1、host-only 宿主机和客户机单独组网。网段不同。所以不能通信,相对安全。

    更改网络中的虚拟机适配器

      2、bridge 桥接同一局域网。不安全

          3、NAT 宿主机看不到客户机的ip

    这种访问模式指的是虚拟机不占用主机所在局域网的ip,通过使用主机的NAT功能访问局域网和互联网,意味着虚拟机可以访问局域网中的其他电脑,但是其他电脑不知道虚拟机的存在。

    使用这种模式时,虚拟机不需要设置静态IP,只需要使用DHCP功能自动获取ip即可。

    这种模式的好处是可以利用主机的网卡上网,而且不占用更多的ip地址。在ip v4紧张的年代,发明了NAT,因此绝大多数上网都是这种方式。

     安装前的软件准备

    VitualVox

    rhel-server-6.3-i386-dvd.iso

    jdk-6u24-linux-xxx.bin

    hadoop-1.1.2.tar.gz

    安装步骤

    关闭防火墙

    修改ip

    修改hostname

    设置ssh自动登录

    安装jdk 安装hadoop

  • 相关阅读:
    abstract关键字
    方法重写
    对象初始化过程
    访问修饰符
    super关键字
    继承
    转发和重定向的区别
    tomcat中乱码问题解决
    jsp执行过程
    web程序常见错误及解决方法
  • 原文地址:https://www.cnblogs.com/dandandeyoushangnan/p/4698561.html
Copyright © 2011-2022 走看看