[Hadoop入门] - 走看看

zoukankan html css js c++ java

[Hadoop入门]
ubuntu安装(这里我就不一一捉图了，只引用一个网址，相信大家能力)

ubuntu安装参考教程: http://jingyan.baidu.com/article/14bd256e0ca52ebb6d26129c.html

注意下面几点：

1、设置虚拟机的IP，点击虚拟机的右下角网络连接图标，选择”桥接模式“，这样才能分配到你的局域网IP，这个很重要因为后面hadoop要用到局域网。

2、在ubuntu里面查看ip的命令：ifconfig可以显示出你的IP地址，看一下IP是否为你的局域网IP地址。

3、ubuntu设置中文，在左侧工具栏上点击系统设置那个齿轮-->language support 在这个界面上可以选择add/del language进去找到中文的选项勾上，点安装完成后在语言列表里就有汉语(中国），如果是灰色在最下面的选项，用鼠标按着这个项拖到最上面就是黑色的，选择应用到全局再重启。

4、ubuntu不像windows那样人性化，啥安装的软件都在开始菜单里，当然也可以安装这个插件，但我认为不需要那么麻烦啦，因为在左侧工具栏最上面那个三点圈，可以搜出你所有的已安装程序，个人建议自己下载的软件就放到home下面的一个文件夹就好。

5、ubuntu按crtl+alt+t打开终端，如果不是root账号系统除了home文件夹下其它地方很少权限的，记得如果你的文件夹不在home下，就要用终端chmod命令修改权限，不然会出错。

Java安装

sudo apt-get install openjdk7 这样的命令安装最好，当然也可以下载tar.gz包安装，但需要自己配置java_home等工作，请大家百度一下。如果是sudo apt-get这种方式的，一般会安装在/usr/lib/jvm/这个路径下，通过终端，你输入java -version，如果能显示版本号，说明安装成功了。

SSH安装

sudo apt-get install openssh-server，至少配置产生密钥这些请大家百度一下。

mysql安装

sudo apt-get install mysql-server，安装然后安装个mysql workbench这样的类似客户端的平台，方便你可视化操作mysql

hadoop安装与配置

下载hadoop1.2.1的tar.gz包，解压后把文件夹改名为hadoop，复制一份到/usr/local/下面，如果你当前的账号操作不了local这文件夹，记得用其它有权限的账号来操作，最好还是建一个hadoop组再添加一个hadoop账号来操作，怎添加用户组与用户，还是通过命令add usergroup/add user这些。复制完成后，通过root账号把hadoop文件夹的权限chmod -R 777，也就是这文件夹下面所有内容对所有人所有权限开放，测试环境没啥太大关系。

hadoop有三种工作模式：单机，伪分布式，完全分布式。

单机模式是Hadoop的默认模式。当首次解压Hadoop的源码包时，Hadoop无法了解硬件安装环境，便保守地选择了最小配置。在这种默认模式下所有3个XML文件均为空。当配置文件为空时，Hadoop会完全运行在本地。因为不需要与其他节点交互，单机模式就不使用HDFS，也不加载任何Hadoop的守护进程。该模式主要用于开发调试MapReduce程序的应用逻辑。

伪分布式模式就是一个机器又当主机又当重机，所有的操作都在一个机器上实现，这时已经存在HDFS，守护进程这些，需要配置conf/core-site.xml, hdfs-site.xml, mapred-site.xml, hadoop-env.sh这几个文件。

core-site.xml配置内容如下：
<configuration> <property> <name>fs.default.name</name> <value>hdfs://172.27.27.3:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/usr/local/hadoop/tmp</value> </property> </configuration>
第一个节点内容解析就是hdfs就是这个hadoop hdfs系统服务器的地址和端口，下面节点是hadoop tmp的路径

hdfs-site.xml
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.name.dir</name> <value>/usr/local/hadoop/hdfs/name</value> </property> <property> <name>dfs.data.dir</name> <value>/usr/local/hadoop/hdfs/data</value> </property> </configuration>
第一个节点是工作模式的选择，如果1就是我们测试用的伪分布模式

mapred-site.xml
<configuration> <property> <name>mapred.job.tracker</name> <value>172.27.27.3:9001</value> </property> </configuration>
修改conf/hadooop-env.sh里面的java-home为你的java安装目录

配置好了这些内容后，通过终端进到hadoop文件夹， cd /你的路径/ 就可以进到了，通过bin/start-all.sh启动hadoop服务， bin/stop-all.sh来停止服务。

如果启动成功的，通过jps可以发现有6个进程，如果启动失败，请检查你的java JDK是否安装成功， hadoop目录权限，上面几个文件的设置等。
查看全文

相关阅读:
Python常用代码：获取本机ip；统一十进制和日期；日期计算
 gogs安装（docker）
【转载】os.environ模块环境变量详解
 。。
IDEA配置Scala
jupyter 安装
 docker基本操作
 2021秋季加分项
 docker安装
 spark Windows环境的部署

原文地址：https://www.cnblogs.com/whtydn/p/4171580.html