hadoop的伪分布式安装流程如下所示:
其中core-site.xml和hdfs-site.xml是两个很重要的配置文件。
core-site.xml
<configuration> <property> <name>hadoop.tmp.dir</name> <value>file:/usr/local/hadoop/tmp</value> <description>Abase for other temporary directories.</description> </property> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> </configuration>
hadoop.tmp.dir用来存放hadoop运行过程中临时文件的目录,目录指定为/usr/local/hadoop/tmp,如果不设置这个目录,那么当hadoop关闭后某些系统临时目录会被清空,当下一次需要启动hadoop时需要重新进行初始化。所以这里人工指定目录可以避免被清空。
df.defaultFS设置好逻辑名称,当我们下次需要访问分布式文件系统的时候,用localhost:9000就可以访问了。
hdfs-site.xml
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>file:/usr/local/hadoop/tmp/dfs/name</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:/usr/local/hadoop/tmp/dfs/data</value> </property> </configuration>
dfs.replication表示副本的数量,伪分布式要设置为1。
dfs.namenode.name.dir表示本地磁盘目录,是存储fsimage文件的地方。
dfs.datanode.data.dir表示本地磁盘目录,HDFS数据存放block的地方。