Hadoop HDFS 文件访问权限问题导致Java Web 上传文件到Hadoop失败的原因分析及解决方法
1. 问题描述:
Eclipse中开发Java Web程序,使用Hadoop-Core JAR包中的Java API,上传文件到Hadoop HDFS文件系统中,上传提示成功,但是在Hadoop集群中通过“hadoop fs –ls /xxx”命令却无法查看到相应的上传文件。
2. 问题原因分析:
其实,本次文件上传并未成功!在Tomcat中观察运行结果,会发现已经出现了Exception“org.apache.hadoop.security.AccessControlException: org.apache.hadoop.security.AccessControlException: Permission denied: user=bikun, access=WRITE, inode="/user":user:supergroup:drwxr-xr-x” !!
得到的教训:在编写Java Web程序时,应该多使用“try , catch”语句,在运行Java Web程序中,需要多观察Tomcat的输出结果!
从上段提示中可以看出,提示“security.AccessControlException”(访问控制异常),导致的结果是“Permission denied”(许可被拒绝),因为“user=bikun, access=WRITE”(当前用户名为“bikun”,他想“写文件”),但是当前文件夹的主人是“user”(“ inode="/user":user:supergroup”),并且访问控制位是“rwxr-xr-x”(即文件所有者“user”是可读写执行“rwx”,所在组“supergroup”是可读可执行“r-x”,其它用户是可读可执行“r-x”)。看到此处,原因已经明朗:因为除了“user”用户之外,其它用户不能写!而当前用户“bikun”却想上传(写)一个文件到“user”目录,违反了访问控制规则,导致抛出“security.AccessControlException”(访问控制异常)。
3. 问题的解决方法
3.1 创建相应子目录,并修改子目录的所有者名称
在Hadoop集群的shell中,运行“hadoop fs –ls / ”,结果如下图,可以看到”/user”目录的访问控制权限是“rwx r-x r-x”,子目录“/user/user”的访问控制权限也是“rwx r-x r-x”
当前想上传文件的用户名是“bikun”(在windows/Linux环境下,当前用户名就是登录windows/Linux时使用的用户名),我们可以使用命令“hadoop fs -mkdir /user/bikun”,在hadoop的“/user”目录中,建立子目录“bikun”(注意,执行次命令时,要保证当前登录所使用的用户名是“user”,如果你安装hadoop时使用的用户名是“xxx”,那么本文中所有的“user”都应该替换为“xxx”)。然后我们使用命令“hadoop fs -chown bikun:supergroup /user/bikun”,修改子目录“bikun”的拥有者为用户“bikun”(因为该目录是“user”用户创建的,所以,初始拥有者是“user”),如果你使用“kkk”用户登录,则需要把本文中的所有“bikun”替换为“kkk”。这几步的运行结果如下图所示:
Question & Answer:
(1)Q: 为什么要创建一个名字为“bikun”的目录?
A: 因为当前windows登录的用户名为“bikun”,此时他想通过Java web 上传一个文件到Hadoop HDFS中,按照Hadoop 1.x 版本的规定,当前用户名为登录用户名。如果你使用“kkk”用户登录,则需要把本文中的所有“bikun”替换为“kkk”。
(2)Q:为什么“bikun”子目录需要建立在“/user”目录下面?
A:因为,按照Hadoop 1.x 版本的规定,上传的文件默认都会放在“/user”目录中,并且根据当前用户名,建立相应的子目录,具体文件存放在相应的子目录中。
(3)Q:为什么需要修改“/user/bikun”目录的所有者名字(由“user”改为“bikun”)?
A:因为从上图的“访问权限位”可以看出,只有目录的所有者才有“写”(w)的权限,将目录“/user/bikun”的所有者改为“bikun”,你就可以在windows/Linux下,使用“bikun”用户登录并上传文件了。
进行上述操作后,就能够成功的上传文件了。进行了三次上传文件的测试,均成功了,使用“hadoop fs -ls /user/bikun ”可以查看到上传的文件,如下图所示。
3.2开放“/user”目录的“写”权限
使用“3.1”的方法,能够实现使用用户名“bikun”上传文件,但是如果要使用其它用户上传文件,则需要再按照上述步骤操作一遍,有点麻烦。
如果我们放开“/user”目录的“写”权限,则可以一步解决。当然,这仅是走捷径,违反了“访问控制权限”的设计逻辑,安全性不好。但是,如果这个hadoop就是供你使用的,也无妨。
在当前登录用户名为“user”时,使用命令“hadoop fs -chmod 777 /user”,修改“/user”目录的访问权限为所有人“可读可写可执行”(“rwx rwx rwx”),这样,所有用户都可以在“/user”目录下建立文件或文件夹了,如下图所示。
执行上述步骤后,在登录用户为“bikun”时,成功的在Java web中上传文件到Hadoop,通过命令“hadoop fs -ls /user”可以看到,系统自动在“/user”目录下创建了子目录“bikun”,如下图所示。
查看子目录“bikun”,会看到里面确实有上传的文件,如下图所示。
3.3 修改hadoop的配置文件“hdfs-site.xml”,取消“访问控制检查”。
首先运行“stop-all.sh”停止Hadoop的运行,然后打开hadoop的conf目录下的配置文件“hdfs-site.xml”,加入以下配置内容后,再使用命令“start-all.sh”重新启动hadoop。
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
配置说明:“dfs.permissions”的值为“false”时,hadoop不进行“访问控制”检查,因此,上传文件总是能够成功。
注意事项有两点:
(1)修改了“hdfs-site.xml”文件后,一定要重启hadoop才能有效。
(2)“dfs.permissions”的拼写一定要正确。我就是把“permissions”错误的写成了“pemissions”,导致一直上传失败,该错误比较隐蔽,花了好久,折腾了很多,才发现了这个低级错误。
3.4 使用“user”用户登录
这可能是最简单的解决方法了。在windows/Linux下,使用“user”用户登录,就OK了。上传的文件都在目录“/user/user”中。
最后还得重复一下,本例中的“user”用户代表“安装hadoop时使用的用户”,如果你安装hadoop时使用的用户名是“xxx”,那么本文中所有的“user”都应该替换为“xxx”。本例中的“bikun”用户代表上传文件时登录windows/Linux的用户,如果你使用“kkk”用户登录,则需要把本文中的所有“bikun”替换为“kkk”。
祝你好运!
Analyze data stored on HDFS
Apache Hive、Cloudera Impala 提供的SQL接口
Apache Pig 、 Apache Spark 等用于分析和存储在HDFS上的数据