近期在研究hadoop时,发现hadoop的版本号非常混乱。原来的版本号都说0.X.X開始,后来发现有1.X.X和2.X.X 这样就不太清楚了。
0.20.2版本号曾经(不含该版本号)的配置文件都在default.xml中。
0.20.x以后的版本号不含有eclipse插件的jar包,因为eclipse的版本号不一,所以就须要自己编译源代码生成相应的插件。
0.20.2——0.22.x版本号的配置文件集中在conf/core-site.xml、 conf/hdfs-site.xml 和 conf/mapred-site.xml. 中。
0.23.x 版本号有加入了yarn技术,配置文件集中在 conf/core-site.xml, conf/hdfs-site.xml, conf/yarn-site.xml and conf/mapred-site.xml.这4个文件上,好像技术变化比較大,但改动了什么技术我不清晰,希望有大侠解答。同一时候他也对文件夹的更新做了对应的变化(仿linux),文件夹结构更加的清晰了然。
或许正式0.23.x版本号的变化比較大,或许改动或加入了新的技术。让非常多基于hadoop的一些插件难以兼容,如hive、hbase、pig等都基于0.23.x曾经的版本号。然而曾经的版本号又要更新,所以在更新版本号上不知道使用什么版本号编号?
所以apache就開始统一版本,这样从版本就能够区分hadoop的功能。
0.22.x 直接升级到1.0.0
0.23.x 直接升级到2.0.0
这样就把hadoop分为两个版本号 1和2
1版本号:主要基于原来的技术的升级和发展,同一时候支持其他技术的支持。假设想用hbase、hive等技术就仅仅有选择 版本号1
2版本号:主要基于新技术的推广和发展,假设仅仅是基于hadoop开发,这个是一个非常好的选择。
以上仅仅代表个人的理解和观点,同一时候也仅仅对版本号的变化表面说明,最技术上的变化就不懂了!
Ok ,希望能给你带来点收获,假设不正确,就不要往心里去,这样会误导你。高人指点。