1,/etc/hosts下的ip master/slave 的对照
/etc/sysconfig/network 配置:
NETWORKING=yes
HOSTNAME=master
以及spark/conf/spark-env.sh 及 slave文件的相关配置
如果不bind ip和master名字,那就直接--master spark://ip:port来指定master
2, 最大的坑是一定要scala一定要配置为2.10.版本,之前配置为2.11.各种出错,心累啊啊啊啊
3,IDEA上spark搭建,用于本地调试:http://zhidao.baidu.com/link?url=1BZPWt5SrrtN38El2gFoE0oam5Drk5uepCMna2RmKiiSK0o49z3WofU7o7hGMJoWzHfD36bfJsUXbyIi9Zu7TtsFY3O-XhADK-UWSBo60Ja
4,至于其他的,看牛人博客 http://www.cnblogs.com/shishanyuan/p/4700615.html
5,其他坑:http://greemranqq.iteye.com/blog/2241277
6,spark学习干货:(坚持都看完)
理解RDD:http://itindex.net/detail/51871-spark-rdd-模型
pyspark : http://blog.jobbole.com/86232/
from
pyspark
import
SparkContext