不多说,直接上干货!
前期博客
Zeppelin的入门使用系列之创建新的Notebook(一)
接下来,我将以ml-100k数据集,示范如何使用Spark SQL进行数据分析与数据可视化
因为
[hadoop@master zeppelin]$ pwd /home/hadoop/data/zeppelin [hadoop@master zeppelin]$ ll total 4812 -rw-rw-r-- 1 hadoop hadoop 4924029 Sep 2 11:00 ml-100k.zip [hadoop@master zeppelin]$ unzip ml-100k.zip Archive: ml-100k.zip creating: ml-100k/ inflating: ml-100k/allbut.pl inflating: ml-100k/mku.sh inflating: ml-100k/README inflating: ml-100k/u.data inflating: ml-100k/u.genre inflating: ml-100k/u.info inflating: ml-100k/u.item inflating: ml-100k/u.occupation inflating: ml-100k/u.user inflating: ml-100k/u1.base inflating: ml-100k/u1.test inflating: ml-100k/u2.base inflating: ml-100k/u2.test inflating: ml-100k/u3.base inflating: ml-100k/u3.test inflating: ml-100k/u4.base inflating: ml-100k/u4.test inflating: ml-100k/u5.base inflating: ml-100k/u5.test inflating: ml-100k/ua.base inflating: ml-100k/ua.test inflating: ml-100k/ub.base inflating: ml-100k/ub.test
[hadoop@master zeppelin]$ pwd /home/hadoop/data/zeppelin [hadoop@master zeppelin]$ ll total 4816 drwxr-x--- 2 hadoop hadoop 4096 Jan 30 2016 ml-100k -rw-rw-r-- 1 hadoop hadoop 4924029 Sep 2 11:00 ml-100k.zip [hadoop@master zeppelin]$ rm ml-100k.zip [hadoop@master zeppelin]$
得到
列出ml-100k文件列表
然后,在ml-100k Notebook新的段落中输入命令,如下
%sh
ls -l /home/hadoop/data/zeppelin/ml-100k
Zeppelin支持shell命令,就好像在终端输入命令一样。要输入shell命令,先输入%sh。
按Enter键后再输入命令。%sh主要功能是告诉Zeppelin的解释器(Interpreter),后续要输入的是shell命令。
也许,有些博友,会出现如下的错误
查看u.user
%sh
head /home/hadoop/data/zeppelin/ml-100k/u.user
运行后会显示u.user数据。字段是序号、年龄、职业、邮政编码。
也有博友可能,会出现这个问题