zoukankan      html  css  js  c++  java
  • 【慕课网实战】Spark Streaming实时流处理项目实战笔记七之铭文升级版

    铭文一级:

    第五章:实战环境搭建

    Spark源码编译命令:
    ./dev/make-distribution.sh
    --name 2.6.0-cdh5.7.0
    --tgz
    -Pyarn -Phadoop-2.6
    -Phive -Phive-thriftserver
    -Dhadoop.version=2.6.0-cdh5.7.0

    铭文二级:

    第五章:实战环境搭建(所有都配置到环境变量)

    1、Scala的安装:Download->previous releases   //课程使用2.11.8

    2、Maven的安装:Download->archives->binaries   //课程使用3.3.9

    修改settings.xml的默认仓库地址

    3、下载hadoop的安装包(CDH5的地址里有)

    生成ssh公钥指令:ssh-keygen -t rsa

    拷贝公钥:cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys

    解压hadoop安装包:

    etc/hadoop目录下6个配置文件需要修改(*#*  //对应name与value配对):

    配置文件第一部分(4个):

    hadoop.env.sh  //修改java_home地址

    core-site.xml   /*     fs.defaultFS#hdfs://hadoop000:8020     hadoop.tmp.dir#/home/hadoop/app/tmp      */

    hdfs-site.xml   //副本系数自行设置: dfs.replication#1  

    slaves       //修改主机localhost为hadoop000       

    修改完这四个文件可以格式化hadoop:

    进入hadoop目录的bin目录,执行:./hadoop namenode -format

    配置到环境变量

    到sbin目录下:./start-dfs.sh     //hadoop000:50070

    配置文件第二部分(2个):

    mapred-site.xml  //cp一份模板出来 运行在yarn上:mapreduce.framework.name#yarn

    yarn-site.xml  //整合mapreduce:yarn.nodemanager.aux-services#mapredue-shuffle

    到sbin目录下:./start-yarn.sh     //hadoop000:8088

    hadoop fs -ls /

    hadoop fs -mkdir /data

    hadoop fs -put $FILE /data/

    hadoop fs -test $FILE      //查看详细内容 

    运行一个内置的example测试hadoop环境是否安装成功=>

    hadoop目录下有share/hadoop/mapreduce(在这目录下运行?是的)

    hadoop jar $example那个jar包 pi 2 3

    刷新yarn界面可观察到有内容提交上去

    4、Hbase的安装(CDH5网址可以下载1.2.0版本)

    需要修改三个配置文件:

    hbase.env.sh  //A.java_home、B.解开ZK,并设置为false,不用hbase默认的zk来管理

    hbase-site.xml //与hadoop-site.xml做比较

    A.hbase.rootdir#hdfs://hadoop000:8020/hbase

    B.hbase.cluster.distributed#true

    C.hbase.zookeeper.quorum#hadoop000:2181

    regionservers   //修改为hadoop000,与hadoop的slaves类似

    启动:先启动zookeeper与hadoop的dfs,再启动hbase,bin目录下: ./start-hbase.sh

    hadoop000:60010为默认UI端口

    使用(单词不会或者忘了可以按tab键提示):./hbase shell

    查看版本:version

    查看状态:status

    建表:create 'member','info','address'

    查看所有表:list

    查看表的详细内容:describe 'member'

    5、Spark环境搭建,具体操作看笔记一的铭文二、铭文四或者:https://www.imooc.com/article/18419

    bin目录下./spark-shell --master local[2]    //默认UI端口为:hadoop000:4040

    IDEA搭建maven的Spark Streaming环境,在原有的基础上:

    1.添加三个version:

    spark.version:2.2.0

    hadoop:2.6.0-cdh5.7.0

    hbase:1.2.0-cdh5.7.0

    2.因为使用cdh5,所以要引入cdh5仓库<repositories><repository>:

    id#可以自己取

    url#http://repository.cloudera.com/artifactory/cloudera-repos

    3.添加四个dependency://单个依赖实际是包含了很多的依赖,否则自己一个一个地引入非常地麻烦

    groupId#org.apache.*

    artifactId#hadoop-client、hbase-client、hbase-server、spark-streaming_2.11

    version#//${相对于的引入即可}

    ps:spark-streaming_2.11可在官网文档

    Programming Guides->Spark Streaming->拉下:Basic Concepts看到,直接引入即可

    最后可以rebuild 一下maven项目(菜单栏或者右键即可)

  • 相关阅读:
    Python 于 webgame 的应用(上)
    TCP Nagle剖析
    配置Windows下的Git 服务器简易教程
    程序员的绘图利器 — Graphviz
    patch的制作和使用
    PyCon China 2012,我们上海见!
    Python 于 webgame 的应用(下)
    TCP接收缓存大小的动态调整
    TCP的TSO处理
    上传压死下载 & 常见TCP选项
  • 原文地址:https://www.cnblogs.com/kkxwz/p/8366348.html
Copyright © 2011-2022 走看看