zoukankan      html  css  js  c++  java
  • hadoop 支持 LZO 压缩配置

    1)hadoop 本身并不支持 lzo 压缩,故需要使用 twitter 提供的 hadoop-lzo 开源组件。hadoop
    lzo 需依赖 hadoop 和 lzo 进行编译,编译步骤如下。
    编译参照:
    2)将编译好后的 hadoop-lzo-0.4.20.jar 放入 hadoop-3.1.3/share/hadoop/common/
    3)同步 hadoop-lzo-0.4.20.jar 到 hadoop103、hadoop104
    xsync hadoop-lzo-0.4.20.jar
    4)core-site.xml 增加配置支持 LZO 压缩
    <configuration>
    <property>
    <name>io.compression.codecs</name>
    <value>
    org.apache.hadoop.io.compress.GzipCodec,
    org.apache.hadoop.io.compress.DefaultCodec,
    org.apache.hadoop.io.compress.BZip2Codec,
    org.apache.hadoop.io.compress.SnappyCodec,
    com.hadoop.compression.lzo.LzoCodec,
    com.hadoop.compression.lzo.LzopCodec
    </value>
    </property>
    <property>
    <name>io.compression.codec.lzo.class</name>
    <value>com.hadoop.compression.lzo.LzoCodec</value>
    </property>
    </configuration>
    5)同步 core-site.xml 到 hadoop103、hadoop104
    xsync core-site.xml
    6)启动及查看集群
    [atguigu@hadoop102 hadoop-3.1.3]$ sbin/start-dfs.sh
    [atguigu@hadoop103 hadoop-3.1.3]$ sbin/start-yarn.sh
    7) 安装成功后进行测试

    在命令行中使用lzo 压缩,相关参数可以到官网查找:

    https://hadoop.apache.org/docs/stable/hadoop-mapreduce-client/hadoop-mapreduce-client-core/mapred-default.xml

    hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount -Dmapreduce.output.fileoutputformat.compress=true -Dmapreduce.output.fileoutputformat.compress.codec=
    com.hadoop.compression.lzo.LzoCodec /input /output111

    LZO创建索引

    1)创建LZO文件的索引,LZO压缩文件的可切片特性依赖于其索引,故我们需要手动为LZO压缩文件创建索引。若无索引,则LZO文件的切片只有一个。

    hadoop jar /path/to/your/hadoop-lzo.jar com.hadoop.compression.lzo.DistributedLzoIndexer big_file.lzo

    2)测试

    1)将bigtable.lzo200M)上传到集群的根目录

    2)执行wordcount程序

    hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount -Dmapreduce.job.inputformat.class=com.hadoop.mapreduce.LzoTextInputFormat /input /output1

    (3)对上传的LZO文件建索引

    hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/common/hadoop-lzo-0.4.20.jar  com.hadoop.compression.lzo.DistributedLzoIndexer /input/bigtable.lzo

    (4)再次执行WordCount程序

    hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount -Dmapreduce.job.inputformat.class=com.hadoop.mapreduce.LzoTextInputFormat /input /output2

    3)注意:如果以上任务,在运行过程中报如下异常

    Container [pid=8468,containerID=container_1594198338753_0001_01_000002] is running 318740992B beyond the 'VIRTUAL' memory limit. Current usage: 111.5 MB of 1 GB physical memory used; 2.4 GB of 2.1 GB virtual memory used. Killing container.

    Dump of the process-tree for container_1594198338753_0001_01_000002 :

    解决办法:在hadoop102/opt/module/hadoop-3.1.3/etc/hadoop/yarn-site.xml文件中增加如下配置,然后分发到hadoop103hadoop104服务器上,并重新启动集群。

    <!--是否启动一个线程检查每个任务正使用的物理内存量,如果任务超出分配值,则直接将其杀掉,默认是true -->
    
    <property>
    
       <name>yarn.nodemanager.pmem-check-enabled</name>
    
       <value>false</value>
    
    </property>
    
    <!--是否启动一个线程检查每个任务正使用的虚拟内存量,如果任务超出分配值,则直接将其杀掉,默认是true -->
    
    <property>
    
       <name>yarn.nodemanager.vmem-check-enabled</name>
    
       <value>false</value>
    
    </property>
  • 相关阅读:
    Java HashMap存储问题
    <转>堆和栈的区别
    Linux shell命令
    DNS(三)DNS SEC(域名系统安全扩展)
    DNS (二)协议
    绕过CDN查找网站真实IP方法
    stream流思想应用
    http接口实现附件对接
    AQS深入分析
    AQS快速入门
  • 原文地址:https://www.cnblogs.com/knighterrant/p/15087013.html
Copyright © 2011-2022 走看看