2、小文件问题解决 - 走看看

zoukankan html css js c++ java

2、小文件问题解决
避免mapper开启过多，导致导致的资源错配，

　　1、hive小文件问题

　　2、mr编程小文件问题

1、hive中的小文件问题

通过shell，产生100个小文件，目录 one100
[centos@s101 ~/one00]$ for((x=1;x<=100;x+=1)); do echo $x,tom$x,$x > $x.txt; done
建表
create table one100(id int,name string,age int)row format delimited fields terminated by ',';
load数据到表one100中
load data local inpath 'one00/*' into table one100;
配置：
set mapred.max.split.size；
默认256000000，每个map切片的最大值
set mapred.min.split.size.per.node;
默认1，每个节点切片的最小值
set mapred.min.split.size.per.rack;
每个机架切片的最小值
set hive.input.format;
默认org.apache.hadoop.hive.ql.io.CombineHiveInputFormat，hive输入格式

注意：第一个配置决定最终切片大小，间接决定mapper数，测试时，当以非本地模式运行时，才能看出实际有多少个map数

2、hadoop通过CombineTextinputFormat解决小文件问题
//设置组合文件输入格式，放置大量小文件。 job.setInputFormatClass(CombineTextInputFormat.class); CombineTextInputFormat.setMaxInputSplitSize(job , 200);　　//聚合文本输入个数的最大切片大小，单位字节
　　hadoop中默认是 TextInputFormat
渐变 --> 突变
查看全文

相关阅读:
爬取1907条『课程学习』数据，分析哪类学习资源最受大学生青睐
 以『B站』为实战案例！手把手教你掌握爬虫必备框架『Scrapy』
python爬取各类基金数据，以『动图可视化』方式展示基金的涨跌情况
 详细实战教程！部署Flask网站+域名访问+免费https证书
 王者荣耀白晶晶皮肤1小时销量突破千万！分析网友评论我发现了原因
 python爬取『大年初一』热映电影，以『可视化及词云秀』方式带你了解热映电影...
python爬取44130条用户观影数据，分析挖掘用户与电影之间的隐藏信息！
Nanopore sequencing and assembly of a human genome with ultra-long reads
Genome Sequencing and Assembly by Long Reads in Plants
SiLiCO: A Simulator of Long Read Sequencing in PacBio and Oxford Nanopore

原文地址：https://www.cnblogs.com/lybpy/p/9710643.html

Copyright © 2011-2022 走看看