Hadoop IO操作之基于文件的数据结构

zoukankan html css js c++ java

Hadoop IO操作之基于文件的数据结构

　　HDFS和MR主要针对大数据文件来设计，在小文件处理上效率低.解决方法是选择一个容器,将这些小文件包装起来,将整个文件作为一条记录,可以获取更高效率的储存和处理,避免多次打开关闭流耗费计算资源.hdfs提供了两种类型的容器 SequenceFile和MapFile。
小文件问题的解决方案：

　　在原有HDFS基础上添加一个小文件处理模块，具体操作流程如下:
　　-当用户上传文件时，判断该文件是否属于小文件，如果是，则交给小文件处理模块处理，否则，交给通用文件处理模块处理。在小文件模块中开启一定时任务，其主要功能是当模块中文件总size大于HDFS上block大小的文件时，则通过SequenceFile组件以文件名做key，相应的文件内容为value将这些小文件一次性写入hdfs模块。
　　-同时删除已处理的文件，并将结果写入数据库。
　　-当用户进行读取操作时，可根据数据库中的结果标志来读取文件。

　　Sequence file由一系列的二进制key/value组成，如果key为小文件名，value为文件内容，则可以将大批小文件合并成一个大文件。Hadoop-0.21.0版本开始中提供了SequenceFile，包括Writer，Reader和SequenceFileSorter类进行写，读和排序操作。该方案对于小文件的存取都比较自由，不限制用户和文件的多少，支持Append追加写入，支持三级文档压缩（不压缩、文件级、块级别）。其存储结构如下图所示：

　　

　　后面会专门对Sequence file 和 Mapfile做分析。

查看全文

相关阅读:
火车头入库SQLSERVER时数据库配置的问题
 帝国CMS在封面、列表调用栏目别名的方法
 电子商务关键数字优化（线上部分，下）
电子商务关键数字优化（线上部分，上）
创业公司Celebrity Performance 评估名人影响力
 SQLautoReview
互联网/电子商务数据分析师的十大误区
 Amazon Silk 你所不知道的在Kindle背后的大数据
 Nike可穿戴的大数据玩法
 [转]Decide.com是怎么做商品价格预测的

原文地址：https://www.cnblogs.com/1iHu4D0n9/p/8361032.html