zoukankan html css js c++ java

自定义hive文件和记录格式及文本文件数据编码

（1）一段建表语句：

[ROW FORMAT row_format] 
[STORED AS file_format] 
| STORED BY 'storage.handler.class.name' 
[WITH SERDEPROPERTIES (...)] -- (Note: Available in Hive 0.6.0 and later) ] 

row_format : 
：DELIMITED 
 [FIELDS TERMINATED BY char [ESCAPED BY char]] 
 [COLLECTION ITEMS TERMINATED BY char] 
 [MAP KEYS TERMINATED BY char] 
 [LINES TERMINATED BY char]
 [NULL DEFINED AS char] -- (Note: Available in Hive 0.13 and later) 
　　| SERDE serde_name [WITH SERDEPROPERTIES (property_name=property_value, property_name=property_value, ...)] 

file_format: 
: SEQUENCEFILE 
| TEXTFILE -- (Default, depending on hive.default.fileformat configuration) 
| RCFILE -- (Note: Available in Hive 0.6.0 and later) 
| ORC -- (Note: Available in Hive 0.11.0 and later) 
| PARQUET -- (Note: Available in Hive 0.13.0 and later) 
| AVRO -- (Note: Available in Hive 0.14.0 and later) 
| INPUTFORMAT input_format_classname OUTPUTFORMAT output_format_classname

（2）根据建表语句逐层展开：hive的存储形式，引申思考下行式存储、列式存储的在读取时的优劣

hive表数据在存储在文件系统上的，因此需要有文件存储格式来规范化数据的存储，一边hive写数据或者读数据。hive有一些已构建好的存储格式，也支持用户自定义文件存储格式。主要由两部分内容构成file_format和row_format,两者息息相关。

（3）文件格式：TEXTFILE,SEQUENCEFILE,RCFILE 及自定义输入格式DuallnputFormat

（4）记录格式：SerDe

（5）CSV和TSV SerDe

SerDe is a short name for "Serializer and Deserializer."
Hive uses SerDe (and FileFormat) to read and write table rows.
HDFS files --> InputFileFormat --> <key, value> --> Deserializer --> Row object
Row object --> Serializer --> <key, value> --> OutputFileFormat --> HDFS files

load数据时根据表的文件格式及分割方式直接写入存储，读时校验数据

hive的读时模式与传统关系型数据库写入模式的差异

查看全文

相关阅读:
其实说起来要国庆节回去，心里有点担心再最后买不到票
 现在快要中秋节，之后又是国庆节
 天气开始降温，今天会下雨
 昨天晚上控制家里的电脑，与家里人视频
 有时候手机打开微信或者其它应用真的是非常慢
 手机有时候卡的不行，还是自己照顾着使用吧
 这几天晚上都是再看小别离，还是有点意思
 函数初识
 Python文件操作
 Python字符编码

原文地址：https://www.cnblogs.com/guapiwangxi/p/10567654.html