HDFS文件和HIVE表的一些操作

zoukankan html css js c++ java

HDFS文件和HIVE表的一些操作
1. hadoop fs -ls 可以查看HDFS文件

后面不加目录参数的话，默认当前用户的目录。/user/当前用户
$ hadoop fs -ls 16/05/19 10:40:10 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable Found 3 items drwxr-xr-x - yy yy 0 2016-04-24 08:00 .Trash drwx------ - yy yy 0 2016-05-06 06:00 .staging drwxr-xr-x - yy yy 0 2016-05-06 06:00 oozie-oozi
也可以加目录，显示指定目录的HDFS文件。
$ hadoop fs -ls /user/yy 16/05/19 10:44:07 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable Found 3 items drwxr-xr-x - yy yy 0 2016-04-24 08:00 /user/yy/.Trash drwx------ - yy yy 0 2016-05-06 06:00 /user/yy/.staging drwxr-xr-x - yy yy 0 2016-05-06 06:00 /user/yy/oozie-oozi
2. hadoop fs -mkdir 可以创建文件夹
$ hadoop fs -mkdir upload　
hadoop fs –rmr 可以删除文件夹/文件

3. hadoop fs -put 可以上传本机的HDFS文件
hadoop fs -put pc/* upload
hadoop fs -get 可以把HDFS的文件下载到本机
hadoop fs -put upload/collect_20160518.txt /home/yy
4. hadoop fs -cat 可以读取HDFS文件
$ hadoop fs -cat upload/collect_20160515.txt|head -10
5. HDFS 和hive表

external 外部分区表：

1）HDFS文件，要按分区存储，比如下面，分区为dt，对应的是2016-05-19下面的文件。

/user/yy/upload/wireless/2016-05-19

2）创建external表指向该存储（分区的上一层）
drop table if exists external_weblog_wireless; create external table external_weblog_wireless ( thedate string, time_stamp string, url_title string ) partitioned by (dt string) row format delimited fields terminated by ',' stored as textfile location '/user/yy/upload/wireless/';
3）添加新分区，指向分区目录
alter table external_weblog_wireless add partition (dt='2016-05-19') location '/user/yy/upload/wireless/2016-05-19';
4) 这种外部表分区存储，很适合增量数据。

external外部非分区表：

直接指向存储的最终location，建表即生成了数据表。
drop table if exists external_weblog_wireless; create external table external_weblog_wireless ( thedate string, time_stamp string, url_title string ) partitioned by (dt string) row format delimited fields terminated by ',' stored as textfile location '/user/yy/upload/wireless/2016-05-19';
6. hive 表导出（待补充）

注意：
1. hadoop fs 和hdfs dfs 作用一样。都可以在本机上查看HDFS文件。
2. HDFS下的文件可以压缩存储，这样能够减少表查询时对Hadoop集群的IO。
压缩可以按正常的linux压缩，比如 tar -zvcf，.tar.gz

也可以按hadoop的格式压缩。

压缩后，跟普通文件一样上传即可。

3. 常用的几个查询tips

查看分区： show partitions 表名;

查看创表语句：show create table 表名；

7. 提交MAPREDUCE JOB

原则上说，Hadoop所有的MapReduce Job都是一个jar包。

运行一个/home/admin/hadoop/job.jar的MapReduce Job
1. 进入HADOOP_HOME目录。
2. 执行sh bin/hadoop jar /home/admin/hadoop/job.jar [jobMainClass] [jobArgs]
8. 杀死某个正在运行的JOB

假设Job_Id为：job_201005310937_0053
1. 进入HADOOP_HOME目录。
2. 执行sh bin/hadoop job -kill job_201005310937_0053
查看全文

相关阅读:
CV baseline之VGG
CV baseline之Alexnet
Colab踩得坑
 CV baseline之ResNet
轻量模型之Distilling the Knowledge in a Neural Network
轻量模型之Xception
用Rapidminer做文本挖掘的应用：情感分析
 R语言缺失值的处理：线性回归模型插补
 R语言如何解决线性混合模型中畸形拟合(Singular fit)的问题
 数据类岗位需求的数据面

原文地址：https://www.cnblogs.com/skyEva/p/5508381.html

HDFS文件和HIVE表的一些操作

1. hadoop fs -ls 可以查看HDFS文件

2. hadoop fs -mkdir 可以创建文件夹

3. hadoop fs -put 可以上传本机的HDFS文件

4. hadoop fs -cat 可以读取HDFS文件

5. HDFS 和hive表

6. hive 表导出（待补充）

注意：

7. 提交MAPREDUCE JOB

8. 杀死某个正在运行的JOB