Hive是基于HDFS的分布式数据仓库,可以说是Hadoop的一个插件工具,能够将HDFS结构化文件映射成数据库关系表
Hive最大的特点就是能够将类SQL语句转换成MapReduce,然后提交给Hadoop分布式执行。
使用Hive的使用跟MySQL有点类似,但是Hive不支持修改数据。
//删除表
DROP TABLE IF EXISTS WEBSITE; //创建外部表,并指定外部表数据文件位置
create EXTERNAL table DJ_ZDWZ_YMGX (id int, access_time bigint) row format delimited fields terminated by ' ' stored as textfile LOCATION 'hdfs://master:8020/tmp/kafkadata/YMGX/partition1'; //执行查询语句,并将查询结果写入HDFS
insert overwrite local directory '/home/tgl/q201' select DISTINCT a.id, a.ym, c.ip, d.ym from WEBSITE a, TJ c, JG d where a.id=c.id and c.ip=d.ip;