1.基本概念
数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持。数据仓库是存数据的,企业的各种数据都往里面存,主要目的是分析有效数据,后续会基于它产出供分析挖掘的数据。
2.数据仓库的分层架构
------------恢复内容开始------------
1.基本概念
数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持。数据仓库是存数据的,企业的各种数据都往里面存,主要目的是分析有效数据,后续会基于它产出供分析挖掘的数据。
2.数据仓库的分层架构
3.Hive的概念
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能
其本质是将SQL转换成MapReduce的任务进行运算,底层是由HDFS来提供数据的存储,说白了hive可以理解为一个将SQL转换成MapReduce的任务的工具。
4.Hive的架构
5.Hive的交互方式
进入Hive的安装目录下的bin,目录,运行hive命令
show databases:查看所有数据库
cerate database if not exists mydatabase:如果mydatabase数据库不存在就创建
use mydatabase:使用mydatabase数据库
create table:创建表
不进入Hive的客户端直接执行hive的hql语句
或者将hql语句写成一个sql脚本,然后运行