zoukankan      html  css  js  c++  java
  • 奈学:数据湖和数据仓库的区别有哪些?

    储存方面:数据湖中数据为非结构化的,所有数据都保持原始形式;存储所有数据,并且仅在分析时再进行转换。数据仓库就是数据通常从事务系统中提取,在将数据加载到数据仓库之前,会对数据进行清理与转换。

     

    数据组织形式:数据湖就是捕获半结构化和非结构化数据。而数据仓库则是捕获结构化数据并将其按模式组织。

     

    用途:数据湖的目的就是数据湖非常适合深入分析的非结构化数据。数据科学家可能会用具有预测建模和统计分析等功能的高级分析工具。而数据仓库就是数据仓库非常适用于月度报告等操作用途,因为它具有高度结构化。

     

    Schema:数据湖通常在存储数据之后定义schema,使用较少的初始工作并提供更大的灵活性。在数据仓库中存储数据之前定义schema,这需要你清理和规范化数据,这意味着schema的灵活性要低不少。

     

    本文来源于:奈学开发者社区

  • 相关阅读:
    hbase
    spark-streaming
    spark-Scala
    经典台词二
    星爷电影经典台词一
    Hadoop第一阶段总结
    测试2
    POI 表格数据导出
    GC垃圾回收机制
    Java常见的200道面试题
  • 原文地址:https://www.cnblogs.com/Jss-forever/p/13204558.html
Copyright © 2011-2022 走看看