zoukankan      html  css  js  c++  java
  • 数据仓库和数据湖

    早期的数据库系统的设计目标是事务处理。数据库系统是为记录更新和事务处理而设计,数据的访问的特点是基于主键,大量原子,隔离的小事务,并发和可恢复是关键属性,最大事务吞吐量是关键指标,因此数据库的设计都反映了这些需求。

    数据仓库的设计目标是决策支持。历史的,摘要的,聚合的数据比原始的记录重要的多。查询负载主要集中在即席查询和包含连接,聚合等操作的复杂查询。
    数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。

     

    数据仓库是一个优化的数据库,用于分析来自事务系统和业务线应用程序的关系数据。事先定义数据结构和 Schema 以优化快速 SQL 查询,其中结果通常用于操作报告和分析。数据经过了清理、丰富和转换,因此可以充当用户可信任的“单一信息源”。

    数据湖有所不同,因为它存储来自业务线应用程序的关系数据,以及来自移动应用程序、IoT 设备和社交媒体的非关系数据。捕获数据时,未定义数据结构或 Schema。这意味着您可以存储所有数据,而不需要精心设计也无需知道将来您可能需要哪些问题的答案。您可以对数据使用不同类型的分析(如 SQL 查询、大数据分析、全文搜索、实时分析和机器学习)来获得见解。

     

    数据仓库

    数据湖

    数据

    来自事务系统、运营数据库和业务线应用程序的清洗过结构化数据

    来自 IoT 设备、网站、移动应用程序、社交媒体和企业应用程序的原始数据

    架构

    设计在数据仓库实施之前(写入型 Schema)。在存储数据之前定义架构。这需要您清理和规范化数据,这意味着架构的灵活性要低得多。

    准备使用数据时,就给它一个定义(读取型 Schema)。在存储数据后定义架构。这需要较少的初始工作并提供更大的灵活性

    性价比

    更快查询结果会带来较高存储成本

    更快查询结果只需较低存储成本

    数据质量

    可作为重要事实依据的高度监管数据

    任何可以或无法进行监管的数据(例如原始数据)

    用户

    业务分析师

    数据科学家、数据开发人员和业务分析师(使用监管数据)

    分析

    批处理报告、BI 和可视化

    机器学习、预测分析、数据发现和分析

    优点

    高并发

    快速响应

    干净、安全的数据

    多数据源集成

    转换一次,多次使用

    数据存储:大容量低成本

    数据保真度:数据湖以原始的格式保存数据

    数据使用:数据湖中的数据可以方便的被使用

    延迟绑定:数据湖提供灵活的,面向任务的数据绑定,不需要提前定义数据模型



  • 相关阅读:
    IntelliJ IDEA 中自定义模板代码的缩写
    小猪评《101次求婚》——屌丝是否能够逆袭女神
    C#委托的理解
    ASP.NET MVC权限验证
    ASP.NET MVC 中表单的Encode及Decode
    JQuery方式验证表单和AJAX提交
    C# LIST 的各种加减
    小猪决定做一件尝试
    ASP.NET 将excel导入 sql server
    从客户端XXX中检测到有潜在危险的 Request.Form值——终极解决方案
  • 原文地址:https://www.cnblogs.com/linn/p/12058627.html
Copyright © 2011-2022 走看看