zoukankan      html  css  js  c++  java
  • 数据湖

    浅析数据湖技术及其应用

    司宇明

    摘要:随着大数据、人工智能、云计算、物联网等数字化技术的普及和广泛应用,传统的数据仓库模式,在快速发展的企业面前已然显得力不从心。数据湖,是可以容纳大量的原始数据的存储库和处理系统,已经成为企业应用大数据的重要工具。数据湖可以更好地支撑数据预测分析、跨领域分析、主动分析、实时分析以及多元化结构化数据分析,可以加速从数据到价值的过程,打造相应业务能力。而有效的数据治理才是数据资产形成的必要条件,同时数据治理是一个持续性过程,也是数据湖逐步实现数据价值的过程。未来在多方技术趋于融合,落地场景将不断创新,数据湖、数据治理或将成为新的技术热点。

     

    数据湖(Data Lake)概念最早是2011年由CITO Research网站的CTO和作家Dan Woods所提出,其比喻是:如果我们把数据比作大自然的水,那么各个江川河流的水未经加工,源源不断地汇聚到数据湖中。维基百科上定义,数据湖(Data Lake)是一个以原始格式存储数据的存储库或系统。它按原样存储数据,而无需事先对数据进行结构化处理。一个数据湖可以存储结构化数据(如关系型数据库中的表),半结构化数据(如CSV、日志、XMLJSON),非结构化数据(如电子邮件、文档、PDF)和二进制数据(如图形、音频、视频)。

    但是随着大数据技术的融合发展,数据湖不断演变,汇集了各种技术,包括数据仓库、实时和高速数据流技术、数据挖掘、深度学习、分布式存储和其他技术。逐渐发展成为一个可以存储所有结构化和非结构化任意规模数据,并可以运行不同类型的大数据工具,对数据进行大数据处理、实时分析和机器学习等操作的统一数据管理平台。

    一、数据湖技术与数据仓库技术的差异

    数据仓库是一个优化的数据库,用于分析来自事务系统和业务线应用程序的关系数据。事先定义数据结构和 Schema 以优化快速 SQL 查询,其中结果通常用于操作报告和分析。数据经过了清理、丰富和转换,因此可以充当用户可信任的“单一信息源”。

    数据湖有所不同,因为它存储来自业务线应用程序的关系数据,以及来自移动应用程序、IoT 设备和社交媒体的非关系数据。捕获数据时,未定义数据结构或 Schema。这意味着您可以存储所有数据,而不需要精心设计也无需知道将来您可能需要哪些问题的答案。您可以对数据使用不同类型的分析(如 SQL 查询、大数据分析、全文搜索、实时分析和机器学习)来获得见解。

     

    特性

    数据仓库

    数据湖

    数据

    来自事务系统、运营数据库和业务线应用程序的关系数据

    来自 IoT 设备、网站、移动应用程序、社交媒体和企业应用程序的非关系和关系数据

    Schema

    设计在数据仓库实施之前(写入型 Schema

    写入在分析时(读取型 Schema

    性价比

    更快查询结果会带来较高存储成本

    更快查询结果只需较低存储成本

    数据质量

    可作为重要事实依据的高度监管数据

    任何可以或无法进行监管的数据(例如原始数据)

    用户

    业务分析师

    数据科学家、数据开发人员和业务分析师(使用监管数据)

    分析

    批处理报告、BI 和可视化

    机器学习、预测分析、数据发现和分析

     

     

    二、河北创新大数据平台

    该平台采用软件体系架构中的过滤器模式,围绕数据库建设,通过采编、征集、统计等途径聚集数据,然后经过清洗、加工、导入等处理汇入数据仓库,构建科技创新数据库集群。围绕服务,通过软件系统研发构建科技创新大数据综合服务网络平台,面向政府部门、创新主体、研发人员等各类群体,开展智库检索、辅助决策、智能推送、定制服务、决策分析、可视化展示等网络信息服务。通过数据访问接口,数据库集群为平台服务提供各类数据支撑和保障。

    首先是数据层,通过科技统计、资源调查、需求征集等方法将数据分散存放到信息层面进行信息存储,然后将数据存放到数据缓冲区进行数据汇总,集中存储源数据用于抽取、清洗、筛选、转换、入库,然后将数据转移到数据仓库进行整合仓储供企业进行统计分析、趋势预测、行业监测、信息跟踪等功能。整个流程将河北创新大数据平台分为三个子系统。分别是科技业务应用集成子系统、管理决策支撑子系统、科技资源信息服务子系统、缓冲层管理子系统、数据仓库管理子系统。这些子系统中往下还有子分层。这些子系统就构成了一个大数据平台。

     

    三、系统中如何采用数据湖技术进行数据管理

    数据湖对一个企业的数字化转型和可持续发展起着至关重要的作用。构建开放、灵活、可扩展的企业级统一数据管理和分析平台, 将企业内、外部数据随需关联,打破了数据的系统界限。

     

    1)利用数据湖智能分析、数据可视化等技术,实现了数据共享、日常报表自动生成、快速和智能分析,满足企业各级数据分析应用需求。

    2)深度挖掘数据价值,助力企业数字化转型落地。实现了数据的目录、模型、标准、认责、安全、可视化、共享等管理,实现数据集中存储、处理、分类与管理,实现报表生成自动化、数据分析敏捷化、数据挖掘可视化,实现数据质量评估、落地管理流程。

    数据湖的数据治理体系包括元数据管控、数据资源目录、主数据管控、数据服务、数据全生命周期管理、数据质量提升及隐私与安全管理等内容。而这只是数据湖管理难题的一部分。考虑全面的数据湖治理,包括是谁引入的数据、谁负责数据,以及数据的定义,以确保数据的妥善标记和使用,实现对企业数据资源内容层面的优化改造和有效管控。

  • 相关阅读:
    Node.js入门 Hello World
    Select自动下拉实现
    js从url截取参数(简写)
    如何关闭SQL Server受影响行数
    适用于多种查询结果集的分页(不要存储过程,简单易懂)
    单条件存储过程分页(SQL Server)&WS调用(只是其中一种 实现的方法还有很多)
    Simple Package Tool 学习
    Python try/except/finally等
    Python os.path模块
    《UVM实战》代码示例
  • 原文地址:https://www.cnblogs.com/Aming-/p/14941161.html
Copyright © 2011-2022 走看看