链接:https://zhuanlan.zhihu.com/p/91165577
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
Data lake这个术语由Pentaho公司的创始人兼首席技术官詹姆斯·狄克逊(James Dixon)提出,他对数据湖的解释是: 把你以前在磁带上拥有的东西倒入到数据湖,然后开始探索该数据。重要的只把需要的数据倒入到Hadoop;如果你想结合来自数据湖的信息和客户关系管理系统(CRM)里面的信息,我们就进行连接,只有需要时才执行这番数据结合。
While much has been said and written about the data lake, in the end, the concept has stayed pretty simple. The idea has been to use Hadoop as a place that data of all types could be stored in greater detail than ever before, at an affordable cost, and then used to power the existing data warehouse ecosystem and also perform new types of analytics.
James Dixon, the CTO of Pentaho and the creator of the term “data lake”, presents a challenge to the big data community in his blog “Union of the State - A Data Lake Use Case”. Dixon argues that it is time to start figuring out how to make the data lake a time machine for a business.
Here is his idea in a nutshell:
(1) Most of the applications in use capture the state of the enterprise in some way.
(2) A fraction of the changes to the state are captured via change logs.
(3) Dixon suggests to store all of enterprise data in a data lake and effectively create change logs for every field.
(4) In addition, Dixon suggests to capture behavioral data for how applications of all types were used.
(5) in this way the data lake comes a time machine that allows the state of the enterprise at any one moment to be captured and analyzed.
(6) The power to see what happened before and after important events will lead to even better predictive models and a deeper understanding of operations.
什么是数据湖
数据湖是一种在系统或存储库中以自然格式存储数据的方法,它有助于以各种模式和结构形式配置数据,通常是对象块或文件。数据湖的主要思想是对企业中的所有数据进行统一存储,从原始数据(源系统数据的精确副本)转换为用于报告、可视化、分析和机器学习等各种任务的目标数据。数据湖中的数据包括结构化数据(关系数据库数据),半结构化数据(CSV、XML、JSON等),非结构化数据(电子邮件,文档,PDF)和二进制数据(图像、音频、视频),从而形成一个容纳所有形式数据的集中式数据存储。
数据湖从本质上来讲,是一种企业数据架构方法,物理实现上则是一个数据存储平台,用来集中化存储企业内海量的、多来源,多种类的数据,并支持对数据进行快速加工和分析。从实现方式来看,目前Hadoop是最常用的部署数据湖的技术,但并不意味着数据湖就是指Hadoop集群。为了应对不同业务需求的特点,MPP数据库+Hadoop集群+传统数据仓库这种“混搭”架构的数据湖也越来越多出现在企业信息化建设规划中。
数据湖的就是原始数据保存区. 虽然这个概念国内谈的少,但绝大部分互联网公司都已经有了。国内一般把整个HDFS叫做数据仓库(广义),即存放所有数据的地方,而国外一般叫数据湖(data lake)
数据湖与数据仓库的区别
数据湖和数据仓库,就是原始数据和数仓模型的区别。
数据湖的关键概念
AWS data lake
Data Lake Analytics
Data Lake Analytics是Serverless化的交互式联邦查询服务。无需ETL,使用标准SQL即可分析与集成对象存储(OSS)、数据库(PostgreSQL/MySQL等)、NoSQL(TableStore等)数据源的数据
数据仓库也不断被行业中的新事物所冲击,例如大数据、机器学习和人工智能。这种趋势造成了数据仓库在企业IT优先级下降的印象。数据仓库一直作为企业核心工作服务,是几年前我觉得数据仓库远未消亡的原因,这也可能解释了为什么其他观察者认为他们必须重新定义数据仓库的概念,以使其在数据湖和云计算时代保持相关性。许多人认为“数据湖”正在迅速发展成为下一代数据仓库。对于那些不熟悉这个概念的人来说,数据湖是多结构数据的系统或存储库,它们以原始格式和模式存储,通常作为对象“blob”或文件存储。
单向湖,或者叫数据沼泽(data swamp )
搭建数据湖容易,但是让数据湖发挥价值是很难。最终数据湖只是一直往里面灌数据,而应用场景极少,没有输出或者极少输出,形成单向湖。
企业的业务是实时在变化的,这代表着沉积在数据湖中的数据定义、数据格式实时都在发生的转变,企业的大型数据湖对企业数据治理(Data Governance)提升了更高的要求。大部分使用数据湖的企业在数据真的需要使用的时候,往往因为数据湖中的数据质量太差而无法最终使用。数据湖,被企业当成一个大数据的垃圾桶,最终数据湖成为臭气熏天,存储在Hadoop当中的数据成为无人可以清理的数据沼泽.
中英文相关词汇
Data Lake
: 数据湖Data Swamp
: 数据沼泽Data Mart
: 数据集市Data Warehouse
: 数据仓库Data Cube
:数据立方体Data Stream
:数据流Data Virtualization
:数据虚拟化
数据河(Data River)
数据只有流动起来才可以产生价值。基于IOTA架构的数据河与数据湖组建企业内部的可流动的大数据水系,用数据驱动整个企业精益成长。
如何让大数据的水保持清亮不会成为数据沼泽?中国有句谚语:“流水不腐,户枢不蠹”。数据只有流动起来,才可以不成为数据沼泽,湖泊只是暂存数据河流的基地。数据流动就意味着所有的数据产生,最终要有它的耕种者和使用者。要让数据有效流动起来,就要建立有效的“数据河”(Data River)。
数据河(Data River)就是在由源头产生清晰干净的有效数据(去ETL化,数据源头业务就像生态水源一样,不让污水流下去),通过各个河流网,流向各个数据消费端的架构。
关于数据湖架构、战略和分析的8大错误认知
错误认知1:数据湖与数据仓库,必须二选一
人们普遍建议在数据湖和数据仓库之间二选一,但这是错误的。
错误认知2:数据仓库就是一个数据湖
这种想法会诱使你放弃数据湖,将所有数据都扔进数据仓库中。
错误认知3:数据湖只能用Hadoop来实现
你会经常发现有讨论和示例将数据湖等同于Hadoop或者Hadoop相关供应商技术栈,这会给人一种错觉:数据湖和Hadoop特定的技术紧密相关。
错误认知4:数据湖仅用于“存储”数据
在这种情况下,数据湖只是一个存储你所有数据的地方。你只需要所有数据放入数据湖,而后启用新的数据管理模型就可以大功造成,这就和将所有的文件都放进笔记本电脑上超大硬盘中的“无标题文件夹”一样。
错误认知5:数据湖仅存储“原始”数据
和错误认知2相关,“把所有数据都倒进数仓”的方法表示,数据湖不会增加价值,原因是只有原始数据驻留在数据湖中。他们主张:“如果数据湖只处理原始数据,那么就不用担心数据湖了,只需将所有的原始数据或者已被处理的数据转存至数仓中”。
错误认知6:数据湖仅适用于“大”数据
如果你花时间阅读过数据湖的相关资料,你会认为数据湖只有一种类型,看起来像里海(它是一个湖,尽管名字中有“海”)。人们将数据湖描述成一个庞大的、包容一切的实体,旨在保存所有的知识,因此只会有一个企业大数据湖或者大数据架构的同义词。
错误认知7:数据湖没有安全保障
错误认知8:数据湖会变成数据沼泽
曾有一篇文章评论数据湖最终会变成数据沼泽,因为它们只是存储,缺乏治理、管理,没有数据生命周期/保留策略,也没有元数据。