Delta Lake 学习

Delta Lake 学习
解决了什么问题

delta lake 是有 ACID 支持，有time travel... 对数据可以验证，不再需要 λ 架构

对事务的ACID支持，解决了spark job 可能会中间exception造成的不可预知状态. 比如 overwrite (delete+create) 模式下，删除了文件但是又没有创建新文件.

解决了HDFS很多小文件的问题

为什么一定要用它

传统data lake具有的问题

Delta Lake 是怎么解决λ 架构的问题的，从此不再用λ 架构. 方法就是用streaming job 来flow化管理整个流程，具体就是经历下图各个不同的阶段，这个streaming 可以是low letency的，也可以是每天一次的. 这样就不再需要scheduled job了，也不用考虑中间出错怎么办了，所有这些都由流程自动控制了

支持什么存储，对存储有什么要求?

Delta Lake 怎么处理streaming

https://www.wtwjasa.com/simplifying-streaming-stock-analysis-using-delta-lake-and-apache-spark-on-demand-webinar-and-faq-now-available/

Ref：
1. https://docs.delta.io/latest/quick-start.html
2. Boston Spark Meetup @ Wayfair / Delta Lake: Open Source Reliability and Quality for Data Lakes
3. https://www.youtube.com/watch?v=cpA3Ni8ZUPI&feature=youtu.be Building Data Intensive Analytic Application on Top of Delta Lakes
4. Delta Lake for Apache Spark - Why do we need Delta Lake for Spark? https://www.youtube.com/watch?v=0GhFAzN4qs4
5. 基于 Delta Lake 建立 ML pipeline (包含 bronze, silver, gold table) https://databricks.com/blog/2019/08/14/productionizing-machine-learning-with-delta-lake.html
转载请注明出处 http://www.cnblogs.com/mashuai-191/
查看全文

相关阅读:
forever让nodejs应用后台执行
 CentOS 程序开机自启动方法总结
 Centos7下配置Redis开机自启动
 Centos 关闭后台进程 .sh 等
 unity htc vive使用
 Linux登录验证机制、SSH Bruteforce Login学习
 Aho-Corasick算法、多模正则匹配、Snort入门学习
 The Honeynet ProjectThe Honeynet Project
DEDECMS数据库执行原理、CMS代码层SQL注入防御思路
 PHP内核源代码、PHP Zend扩展、API Hook学习笔记

原文地址：https://www.cnblogs.com/mashuai-191/p/12425094.html

解决了什么问题

为什么一定要用它

支持什么存储，对存储有什么要求?

Delta Lake 怎么处理streaming