zoukankan      html  css  js  c++  java
  • oreilly《Flink基础教程》读后感一

    这本书是目前市面上唯一的一本关于flink的中文书。

    作者是flink的创始团队的核心成员弗里德曼,翻译者是阿里巴巴的员工王邵翔。

    这本书没有将flink的原理,API,具体用法等等,而是讲fink的使用场景、架构、用途,优势。应该说是非常适合入门和调研的一本书。

    书很薄,但我觉得很值。

    • 第一章、 为何选择Flink

    这章主要介绍Flink的使用场景,作为第四代大数据计算引擎,Flink具有很多优良的特性。基于同一组件和语义,既支持批处理又支持流处理。这点和spark有明显区别。

    我觉得在未来,Flink会替代spark。

    • 第二章、 流处理架构

    Flink的强项就是流处理。一切皆流。要真正使用Flink,必须依赖一个核心组件:分布式消息队列。

    目前主流、高性能、大数据业务的消息队列只有Kafka和MapR steam,前者我已经用了三年了。后者在API和基本使用方面复用了Kakka的接口,核心部分的实现原理不太一样。

    既支持批处理,又支持流处理。

    • 第三章、 Flink的用途

    Flink可以解决分布式数据库一致性问题,也能很好的处理需要低延迟的大数据计算挖掘分析应用。

    Flink并没有像spark那样把所有数据一股脑放到内存里面,而是巧妙的把部分核心数据放到内存里面。多线程是大量使用到。1.6版Flink,节点间通信使用的是netty和akka

    • 第四章、 对时间的处理

    在窗口处理方面,Flink比起spark streamming更加优越。

    Flink的流式计算窗口是基于事件的,也支持时间。而spark streaming是基于时间的,这回导致一系列的性能问题。

    目前看到这,还有很多原理细节需要理一理。

    -------------------------
    技术不在于多么高超先进巧妙,而在于要有现实价值!!!
  • 相关阅读:
    Tor网络突破IP封锁,爬虫好搭档【入门手册】
    ubuntu python3相关
    toutiao url
    处理跨域请求
    Python使用虚拟环境
    Python删除文件,空文件夹,非空文件夹
    如何在jupyter中使用Python2和Python3
    推荐使用国内的豆瓣源安装Python插件
    Python数据库查询之组合条件查询-F&Q查询
    获取Django项目的全部url
  • 原文地址:https://www.cnblogs.com/geektcp/p/9903618.html
Copyright © 2011-2022 走看看