zoukankan      html  css  js  c++  java
  • 大数据学习路线

    序言

    在学习大数据之前,先要了解他解决了什么问题,能给我们带来什么价值。

    大数据体系

    第一阶段:Linux和高并发


    第二阶段:Hadoop生态体系


    第三阶段:Strom流式计算


    第四阶段:Spark计算框架体系


    第五阶段:机器学习和算法体系


    第六阶段:Flink实时计算体系


    第七阶段:平台架构师课程体系

    Hadoop、Storm、Spark、Flink的区别

    在开源世界里, Apache Storm 项目(以下简称 Storm)是流处理先锋。 Storm 最早由 Nathan Marz 和创业公司 BackType(后来被 Twitter 收购)的一个团队开发,后来 才被 Apache 软件基金会接纳。 Storm 提供了低延迟的流处理,但是它为实 时性付出了一些代价:很难实现高吞吐,并且其正确性没能达到通常所需 的水平。换句话说,它并不能保证 exactly-once;即便是它能够保证的正确 性级别,其开销也相当大。

    HADOOP和spark

    spark会替代Hadoop的一部分,会替代Hadoop的计算框架,如mapReduce、Hive查询引擎,但spark本身不提供存储,所以spark不能完全替代Hadoop。

    Spark被认为是大数据的3G,而Flink则被视为大数据的4G。

    Storm和spark

    通常在对实时性要求特别高,而且实时数据量不稳定,比如在白天有高峰期的情况下,可以选择使用Storm。

    但是如果是对实时性要求一般,允许1秒的准实时处理,而且不要求动态调整并行度的话,选择Spark Streaming是更好的选择。

    资料

    尚学堂大数据

  • 相关阅读:
    Java mysql数据库连接Demo1
    java JDBC编程流程步骤
    spring boot定时任务
    mysql分页
    mysql limit 偏移量过大效率解决方式 转贴
    svn both sides of the move must be committed together
    An invalid property 'jdbcType ' was found in mapping
    JSON高亮格式化页面显示
    nprogress 转
    org.apache.commons工具类方法解释 转
  • 原文地址:https://www.cnblogs.com/cnki/p/5678388.html
Copyright © 2011-2022 走看看