zoukankan      html  css  js  c++  java
  • 大数据roadmap

    该roadmap是对自身大数据知识的一个概括和梳理,之后会写一些博客对这些知识点进行展开。

    1. 大数据基础
      1. Hadoop
        1. HDFS
        2. MR
        3. Yarn  
      2. Spark
        1. spark 的原理
        2. spark 常用算子。
        3. spark 参数调优。
      3. Flink
        流计算
      4. Hive/Hbase/Flume
        大数据中还有其他的组件,比如 作为数仓处理的 Hive,列数据库 HBASE,负责数据 ETL 的 Flume, 负责调度的 OOZIE 等。 
    2. 大数据开发
      大数据通用开发流程, 以常用的 lamdba 为例。
      1. 埋点。主要包含APP 和 H5 上的用户行为埋点与收集
      2. 数据抽取。如何将埋点数据和业务数据抽取到 大数据平台。
      3. 数据计算。常用的 MR, Spark,流式可以用 Spark Streaming, Flink
      4. 数据存储与建模。 数据可以保存在 HDFS,CK等。 建模可以是常用的维度建模, 可以按照 ODS、DWD、DWS、ADS进行分层。
      5. 数据展示与使用。 包括 BI 报表,OneService  
    3. 大数据管理
      大数据管理部分包含,Job 管理,元数据管理,数据质量,数据指标,IDE平台建设等, 主要是通过这些平台的建设,掌握整个数据平台的运行情况, 让数据更加准确,易用,让平台运行更加健康。
      1. 平台管理,比如小文件管理,元数据管理,安全管理。
      2. 数据管理,比如数据质量,数据血缘,数据指标
      3. 平台自身建设,比如 Job,IDE,BI 报表系统等  
    4. 大数据应用
      大数据平台除了产出报表,还可以有下面这些应用
      1. 用户画像,DMP 平台等。用户画像可以在商品召回,或者重排时使用,DMP 平台可以在运营精准营销时起到关键作用。 
      2. 搜索,推荐,广告。现在大多数应用都有搜索,猜你喜欢等模块,这些模块的背后混合了机器学习,用户画像等技术。
      3. 数据挖掘。比如频繁项挖掘,落地到场景比如买了还买。
      4. 机器学习。比如 CTR 预估,情感分析,图像识别。  
  • 相关阅读:
    网页色彩搭配
    jquery富文本在线编辑器UEditor
    编写、部署、应用JavaBean
    图片存储构架学习
    JVM内存管理(一)
    同步or异步
    分库分表策略的可实现架构
    百万数据查询优化技巧三十则
    匿名内部类
    MySQL limit分页查询优化写法
  • 原文地址:https://www.cnblogs.com/beyondbit/p/15322529.html
Copyright © 2011-2022 走看看