zoukankan      html  css  js  c++  java
  • 数据仓库介绍

     

     面向业务的数据库常叫 OLTP(on-line transaction processing)面向 分析的数据仓库常叫OLAP(On-Line Analytical Processing),区别见 :

    https://www.cnblogs.com/hongfeng2019/p/12004551.html

    一个交易流程包括多个事务,比如定单 ,支付 等,比如购物篮的分析 ,比如做了一次活动后的分析,比如拉新转换率有多高, 这些都是面向场景的分析。还有支持决策的分析,如BI  

    转换 : sqoop能做一些简单的转换 ,更多的是在ETL里面用 hive sql做的,或者用sacal,spark写。

    Bill inmon <building the data warehouse>, 认为数仓是bi的一部分 ,自上而下,但往往实施时候在上层梳理业务工作量很大,而且不免遗漏。

    RALPH KIMBALL 《the data warehouse toolkit》认为数据仓库是企业所有数据集市 的集合,分解,一个集市一个集市的做,比如先做财务的,再做出行的,一个一个的做成功率加大。数据集市多了后会出现 数据不一致的情况 

    两种思路和观点在实际的操作中都很难成功的完成项目交付,直至最终Bill Inmon提出了新的BI架
    构CIF(Corporation information factory), 就是层次化划分 。把数据集市包含了进来。CIF的核心是将数仓架构划分为
    不同的层次以满足不同场景的需求,比如常见的ODS、DW(又分为明细数据,和上层的汇总数据,根据不同公司的业务场景又分为DWDDWM层等)、DM等,每层根据实际场景采用不同
    的建设方案,改思路也是目前数据仓库建设的架构指南,但自上而下还是自下而上的进行数据仓
    库建设,并未统一。

    ODS到数仓DW之间做的一件事就是数据的清洗。 APP指应用层,比如个性化推荐、用户画像等

    其实采集到ODS也是ETL的一部分,可以说整个架构都在做ETL

     阿里: one data one service

     datax:阿里开源的,采集mango,es

    flume:采集日志

    ------------------------------

    spark ml:机器学习的

    spark core,spark streaming: 实时的

    -------------------------------

    调度平台是核心:

     未来更广泛的应用场景:

    数据分析、数据挖掘、人工智能、机器学习、风险控制、无人驾驶(需要根据大量的特征训练出来的结果)
    数据化运营、精准运营
    广告精准、智能投放

    应用场景分类:

    实时计算 :通常为 独立的常驻进程,实时处理数据流 ,也就是常说的流计算。

    实时场景
    1、个性化推荐
    实时:用户实时信息,比如位置、设备、当前会话浏览情况、最近的浏览离线:商品关联关系、用户相似性特征、位置偏好、设备偏好、关联偏好
    2、用户画像
    实时:实时位置标注、当前偏好标注、当前设备标注
    离线:常驻位置、稳定偏好、常用设备、消费水平等标签
    3、风控
    反欺诈、防刷单、薅羊毛等
    实时:用户位置、IP、设备、通讯录等
    离线:风险区域、风险用户、风险设备、多头等

    实时推荐简单技术实现框架:

    埋点日志也可以打到数据通道kafka里 ,然后传给ELK,做实时日志监控,即应用监控

  • 相关阅读:
    python 远程 部署和运行
    学习笔记——UML类图
    Core Data 多线程操作实战篇
    Core Data系列六——Custom Migration
    Core Data系列五——数据迁移方案
    NSOperation以及NSOperationQueue的使用
    Magical Record设计小谈
    Core Data系列四——多线程设计
    Core Data系列三——基本使用
    Core Data系列二——基础概念
  • 原文地址:https://www.cnblogs.com/hongfeng2019/p/12004552.html
Copyright © 2011-2022 走看看