Yahoo数据仓库架构简介

zoukankan html css js c++ java

Yahoo数据仓库架构简介

1. Yahoo数据仓库的整体架构
  Yahoo数据仓库在基础架构上由hadoop集群和Oracle集群组成，hadoop集群是一个计算平台，完成所有ETL数据处理过程；Oracle集群只是一个查询环境。
    数据通过Data highway从源系统加载进入数据仓库的ODS层，ODS层数据保持与源系统数据结构一样。EDW数据层并没有严格意义的数据层次的逻辑细分，它可能有多层的ETL加工过程；多层的数据存储。这一个层数据主要采用维度建模的方法，根据应用需求建立数据模型。数据采用列式存储的数据结构存储。
    数据经过加工处理完成后，数据将会同步到Oracle的集群中用做数据查询。Yahoo用Oracle做查询环境，他们的大量采用了基于时间RANGE分区和HASH子分区的方式来提升查询响应性能（类似与Greenplum的方式）。数据采用了压缩技术，同时基于压缩和读取的方式上ORACLE官方为他们定制了一些改进，从而获取更好的读取IO和压缩能力。
    MSTR报表工具连接ORALCE完成大部分报表查询功能，同时，如果要查询最明细的数据，工具会连接到HADOOP集群上，通过创建一些临时表来满足查询功能。
    同时，Yahoo的仓库配备了一个功能强大的元数据管理系统，他们的元数据是通过SQL解析，直接将ETL mapping的元数据解析进入元数据库，做到了字段级别的MAPPING。同时他们的PM会维护最新的业务元数据（业务规则，指标定义）进入的元数据库系统。

2. Yahoo数据仓库建模方法
Yahoo数据仓库建模基本上采用维度建模的思想，他们强调一致的维度在保持数据仓库模型的一致性上的作用。他们会花一定的时间去识别每个新进入仓库的数据表，并了解它的业务规则和数据属性，由数据架构师完成对数据整合的设计工作。
Yahoo也建立一些稀疏的宽表，它的基于每个日志访问记录表的宽表就有上千个字段。
3 . Yahoo数据仓库的团队成员构成
Yahoo团队主要由DHW配置人员,ETL开发人员、数据架构师、BI分析人员和PM人员组成。他们介绍他们团队大概有30个人，应该只有一个PM而且投入也是50%，从这看来他们的应用需求应该比我们B2B少很多。

4. Data Architect的职责
数据架构师基本上负责整个全局数据仓库的模型，表的设计。数据架构师对掌控整个仓库的表结构。同时，Yahoo经常从外面收购不同的公司，很大一个职责和任务是需要整合新的据源进入数据仓库的模型中。

5. Yahoo实时仓库的现状
Yahoo的实时仓库应用较少，应用点就是广告的结算使用，按时间窗口，采用Oracle的LogMiner捕获准实时变化数据，通过事件触发后续的ETL处理过程。

6. Yahoo对数据仓库人力资源的使用原则
Yahoo的数据仓库人力资源不在业务方，而由自己控制。他们将商业价值和对数据仓库整体影响排在前面两个最重要的位置。当出现资源冲突的时候，不由业务方的独自利益为导向。

查看全文

相关阅读:
不记住密码
 在Docker中进行Redis主从配置
 Spring Boot系列(8)——RabbitMQ确认、退回模式及死信队列
 RabbitMQ基础
 CentOS只有lo和ens33网卡的解决方案
 Spring Boot系列(7)——自定义异常反馈
 Spring Boot系列(6)——Configurer和Customizer
以form表单重用方式进行数据列表行删除
 Spring Boot系列(5)——Restful CURD注意事项
 Spring Boot系列(4)——实现国际化

原文地址：https://www.cnblogs.com/end/p/2617117.html