zoukankan      html  css  js  c++  java
  • 海量数据模型实施方法论

           模型是现实世界实物特征的一种抽象,比如地图,沙盘,气象图或者星象图等。数据模型是实物数据特征的抽象。

    一。LDM(逻辑数据模型) 三要素:实体,属性和关系,采用实体-关系模型,用ERwin建模。 模型设计的好坏直接关系到数据的:

    -稳定性

    -易用性

    -查询性能

    -存储空间

    -维护成本

    理想的逻辑数据模型结构应该如下:

       -将相关的主题域进行组合,形成更少的高阶分组。

       -主题域至少应该包含在一个主要主题域里面,达到可重用性。

       -不同行业的主要主题域都不相同

       -真实世界实物的描述,静态实体,以及它们之间动态的关系

       -实体代表一个人,一个组织,概念或者事件

       -属性描述了实体的特征和数据事实

       -它们的关系有一对多,多对一,多对多

       -相关对象的组合(实体,属性和关系)以表达一个特定的业务功能

       -实体可以属于一个或者多个主题域,达到可重用性。

       -一个主题域可以由一个或者多个ER图构成,以表达主要目标的不同方面 统一的逻辑数据模型框架构成:

              -用于管理数据建模的标准和规范

              -用于创建可用于业务功能描述的模型方法论

              -将逻辑数据模型封装到行业逻辑数据模型的方法论

    二。模型设计流程

      1)信息分析和数据提取

           -了解源业务系统:业务种类和规则

           -源业务系统的关系:数据接口,加工规则,怎样保持一致性

           -了解源数据结构和流向

           -数据概况:数据量,增全量导出方式,数据格式,数据质量

    重点讲样本数据检验规则!!:

           - 验证业务规则

           -表间数据关系分析 -每个字段的分析: 字段业务含义,字段取值范围, 字段间有无关联关系, 字段关系是否完整, 数据质量情况(非代码字段的空值,非法值,主键完整性,唯一性,外键完整性)

           -填写样本数据和代码表取值

      2)逻辑模型的设计 目标:

           - 不针对某个特定的应用而设计

           - 以第三范式存放数据,业务发生变化时易于扩展,适应复杂业务情况

           - 稳定性:能够在很长时间(比如5年内)适应和回答不断变化的业务问题

           - 易解释性:使用业务语言设计,易于IT和业务人员进行交流 步骤:

           - 统一业务术语:对重要的业务元素进行统一定义

           - 构建LDM原型框架:确定着数据仓库的数据组织原则和基本形式,也确定着数据仓库的应用范围和应用模式 确定模型设计的主题范围,主题重要的LOGICAL VIEW, 各主题重要的实体,分类和关系,确定各实体的主键和候选键

           - 基于LDM原型框架,进行各主题的详细设计: 创建各主题的实体和属性,尽可能简单,用业务无法二义性解释的语言进行说明 建立各实体的关系,准确体现业务规则 选择主键:逻辑主键或者代理主键 整理相关代码表:

                     -建立主外键关系

                     -定义转化规则:从源系统到LDM的映射,数据类型,业务转换规则,对数据质量差和缺失的数据的业务规则进行补充说明

                     -完善与跟踪: 与技术人员进行讨论:

                     -如果源业务系统的数据与业务描述不对应

                     -如果重要的数据缺失

                     -如果实体之间的关系不正确 与业务人员或者分析师进行讨论:

                     -是否能准确实现业务需求

                     -是否能方便理解 - 重要的业务规则是否得以体现

     3)物理模型的设计: 在逻辑数据模型的框架和原则上,针对系统性能和应用需求进行适当的非范式化的物理模型设计:

    与LDM相同点:

            - 主题,实体,属性和关系一致

  • 相关阅读:
    一个老码农对职场的思考
    PHP算法 (冒泡 选择排序 折半查找 顺序查找 斐波那契数列 素数 )
    php 图像的基本操作
    php 随机字符串 验证码
    php中 var_dump 和 echo 和 print_r() 和 print
    正则表达式的整理
    php上传文件原理
    git 几个简单命令
    git 几个简单命令
    会话技术Cookie
  • 原文地址:https://www.cnblogs.com/dali133/p/7616769.html
Copyright © 2011-2022 走看看