zoukankan      html  css  js  c++  java
  • 数据虚拟化-基础概念

    数据虚拟化

    数据存储类型:

    • 结构化:库表
    • 半结构化:html页面
    • 非结构化:excel,xml,文本文件,图片,声音

    数据存储形式

    数据仓库:一个支持管理决策进程的面向主题的,集成的,随时间变化的,永久保存的数据集合;

    数据集市:数据仓库的子集,用于提高部分用户的分析性能;

    数据中转区:数据暂存区.数据流转:数据源->数据中转区->数据仓库.用于简化数据仓库的数据源集成规则;同时便于数据仓库进行数据清洗,转换;

    操作数据存储:数据流转:数据源->数据中转区->操作数据存储->数据仓库.集成变化的最新数据,减少数据仓库的数据变化;

    数据湖:一个以数据原始格式保存数据的存储库,使用时再决定具体结构;

    通过这些存储方式进行数据分析方式的方式:

    拷贝
    etl
    elt
    

    问题:流程长,时效性差,非操作型实时分析

    数据虚拟化

    数据虚拟化:一种给数据使用者提供一个统一,抽象,封装的视图,来查询,操作异构数据存储集合中数据的技术.

    核心:封装,抽象,数据联合(按需集成),数据集成(合并,转换,清洗)

    数据虚拟化服务模型:

    设计模型:用于数据定义
    元数据规范:转换,清洗,集成规范
    运行模型:数据使用者访问虚拟化层使用的模型,核心功能:调度程序,存储引擎,缓存管理,查询优化等;
    

    数据流转流程:

    请求方->虚拟化服务api->虚拟表->映射->封装表->源表
    

    源表:时间多源数据的物理存储表
    封装表:虚拟化层对于源表数据进行封装所形成的表,也被称为视图
    虚拟表:显示数据与封装表映射所形成的表,是具体呈现给请求方的表结构;

    元数据

    元数据:用于描述数据的数据.便于数据使用定义的数据.可以理解为标签;

    • 源表来源服务器位置
    • 数据库信息
    • 名称,所有者,源表建立的日期
    • 源表结构 -> 列和名称
    • 源表列 -> 类型,非空规范
    • 源表上定义的可用的主键和外键
    • 源表中的行数和为每一列分配的值

    数据分析形式

    • 运营报告和分析
    • 深度和大数据分析
    • 自助式报告和分析
    • 无限制的自组织分析
    • 360°报告
    • 探索性分析
    • 基于文本的分析
    喜欢关注一下,不喜欢点评一下
  • 相关阅读:
    DBHelper
    jsTree使用
    爬虫系列之Scrapy框架
    Mongodb安装
    爬虫系列之mongodb
    爬虫学习目录
    爬虫之selenium模块
    爬虫简介与requests模块
    爬虫数据解析的三方式
    线程相关
  • 原文地址:https://www.cnblogs.com/chengmuyu/p/14534858.html
Copyright © 2011-2022 走看看