zoukankan      html  css  js  c++  java
  • 如何从0到1,构建企业大数据平台

    (一)企业大数据战略概述

    我们只要分享一些基础的概念,让大家明白什么是大数据,大数据有哪4个特征,作为企业战略的实施者或执行者,我们要具备6大战略,概括起来就是4V特征,6大战略;

    1.1 关于大数据的历史

    • 在大数据这个词出现之前,我们对日常数据的这种处理和分析,常常使用的一些类似SQL server、 MySQL、Oracle等等这些关系数据库,传统的这些数据库处理T级别数据量已经是这些数据库的极限,面对这种P级和E级的数据量,基本上是无能为力;

    • 一直到2005年,提供大数据基础能力的Hadoop项目出来,从技术层面上搭建了一个对非结构化和复杂数据快速可靠分析,变为现实的一个技术平台,从这个时候开始,大数据才成为互联网信息科技里高频的热词;

    1.2 什么是大数据,大数据有哪些特征

    不管我们是不是大数据的专业人士,在这个信息时代,我们都要了解一些大数据的概念,小到店家,大到国家都在讲大数据,不过真正搞清楚什么是大数据的人,还不是太多;
    对于大数据的概念,我们引用世界著名咨询公司麦肯锡对它的描述:

    • 大数据是什么?

      • 麦肯锡的定义:“一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有4V特征”
    • 4V是什么?

      • Volume 海量的规模;

      • Velocity 快速的流转

      • Variety 多样的类型

      • Value 低密度的价值

    (二)怎样制定企业的大数据战略

    战略是我们工作的指导,一定有正确的战略才能做战术上的执行,战略错了,那么一切战术都是等于0,这里总结了大数据的6大战略;

    2.1 决策战略

    • 先了解所在企业的背景状况:比如企业是民企、国企还是上市公司,规模有多大,有多少员工,大数据仅仅是锦上添花还是已经具体的发挥了它的价值;在决策企业是否上大数据项目的时候,以及投入多少的问题上,这些问题都需要考虑清楚的;

    2.2 时机战略

    • 就是企业什么时候开始投入大数据建设

    2.3 人才战略

    2.4 选型战略

    • 是自建IDC数据中心、自建私有云,还是选择阿里云(腾讯云等等)共有云这个平台

    2.5 平台战略

    • 就是我们先选择搭建一个平台还是先实施一个应用的问题;

      • 一个原则:离钱越近,越要早做;

    2.6 管理战略

    • 关于数据是否可再生的问题:就是如何采集数据、如何存储数据、数据是怎样应用的,数据安全,用户隐私安全问题的保障;

    (三)企业如何进行大数据平台建设

    无论从帮助企业营销还是提高效率来看,节约企业成本这个角度来看, 大数据有非常大的价值,大数据做好了,可以推动企业的业务突飞猛进的增长;要实现这个大数据的价值,真正让大数据为企业创造贡献,那我们首先要积累有大数据,把日常业务和用户的行为数据收集起来,我们前面说过,有些数据是可再生资源,但更多的是不可再生资源,这就需要我们管理好我们的数据资产,去搭建一个数据平台,负责数据的采集,规整、运算、存储、应用、展现等等;

    @数据分析-jacky

    • 大数据平台是由三个平台加一个服务组成的

        1. 工具平台,又包括
        • 运维平台

        • 数据采集平台

        1. 大数据仓库基础平台
        1. 大数据门户,又包括
        • 大数据分析平台

        • 产品应用平台

        1. 服务

    运维平台主要负责大数据平台的业务调度、任务监控、元数据管理、权限管理等等,主要由图中所示的系统组成的;二个是数据采集平台,主要负责把数据采集到大数据仓库平台当中,企业这种大数据来源,主要从三个方面去获取数据,从业务系统、日志采集系统、外部数据来源采集,每一个方面的来源又包含几个途径,如图所示;

    大数据基础平台,传统的也叫大数据仓库平台,这部分是整个大数据平台的核心;

    下面是大数据门户,是集成数据成果一体化的平台,包括大数据分析平台,和大数据应用平台;大数据门户,作为整个大数据的窗口,所有的数据研究成果,都会展现在这个数据门户当中,这样就极大的方便了公司职能人员使用数据;

    用户服务:使用数据的人主要包括管理人员、分析人员、运营人员、产品经理、技术工程师还有企业投资的相关方,或公司对外的数据服务,我们是通过API接口体现出来;

    3.1 如何构建大数据基础平台

    大数据基础平台,是整个大数据平台的核心,是企业大数据加工、计算、存储的场所,原本非常凌乱的各种各样来源的数据,进入基础平台之后,都会按照一定的标准,一定的规范化进行存储,处理起来,大数据基础平台有三个核心技术点,第一个是主题模型,第二个是层次模型,第三个是计算模型,下面会给大家一些简单的介绍;

    (1)主题模型

    • 主体模型详细附件图表(1)

    • 主体模型设计的注意事项:

      • (a)具备完整性

        • 主体要充分的覆盖,能够覆盖到企业所有的业务,能够支持所有的应用和分析的需求
      • (b)主体的独立性

        • 主题之间不要有交叉,相同特征的要放在同一个主题当中;
      • (c)具备层次性

        • 大主题可以有若干的子主题构成

    @数据分析-jacky

    (2)层次模型

    层次模型通常由4个层次组成,如下图:

    • (a)ODL层(操作数据层)

      • 功能是存放从业务系统之间抽取过来的数据,数据从数据结构,从数据这种逻辑关系上面,都与业务系统基本上是保持一致的,这里实现了透视字段一些固化的处理,像会员注册,注册时间,还有一些少量的基本的数据清洗,比如脏数据的一些过滤,维度的一些处理等等,最终生成了这种增量的数据
    • ( b)BDL层(基础数据层)

      • 该层的主要功能,是基于主题域的划分来完成数据整合的,提供统一的数据的基础平台,在这个层级当中,我们会完成数据的清洗、定义的分类等等的一些功能;
    • (c)IDL层(接口数据层)

      • 面向应用的,统一的应用接口访问平台,客户统一视图都在这一层级实现,该层级的重点就在于实现跨主题域的这种数据的关联计算;在实践当中,会涉及两类模型,一类是为了获取数据更容易,我们会制造一些反规范化的主题模型,我们常常看到的这种宽表模型,另一类就是为了我们实现快速的查询,分析而建立起来的这种比较规范式的多维分析模型,它是由多个维表进行组成的;
    • (d)ADL层(应用数据层)

      • 提供差异化的数据服务,以满足业务方的需求,这一层级我们可以实现一些报表,数据挖掘、产品应用等等需求;

    在传统的数据库时代,ADL层主要在RAC(ORACLE 真正应用集群)中实现的,在大数据时代里,我们通常会用hbase这一层的数据的存储;

    我们在工作中,为了降低维度大数据平台的负责度,我们通常把4层压缩到3层,我们通常把ODL层和BDL层进行合并,原来分别在这两层当中实现的一些事情,我们合并到一层里面去实现;如下图所示:

    @数据分析-jacky

    3.2 如何构建大数据门户

    企业大数据门户,是企业应用的集成一体化的平台,大数据门户,作为企业服务的窗口,除了数据研究成果外,都会展现在大数据门户中,从而极大的方便了我们企业个只能人员使用、利用这个数据;

    • 企业大数据门户包含:

      • 数据分析平台

        • 负责业务数据的可视化展现,智能报表,临时取数的分析,还有多维数据分析的一些模型,比如用户画像、业务关键指标监控,还有数据挖掘模型的一些监控等等
      • 数据应用平台

        • 主要由精准营销、个性化推荐等等
  • 相关阅读:
    解决:Could not resolve archetype org.apache.maven.archetypes
    Spring MVC配置MyBatis输出SQL
    Spring集成MyBatis 通用Mapper以及 pagehelper分页插件
    关于SpringMVC或Struts2接受参数接收不到的原因
    配置quartz启动时就执行一次
    ajaxFileUpload进行文件上传时,总是进入error
    spring mvc注入配置文件里的属性
    java中将一个文件夹下所有的文件压缩成一个文件
    flume failed to start agent because dependencies were not found in classpath
    ubuntu不能安装pip unable to install pip in unbuntu
  • 原文地址:https://www.cnblogs.com/shujufenxi/p/12148379.html
Copyright © 2011-2022 走看看