zoukankan      html  css  js  c++  java
  • 精读《数据之上·智慧之光

    1. 引言

    本周精读内容是:《数据之上 智慧之光》,由帆软软件公司出品。

    帆软公司是国内一家做大数据 BI 和分析平台的提供商,主打产品是 FineBI。笔者所在阿里数据中台也处于数据分析应用的前沿,本次精读的文章就是帆软公司的 《数据之上 智慧之光 2018》,感谢提供这份国内数据市场研究报告,让我们更深入全面的了解国内数据市场的发展方向。

    随着 5G 的逐渐推行,网速比 4G 提高了 100 倍,将会为物联网打下通信基础,未来的世界将人与物、物与物进行互联。随着越来越多的设备接入网络,产生数据,而未来还有 6G、7G 将网速继续提高至 1 万倍、1 百万倍,利用卫星实现全球网络覆盖,将现实与虚拟融合等等,无不需要强大的数据处理分析技术才能掌握。

    数据的总量将呈几何倍数上升,如果不能提前对数据的存储、处理、挖掘和分析提出一套解决方案,那么 5G 时代的海量数据就是人类社会的累赘,如果有一套数据处理与分析的方案,我们就有可能掌握海量的数据为自己所用,利用数据进一步推动人类社会向前发展。

    上面是对未来的畅想,那么我国现阶段国内的数据市场的容量、需求是什么样呢?《数据之上 智慧之光》这本书给了我们答案。

    PS:本文使用 2018 年的数据。

    2. 精读

    大数据行业发展趋势

    2018 年中国大数据产业规模预计 329 亿元人民币,同比增长 39.4%。可以看到增长速度逐年增加,预计在 2020 年数据市场规模可达 586 亿元人民币。

    笔者查了一下,2018 年全国网上零售额为 90065 亿元,比数据市场规模多了一个数量级,所以我国的数据产业其实还在萌芽期,可能还需要 5 到 10 年才能完全成熟,这也意味着目前数据市场是一片蓝海,从后面的数据和国内数据应用使用情况也可以看出来。

    另外,各企业在大数据领域的投入资金与部门组织都同比 2017 年有所增加,其中接近四成的受访企业已经在应用大数据,较 2016 年提升了 4.5%,暂不考虑大数据的企业从 2016 年 7.8% 下降到 6.8%。

    从微观角度观察社会也能发现这样的趋势,近些年研究大数据的公司明显增多,许多公司都逐渐设立了 “数据分析” 岗位和部门,可视化大屏在 toB 与 toG 领域都越来越得到重视。

    企业数据应用情况

    数据应用分为数据采集、数据治理、数据处理、数据分析这四大阶段,其中数据采集是获取数据的最重要方式,而数据治理是将分散在各种不同形态数据库的文件用统一方式管理起来,比如形成数据联邦,这是数据使用前最重要的一步治理。数据处理就是将数据按照业务需求进行计算,而不同量级的数据计算方式会不同,特别是大数据场景要分为离线计算与实时计算,只有极为重要、实时性要求强的指标才进行实时计算,现在正处于离线与实时计算混合的混合计算转型期。数据分析一般通过 BI 平台完成,也是分析数据最重要的一步,BI 也经历了漫长的版本迭代,第一阶段是数据报表阶段,第二阶段是具备分析能力与数据挖掘能力的分析阶段,第三阶段是机器自动识别用户意图的智能化分析阶段。

    从智慧之光的调查结果来看,只有 22.47% 的企业实用了 BI 系统,而使用 BI 系统的企业中,超过七成认为 BI 项目能较好的满足现在的需求。说明未来还会有更多企业使用 BI,BI 的市场还有 4 倍的增长空间。

    在数据应用成熟度方面,仅有 3.5% 的企业处于数据盈利阶段,也就是大部分企业对数据的治理还在投入阶段,但无需质疑,持续对数据进行投入一定能得到回报,但短期来看会拖累财务报表。

    再看目前企业的数据价值需求,看看业务方对 BI 工具的期望有哪些。

    期望从高到低分别是:

    • (72.8%) 整合多系统数据,打通数据壁垒
    • (69.1%) 提高报表数据效率,更快更准更省事
    • (53.7%) 辅助管理预测,提高决策成功率
    • (51.4%) 提高生产效率,降低人力成本
    • (50.0%) 数据结合管理,优化管理方式
    • (47.8%) 业务监管分析,促进业务增至

    这个排列顺序基本上也是 BI 平台迭代的顺序。

    BI 刚起步时都要先做数据整合,对于大部分公司,数据孤岛的情况还是很普遍的,甚至有大量数据分散在各自工作人员电脑的 Excel 文件中,已存在的各业务平台见数据无法打通也很普遍,如果不能将多套系统间数据打通,你就没有对数据的掌控力。像阿里云的 Dataphin 就可以帮助企业建立数仓,建立一套数据资产管理体系,其中第一步就是帮助你打通数据壁垒。

    解决取数问题后,就可以建设 BI 平台了,BI 平台初期基本以构建报表为主,而构建报表的方式根据发展阶段也各有不同,下面是智慧之光中一张很经典的 BI 发展阶段:

    在 IT-完全主导型阶段,主要任务就是制作报表,而业务人员能配置的部分只有 BI 模版的 5%,剩余 95% 都需要 IT 人员参与开发,不仅浪费人力资源,而且对业务线的时间成本也很高。

    IT-强主导型阶段,BI 平台具有一定的配置能力,业务有 20% 的自主配置权,而 IT 仍需完成 80% 的工作。

    在业务强主导型阶段,BI 层 80% 的工作都可以由业务方完成,IT 人员只参与 20%,这 20% 可能包括复杂场景的定制,比如电子表格或者复杂的分析功能。这个阶段真正实现了更快更准更省事。

    业务完全主导型阶段,基本上 BI 层不需要 IT 人员参与,业务同学可以完全主导对 BI 平台的拓展,或者 BI 平台已经能满足业务线几乎所有的诉求,同时业务还能参与数据模型的控制,让业务能力下沉到数据层。到这个阶段的企业已经非常少了,也许只有少数互联网巨头可以达到这个阶段。

    智能自助型,这个阶段不需要 IT 人员参与,业务仅需参与 1%,原因是 99% 的需求都有人工智能自动分析出来,也就是将业务数据拿到后,计算机已经知道该怎么看这份数据了。智能自主型在国内还处于概念阶段,在国外 BI 工具比如 PowerBI 与 Tableau 已经在这个领域深耕多年了,然而门槛比较高,目前效果应该还不太理想,因为这个阶段一旦成熟,国内的 BI 企业将面临巨大冲击,之所以国内处于业务强主导阶段的 BI 平台依然存在,除了数据安全的理由之外,只能认为国外智能自助型 BI 平台依然 “不够智能”。

    通过上面的分析可以总结出,BI 平台不仅业务发展阶段迥异,对技术人才的要求在不同阶段也不一样,技术层面需要以 后端 -> 前端 -> ETL -> AI 人才 的递进态势演变,对技术人员来说,如何在 BI 技术演变的过程中不断自我学习,满足下个阶段的技术要求,是非常严峻的挑战。

    另一个值得关注的是企业数据来源,根据 2016 与 2017 年的对比,来自企业内部的数据正在逐渐增多,从外部购买的数据从 16.7% 降低到 15.1%,而从政府免费开放的数据比例从 13.5% 提升到了 14.6%。这表示企业正在逐渐摆脱对外部购买数据的依赖,转而产生更多自己业务的数据,而政府也在逐渐加强开放数据建设,努力减少各企业间数据资源的壁垒。

    企业数据使用方式

    根据调查显示:

    • (70.0%)使用传统的 SQL + Excel 分析数据
    • (64.8%)使用业务系统自带的报表或分析功能
    • (35.6%)使用 BI 工具
    • (10.8%)手工写代码

    首先频繁的手工写代码只有 10% 不到的比例,这是因为稍稍有点长远打算的企业,都会打造一支技术团队,而业务也会给技术团队打造一些生产效能提升的工具,只有 10% 左右的企业无法割舍短期利益,导致所有数据分析需求都要手工写代码。

    大部分企业依然采用 SQL + Excel 分析数据,这个结果在情理之中,因为 SQL + Excel 都是现成的工具,不需要研发成本,而 Excel 的强大分析能力也基本满足了业务需求。但这种模式无法共享分析结果,存在数据安全隐患,且无法进入分析与智能阶段。

    使用业务系统自带的报表或分析功能也占了 64.8% 的比例,笔者所了解到的中小型公司也的确属于这个阶段,公司内不同业务线都有自己的业务平台,每个业务平台内都有或多或少的数据分析和报表能力,这对大部分企业来说够用了,但对于要建立 数据中台 的企业来说,分散在各业务系统的数据与报表能力,反而是一种阻碍。PS:阿里数据中台已进入 2.0 阶段,但对大部分企业来说,是不可能越过数据中台 1.0,直接进入 2.0 的,就像不可能跳过 5G 做 6G 一样。

    只有 35.6% 的企业在使用 BI 工具,因为使用 BI 工具需要一定门槛,比如做数据治理等,当然也可以直接订购阿里云的 Dataphin 快速接入 QuickBI。

    在企业使用 BI 时,选型的考虑因素也很有意思:

    • (69.1%)产品是否高效易用
    • (59.2%)产品是否稳定性高,性能好
    • (58.5%)产品是否拥有丰富强大的功能
    • (51.4%)产品是否具备大数据分析能力
    • (33.6%)采购成本
    • (31.2%)生态与学习资源
    • (24.4%)厂商本身的实力

    可以看到,BI 工具靠自身实力吃饭的,而不依赖公司光环,因为业务方对实用性要求更大。

    69.1% 的企业看中是否高效易用,说明目前国内企业对 BI 培训能力较弱,希望有高投入产出比,同时也说明了 BI 自身的特性,它是面向非技术人员的产品,如果易用性不强,只是功能强大是没有用的。

    59.2% 的企业看中稳定性和性能,这是因为对数据分析来说,看报表是高频操作,业务方会使用 BI 查看 KPI 报表,发日报或月报,用户是无法忍受频繁使用的产品稳定性出现问题的。

    第三点就是功能是否强大,对一款面向用户的工具来说,如果功能有欠缺,就意味着无法满足业务需求。比如对折线图做归一化,如果 BI 平台的折线图自身不支持这个功能,使用者也没办法立马拉上一名前端同学拓展出这个功能,因为 BI 平台表面看上去易用,但底层设计复杂,一旦遇到功能不支持,除了等待更新外,没有更好的办法。

    最后一个超过 50% 的用户期待就是具备大数据分析能力,这是因为企业数据量级普遍都很大,而 BI 平台底层的多维建模一般采用 OLAP 查询,遇到海量数据可能要等上几十分钟,需要 BI 平台内置一些数据加速的功能。ROLAP 给予关系型数据库,特点是兼容性强、灵活性强,但查询速度慢,而 MOLAP 是实现将各维度数据计算好,查询时直接映射到多为数据库访问,性能好,但是对存储空间的依赖极高,需要付出大量的金钱才能支撑这种模式的查询。

    下面是企业对 BI 功能要求:

    可以看到,对报表能力需求量最大,说明报表是 BI 工具基础的要求,也说明我国对数据的使用方式还停留在最初级的阶段。

    另一个就是移动 BI 需求,在移动端看报表,PC 端做报表已经非常普遍了。

    之所以数据填报排到了第三名,是因为不同公司并不是所有数据都统一管理,BI 支持数据填报,就可以将遗漏的数据录入进去。

    相信在未来,这个条形图最长边会逐渐移动到腰部。

    最后是企业面临的综合挑战:

    • (64.8%)数据的整合与治理
    • (58.1%)与管理层及业务部门的配合
    • (51.8%)数据人才的培养
    • (49.8%)数据分析工具的选择
    • (42.4%)IT 部门自身的能力提升
    • (38.1%)衡量数据分析的价值产出
    • (27.6%)公司重视程度或预算投入
    • (14.1%)项目风险的控制

    数据整合与治理是最大问题再次反映了我国数据可视化处于较为初级阶段,第二名的 “与管理层及业务部门的配合”,也印证了这一点,如何将数据价值传达给管理层,让管理层认可前期投入在未来是可以得到回报的,是在企业里做数据分析比较头疼的问题,而其他业务部门如果不予配合,不将数据交给数据中台部门,又难以解决数据整合的问题,而这个往往又依赖管理层的决定,因此管理层与业务部门的配合问题是相辅相成的。

    第三名是数据人才培养的问题,这个问题笔者认为还好,前几年流行大数据人才,近几年流行 AI 人才,我国数据人才应该有不少的储备。

    后面几项最重要的就是 衡量数据分析的价值产出,任何做数据的部门,如果不能让数据为公司带来价值,这件事件就没有可持续性。笔者建议从数据整合后的管理提效,节省机器成本的角度计算出收益,从数据分析平台为其他业务部门提供的决策依据,计算出为业绩提高作出的贡献,再从对公司内部做报表、邮件的研发人力节省,管理层快速查看公司整体实时数据分析的角度计算出软贡献价值。

    3. 总结

    尽管 BI 平台与数据分析可以为公司带来巨大的价值,但制作 BI 平台的成本是相当大的,而且 BI 平台具有马太效应,目前国际第一梯队的 Tableau、PowerBI 无论是吸引的人才,投入的资源,市场份额都远超追赶者的总和。

    从 17-18,18-19 的 BI 四维度对比可以看出,低端 BI 的角逐正在越来越激烈,行业龙头 PowerBI 与 Tableau 位置越来越稳,国内 BI 龙头 FineBI,以及正在逐渐发力的 QuickBI 希望能挤进国际梯队,在 BI 技术领域拉平与发达国家的差距。

    PS:目前国内市场的情况,反而不适应 PowerBI 与 Tableau 阶段的 BI 工具,给国产 BI 工具创造了发展机遇,我们要抓住这次机遇带领中国数据市场走向第三代增强分析型,并使国内 BI 工具在国际市场占有一席之地。

    讨论地址是:精读《数据之上·智慧之光 - 2018》 · Issue #162 · dt-fe/weekly

    如果你想参与讨论,请 点击这里,每周都有新的主题,周末或周一发布。前端精读 - 帮你筛选靠谱的内容。

    关注 前端精读微信公众号

    special Sponsors

    版权声明:自由转载-非商用-非衍生-保持署名(创意共享 3.0 许可证

  • 相关阅读:
    python操作Excel表格
    Spring的AntPathMatcher(路径匹配)
    【纪中受难记】——Day17:本来能AK
    PAT (Basic Level) Practice (中文)1009 说反话 (20 分)
    PAT (Basic Level) Practice (中文)1008 数组元素循环右移问题 (20 分)
    PAT (Basic Level) Practice (中文)C++ & python 语言实现 —— 题解目录
    PAT (Basic Level) Practice (中文)C++ & python 语言实现 —— 题解目录
    PAT (Basic Level) Practice (中文)1007 素数对猜想 (20 分)
    PAT (Basic Level) Practice (中文)1007 素数对猜想 (20 分)
    PAT (Basic Level) Practice (中文)1006 换个格式输出整数 (15 分)
  • 原文地址:https://www.cnblogs.com/ascoders/p/10995903.html
Copyright © 2011-2022 走看看