《大数据白皮书》2020.12出版
-
数据要素市场化配置上升为国家战略
-
数据大国-->数据强国
-
将进一步完善我国现代化治理体系,有望对未来经济社会发展产生深远影响
-
国家级政策中,将数据定义为‘生产要素’
-
各国加快布局探索数据未来发展之路
-
美国联邦数据战略焦点从‘技术’转移到资源
-
第一,重视数据并促进共享,如通过数据指导决策,促进各机构间数据流通等
-
第二,保护数据资源,如保护数据真实性,完整性,和安全性
-
第三,有效利用数据资源,如增强数据分析能力、促进数据访问形式多样化等
-
欧盟数据战略致力于发展数据敏捷型经济体
-
一,构建跨部门治理框架
-
二,加强数据投入
-
三,提升数据素养
-
四,构建数据空间
-
英国期待数据战略助力经济复苏
-
释放数据的价值
-
确保促进增长和可信的数据体制
-
转变政府对数据的使用,以提高效率并改善公共服务
-
确保数据所依赖的基础架构的安全性和韧性
-
倡导国际数据流动
-
大数据技术发展
-
从基本的面向海量数据的存储、处理、分析等需求的核心技术延展到相关的管理、流通、安全等其他需求的周边技术
-
开始向着低成本、增强安全的方向发展
-
大数据的技术全景解析
-
数据特征的不断演变、数据价值释放需求的不断增加-->针对大数据的多重数据特征,围绕数据存储、处理、计算的基础技术,同配套的数据治理、数据分析应用、数据安全流通等助力数据价值释放的周边技术组合起来形成的整套技术生态。
-
大数据技术已经发展成为覆盖面庞大的技术体系
-
大数据基础技术为应对大数据时代的多种数据特征而产生
-
数据量大、数据源异构多样、数据时效性高等特征,催生了高效完成海量 异构数据存储与计算的技术需求
-
由于传统集中式计算架构(关系型数据库单机的存储和计算性能有限)-->规模并行处理(MPP)的分布式计算框架
-
海量网页内容以及日志等非机构化数据-->基于apache hadoop 和spark生态体系的分布式批处理计算框架
-
时效性数据进行实时反馈的需求-->出现了 Apache Storm ,Flink和Spark Streaming等分布式流处理计算框架
-
数据管理类技术助力于提升数据质量与高可用(计算需求得到一定程度的满足后数据转化成价值成为主要需求)
-
如何将数据转化成为价值-->企业与组织内部的大量数据因缺乏有效的管理,普遍存在着数据质量低、获取难、整合不易、标准混乱等问题
-
用于数据整合的‘数据集成技术’以及用于实现一系列数据资源管理职能的数据管理技术随之出现
-
数据分析应用技术发掘数据资源的内蕴价值
-
在拥有足够的存储计算能力以及高可用数据的情况下,如何将数据中蕴藏的价值充分挖掘并同相关的具体业务结合以实现数据的增值成为了关键
-
用以发掘数据价值的数据分析应用技术,包括BI(Business Intelligence)工具成为代表的简单统计分析与可视化展现技术,以及传统机器学习、基于深度神经网络的深度学习为基础的挖掘分析建模技术纷纷涌现,帮助用户发掘数据价值并进一步将分析结果和模型应用于实际业务场景中。
-
数据安全流通技术助力安全合规的数据使用呢以及共享
-
数据泄露、数据丢失、数据滥用等安全事件层出不穷-->在安全合规的前提下共享数据以及使用数据成为了备受瞩目的问题
-
访问控制、身份识别、数据加密、数据脱敏、等传统的数据保护技术积极向更加适应大数据场景的方向不断发展
-
侧重于实现安全数据流通的隐私技术也成为了热点的发展方向
-
大数据技术发展趋势
-
基础技术:控制成本按需索取成为主要概念
-
存储与计算耦合的自建平台造成了额外成本-->计算和存储必定有一个会造成浪费
-
存算分离有效控制成本-->获取或回收资源,弹性扩展、收缩-->差异化合理配置
-
按需索取的处理分析能力-->服务化概念开始流行:数据的处理、通用计算、复杂分析能力形成服务,按需付费
-
国内外众多厂商深入进行了存算分离和能力服务化的实践:云化大数据平台,分布式数据库产品的存算分离解决方案
-
阿里云:使用自身的EMR+OSS产品替代原生Hadoop存储框架,整体费用成本下降50%
-
华为使用自身FusionInsight+EC产品,存储利率从33%提升至91.6%
-
Snowflake公司提出的 数据仓库服务化(Data warehouse as a Service,Daas),将分析能力以云服务的形式在AWS、Azure等云平台提供按次收费服务
-
国内,以阿里云AnalyticDB、DL为代表的一系列产品提供基于类似思想的服务化的数据处理分析能力
-
数据管理:自动化只能数据管理需求紧迫
-
数据管理依赖人工操作带来居高不下的人力成本
-
数据管理技术:数据集成、元数据、数据建模、数据标准管理、数据质量管理和数据资产服务
-
通过汇聚盘点数据和提升数据质量,增强数据的可用性格易用性,进一步释放数据的价值
-
问题:数据管理平台自动化、智能化程度低,实际使用中需要人工进行数据建模,数据标准应用、数据剖析等操作
-
更加自动化智能化的数据管理平台助力数据管理工作高效进行
-
在基于机器学习的人工智能 不断进步的情况下,尽量减少人力投入
-
其中数据建模、数据标签、主数据发现、数据标砖应用成为几个主要的应用方向。
-
数据建模方面
-
机器学习技术通过识别数据特征,推荐数据主题分类,进一步实现自动化建立概念数据模型,同时,对表间关系的识别将大大降低数据建模人力成本,便于对数据模型持续更新
-
数据标准应用方面
-
基于业务含义、数据特征、数据关系等维度的相似度判别,在数据建模时匹配数据标准,不仅提升了数据标准的应用覆盖面,也减少了数据标准体系的维护成本。
-
数据剖析方面
-
人工智能通过分析问题数据和学习数据质量知识库,提供数据质量评估维度和数据质量稽核规则,并识别关联数据标准,实现自动化数据质量事前、事中、事后管理
-
数据管理产品:华为(智能化数据探索)、浪潮(自动化标签、主数据识别)、阿里云(高效的标签识别以及数据去冗)、数据梦工厂、数澜科技、Datablau、中国系统(聚焦数据标准的有效落地)等数据管理平台
-
分析应用:图分析需求旺盛引导数据分析新方向
-
传统数据分析方法难以应对图结构数据中关联关系的分析需求
-
以社交网络、用户行为、网页链接关系等为代表的数据,需要通过图的形态,以最原始、最直观的方式展现其关联性,在图的形式下自然而然地存在这连通性、中心杜、社区关系等一系列内蕴的关联关系
-
需要能够对图结构本身进行存储、计算、分析挖掘的技术合力完成
-
专注于图结构数据的图分析技术成为数据分析技术的新方向
-
以对图模型数据进行存储和查询的图数据库、对图模型数据应用图分析算法的图计算引擎、对图模型数据进行抽象以研究展示实体建关系的知识图谱,使用者可以对图结构中实体点间存在的未知关系进行探索和发掘,充分获取其中蕴含的依赖图结构的关联关系
-
图数据库、图计算引擎、知识图谱-->产业化
-
安全流通:隐私计算技术逐步发展热度持续上升
-
基于隐私计算的数据流通技术成为实现数据联合计算的主要思想
-
旨在保护数据本省不对外泄露的前提下,实现数据融合的一类信息技术
-
多方安全计算:基于吗学理论,可实现在无可信第三方情况下安全地进行多方协同计算
-
可信硬件技术:依赖安全硬件,构建一个硬件安全区域,使数据仅在该安全区域内进行计算
-
联邦学习、共享学习等通过多种技术手段平衡安全性和性能的隐私保护技术,也为跨企业机器学习和数据挖掘提供了新的解决思路
-
大数据科研创新进展
-
大数据产业是以数据以及数据所蕴含的信息价值为核心生产要素,通过数据技术、数据产品、数据服务等形式,使数据与信息价值在各行业经济活动中得到充分释放的赋能型产业
-
大数据产业商业模式解读
-
提供数据或技术工具
-
提供独立的数据服务
-
提供整体化的解决方案
-
数据治理
-
数据治理是企业、政府、社会、市场等多参主体,通过技术、制度、人员、法律等多种手段,提升数据质量与应用价值、促进数据资源整合与流通共享、保障数据安全等目标的一整套行为体系
-
组织内部数据管理能力逐步提升
-
企业积极实践数据资源管理
-
不同行业的数据资源管理实践模式有所差异
-
国际数据管理协会(DAMA)的数据管理模型、数据治理研究所(DGI)的数据治理框架等为代表的理论框架
-
我国国家标准GB/T36073-2018《数据管理能力成熟度评估模型》,简称DCMM
-
理论共性逐渐被行业个性所取代
-
金融行业普遍“管理制度先行”
-
针对性的建立数据质量部门、数据标准部门、数据开发部门、数据分析部门等相关的管理部门
-
数据资产管理活动则侧重监管数据治理、信息系统、数据安全、应急预案
-
互联网企业通常‘实践探索先行’
-
将数据模型、数据仓库、数据分析作为核心应用
-
随着网络数据安全保护能力专项行动的开展和个人信息保护的加强,数据安全也逐渐成为互联网企业的关键资产管理活动
-
不同行业的数据资产综合治理能力差距明显
-
金融、电信、互联网等行业的数据资产管理综合能力多处于稳健级和量化管理级,其他行业多处于初始级和受管理级
-
政府数据管理水平不断提高
-
一方面,多地颁发的政府数据管理办法明确了数据权责清单
-
另一方面,各地加强了对数据 质量、数据标准、数据目录、元数据、数据采集、数据审计和数据安全等方面的要求
-
组织间的数据共享与流通加速推进
-
各地政府数据开放共享效果显著
-
一方面,各地政府数据开放共享的制度体系逐步完善
-
确定数据共享开放内容
-
在共享开放数据范围方面
-
在共享开放数据成果形成方面
-
另一方面,各地政府数据开放共享的落地实施进展加快
-
数据交易市场建设正在努力探索
-
数据交易所的定位和模式未明、数据交易配套的法律未完善
-
新设大数据交易中心基本情况
-
山东数据交易公司
-
功能定位:省级综合性数据服务平台
-
服务模式:提供数据交易平台、数据产品开发、数据应用、公共数据资源开放及其他类型等五大类服务
-
覆盖的数据资源:以公共数据资源为基础,吸引商业数据资源,依托华东数据联盟,吸引跨省数据资源
-
湖南大数据交易中心
-
功能定位:具有全国、全球影响的数据集聚、流通、应用的数据资源交易场所
-
服务模式:采取淘宝的运营模式,为有交易需求的数据资源提供数据存储、定价、交易、监管服务
-
覆盖的数据资源:作为国家地理空间信息中心的南部分中心,汇聚湖南,福建、广东、海南等南方九省的地理信息空间数据资源,并以此为基础,整合政务数据,通信运营商数据、互联网企业数据、金融数据等。
-
北部湾大数据交易中心
-
功能定位:以政府指导,自主经营,市场化运作为原则的国际化数据资源交易服务机构和数据服务全生态交易平台
-
服务模式:以交易佣金、授权使用费、资源使用费、定制产品开发费、数据深度加工服务费等为盈利模式
-
覆盖的数据资源:面向国内和东盟地区各国汇聚、处理、使用、和交易各类数据产品
-
北京国际大数据交易所
-
功能定位:数据信息登记平台;数据交易平台;数据运营管理服务平台;数据资产金融创新服务平台;数据金融科技平台
-
服务模式:基于五大功能定位体统数据信息登记服务、数据产品交易服务、数据运营管理服务、数据产品金融服务和数据资产金融科技服务
-
覆盖的数据资源:北京市政府部门将数据目录中的公共数据通过无条件开放和授权开放形式有序汇聚,同时驱动商业数据聚集
-
数据安全治理成为不可忽视的焦点
-
数据安全标准制度体系逐步构建
-
数据安全管理的相关标准制度不断完善
-
《信息安全技术 数据安全能力成熟度模型》(GB/T 37988-2019)简称DSMM正式成为国标
-
DSMM从数据采集安全、数据传输安全、数据存储安全、数据处理安全、数据交换安全、数据销毁安全六个维度提出了覆盖生命周期的数据安全能力要求
-
工信部发布《工业数据分级指南(试行)》
-
指导工业领域产品和服务全生命周期产生和应用的数据的分类分级工作
-
《网络数据安全标准体系建设指南(征求意见稿)》
-
提出了到2021年,初步建立网络数据安全标准体系
-
到2023年‘健全完善网络数据安全标准体系’的标准制度建设目标
-
中国人民银行发布《金融数据安全 数据安全分级指南》(JR/T 0197-2020)
-
金融行业标准,明确了数据安全定级的要素、规则和定级过程,并给出了金融行业机构典型数据定级规则供实践参考
-
行业级数据安全合规的监管行动正在积极开展
-
2019年7月1日,工信部印发《电信和互联网行业提升网络数据安全保护能力专项行动方案》
-
2020年5月4日,工信部发布了《2020年电信和互联网企业网络数据安全合规性评估要点》
-
明确了行业数据分类分级、安全评估、安全认证、预警处置等关键制度规范和要求
-
企业数据安全治理实践逐步深入
-
一方面,重视数据安全制度建设成为各类企业共识
-
小米为例:
-
事前安全防范
-
指定数据安全管理细则与完善审批流程
-
大数据资产管理、数据分级分类制度与合作方调研审查
-
事中安全管控
-
数据权限管理
-
数据共享管理
-
合作方数据安全管理
-
个人信息保护
-
事后稽核审计
-
数据安全审计
-
数据安全预警
-
应急处置
-
另一方面,数据安全技术应用是保障企业数据安全的重要支撑
-
以联通为例:
-
数据采集环节:数据分级分类、身份认证、数据加密
-
数据存储环节:数据脱敏、细粒度权限与访问控制、多副本多节点备份
-
数据挖掘环节:对数据使用行为进行监测
-
数据发布环节:进行内容审计、数据溯源与合规管控
-
数据销毁环节:进行定期销毁
-
通过开发数据资产地图、数据安全网关、全息审计平台等配套产品保障了企业内部数据安全治理实践的技术应用
-
大数据法制
-
安全问题:侵犯个人信息和隐私,泄露国家秘密,数据被截获,篡改和伪造,数据权属不明,数据垄断以及不正当竞争等
-
2020年7月,《中华人名共和国数据安全法(草案)》面向社会公开征求意见
-
在数据分级分类、监测预警和应急处置 等数据安全相关的各项管理制度和数据安全责任体系构建等方面提出要求
-
可实际操作落地的具体化规定仍然不足,在如何划分重要数据的权属边界、数据交易如何等问题还有待进一步落实。
-
强化个人权益,个人信息保护立法加快
-
数据立法缺失:非法获取、分享和交易导致的个人信息泄露与滥用。骚扰电话、短信、电子邮件泛滥,个人财产损失和名誉损害事件屡见不鲜
-
2020年10月,《中华人民共和国个人信息保护法(草案)公布》,草案确立了个人信息处理应当遵守的原则
-
强调处理个人信息处理的主要合法性基础
-
取得个人同意
-
为订立或者履行个人作为乙方当事人的合同所必须
-
为履行法定职责或者法定义务所必需
-
为应对突发公共卫生事件,或者紧急情况下为保护自然人的生命健康和财产安全所必须等
-
坚持多边合作,数据跨境流动和立法加强
-
明确权利属性,数据权属立法探索初现
-
《深圳经济特区数据条例》