从应用角度看,需大数据平台提供如下4项安全功能:
图1 大数据平台安全功能
1、边界——限制只有合法用户身份的用户访问大数据平台集群
(1) 用户身份认证:关注于控制外部用户或者第三方服务对集群的访问过程中的身份鉴别,这是实施大数据平台安全架构的基础;用户在访问启用了安全认证的集群时,必须能通过服务所需要的安全认证方式。
(2)网络隔离:大数据平台集群支持通过网络平面隔离的方式保证网络安全。
(3)传输安全:关注数据在传输过程中的安全性,包括采用安全接口设计及高安全的数据传输协议,保证在通过接口访问、处理、传输数据时的安全性,避免数据被非法访问、窃听或旁路嗅探。
2、访问——定义什么样的用户和应用可以访问数据
(1) 权限控制:包括鉴权、授信管理,即确保用户对平台、接口、操作、资源、数据等都具有相应的访问权限,避免越权访问;分级管理,即根据敏感度对数据进行分级,对不同级别的数据提供差异化的流程、权限、审批要求等管理措施,数据安全等级越高,管理越严格。
(2)审计管理:基于底层提供的审计数据,在权限管理、数据使用、操作行为等多个维度上对大数据平台的运转提供安全审计能力,确保及时发现大数据平台中的隐患点,视不同严重程度采取包括排除隐患、挽回数据、人员追责在内的多种补救措施,同时指导大数据平台不再重复类似的问题。
3、透明——报告数据从哪里来、如何被使用和销毁
(1)数据生命周期管理:理解大数据平台中数据的来源,以及知道数据怎么被使用的,何人在何地对其进行销毁,对监测大数据系统中是否存在非法数据访问非常关键,这需要通过安全审计来实现。安全审计的目的是捕获系统内的完整活动记录,且不可被更改。例如:华为的FusionInsight审计日志中记录了用户操作信息,可以快速定位系统是否遭受恶意的操作和攻击,并避免审计日志中记录用户敏感信息:确保每一项用户的破坏性业务操作被记录审计,保证用户业务操作可回溯;为系统提供审计日志的查询、导出功能,可为用户提供安全事件的事后追溯、定位问题原因及划分事故责任的重要手段。总之,大数据平台要能对数据进行全方位安全管控,做到“事前可管、事中可控、事后可查”。
(2)日志审计:日志审计作为数据管理,数据溯源以及攻击检测的重要措施不可或缺。然而Hadoop等开源系统只提供基本的日志和审计记录,存储在各个集群节点上。大数据平台应具备日志管理和分析能力。然而目前如果要对日志和审计记录做集中管理和分析,仍然需要依靠第三方工具(如ELK等)。
4、数据——数据加密和脱敏;多租户隔离;数据侵权保护;容灾管理
(1)数据加密:提供数据在传输过程及静态存储的加密保护,在敏感数据被越权访问时仍然能够得到有效保护。在数据加解密方面,能通过高效的加解密方案,实现高性能、低延迟的端到端和存储层加解密(非敏感数据可不加密,不影响性能)。同时,加密的有效使用需要安全灵活的密钥管理,这方面开源方案还比较薄弱,需要借助商业化的密钥管理产品。此外,加解密对上层业务透明,上层业务只需指定敏感数据,加解密过程业务完全不感知。
(2)用户隐私数据脱敏:提供数据脱敏和个人信息去标识化功能,提供满足国际密码算法的用户数据加密服务。
(3)多租户隔离:实施多租户访问隔离措施,实施数据安全等级划分,支持基于标签的强制访问控制,提供基于ACL的数据访问授权模型,提供全局数据视图和私有数据视图,提供数据视图的访问控制。
(4)数据容灾:为集群内部数据提供实时的异地数据容灾功能,例如Google的spanner作为NewSQL数据库对外提供跨数据中心的容灾机制。
(5)数据侵权保护:当存储数据为一种特殊的数字内容产品时,其权益保护难度远大于传统的大数据,一旦发生侵权问题,举证和追责过程都十分困难。大数据平台底层能利用区块链类似技术实现数据的溯源确权。
参考:
http://blog.sina.com.cn/s/blog_5946bd590102wj82.html
http://www.cac.gov.cn/wxb_pdf/5583944.pdf
http://www.freebuf.com/articles/database/131268.html
http://www.hxdi.com/chs/article.php?id=869
http://www.infoq.com/cn/articles/big-data-security-analysis-products