大数据治理
第2章大数据治理的框架
-
大数据治理框架由三部分组成 大数据类型、信息治理准则、产业和 功能场景
-
大数据类型:
-
大数据治理需要高度聚焦于数据本省。我们将大数据分为五种:Web和社交媒体数据、机器对机器的数据、大体量交易数据、生物计量学数据和人工生成的数据。
-
信息治理原则:
-
传统的信息治理原则,同样适合于大数据,7个相关准则包括组织、元数据、隐私、数据质量、业务流程整合、主数据整合和信息生命周期管理。
-
组织:将大数据纳入信息治理总体框架,包含宪章、组织结构、角色和责任
-
元数据:见大数据与企业的元数据库进行整合,从Haddop中将技术元数据引入元数据库。
-
管理数据血统,并在大数据环境中对分析施加影响
-
隐私:识别敏感数据,并制定有关敏感数据的可接受使用的政策。
-
数据质量:包括测量、提升和论证质量及整合组织数据的方法,,数据质量管理需要实时化,解决结构化和非结构化数据相关的问题。
-
业务流程整合:识别需要大数据的核心业务流程,因而必须识别支持大数据治理的关键政策
-
主数据整合:大数据治理需要制定有关将大数据整合到主数据管理环境的政策。
-
信息生命周期管理:决定何种数据应保留在运营分析系统中,何种数据要予以存档,何种数据要予以删除。
-
产业与功能
-
大数据分析是受用例驱动的,用例的具体情况因产业功能而异。
-
医疗产业:
-
场景1:由于美国医疗保险和可携带和可归责法等隐私保护规制的存在,健康计划的在线应用受到某种程度的限制
-
解决方案:情绪分析
-
大数据类型:Web和社交媒体(健康计划)
-
准则:隐私
-
如果有人在Twitter上发帖投诉,健康计划可能会以简短回帖响应,然后进行线下交流。
-
场景2:保留原始数据和修正数据
-
解决方案:医疗监护
-
大数据类型M2M(医疗机构)
-
、准则;数据质量、信息生命周期管理、隐私
-
场景3:
-
解决方案:投诉分析
-
大数据类型:大体量交易数据(健康计划)
-
准则:数据质量
-
场景4
-
解决方案:员工论证
-
大数据类型:生物计量学数据(医疗机构)
-
准则:隐私
-
场景5:
-
解决方案:基于电子病历的预测建模
-
大数据类型:人工生成的数据(医疗机构)
-
准则:数据质量
-
场景5:公共事业
-
解决方案:只能仪表
-
大数据类型:M2M数据
-
准则:隐私、西悉尼生命周期管理
-
零售业:场景1 将主数据应用于顾客、产品、雇员和商店选址
-
解决方案:Facebook忠诚度应用
-
大数据类型:Web和社交媒体数据
-
准则:隐私、主数据整合
-
零售业,场景2 RFID技术,追踪供应链中商品的运动状况,其运动轨迹包括从制造生到分销中心和商店的全部过程,如果RFID标签与个人身份信息结合,就会产生隐私问题。
-
解决方案:RFID标签
-
大数据类型:M2M数据
-
准则:隐私
-
零售场景3:零售商使用人脸识别软件,分析顾客年龄和性别,并向其发送精准的广告。
-
解决方案:基于人脸识别和社交媒体的个性化消息传送
-
大数据类型:Web和社交媒体数据、生物计量学数据
-
准则:隐私、业务流程整合
-
电信业,场景1 将客流分析场景外包给国外
-
解决方案:客户流失分析
-
大数据类型:Web和社交媒体数据,大体量交易数据
-
准则:营私、主数据整合、数据质量
-
电信场景2:分享用户地理位置数据造成的风险
-
解决方案:位置服务
-
大数据类型:M2M数据
-
准则:隐私
-
大数据治理计划需要权衡新收入源潜在的收益和可能涉及的隐私风险。
-
保险业,场景1:许多保险公司使用社交媒体调查索赔,但是大多数规制部门依旧不允许承保人在承保过程中使用社交媒体制定保单费率
-
解决方案:索赔调查,承保
-
大数据类型:Web和社交媒体数据
-
准则:隐私、业务流程整合
-
保险业 场景2:车载传感器采集投保人驾驶行为的汽车通信数据,数据量大,所以必须制定数据保留期
-
解决方案:车载通信技术
-
大数据类型M2M数据
-
准则:信息生命周期管理
-
保险业 场景3 缺乏参考数据的集中化资料库的情况下,很难对保单定价并处理索赔,因为数据在精算师和保险公司手中。
-
解决方案:索赔处理
-
大数据类型:大体量交易数据
-
准则:主数据整合、业务流程整合
-
保险业:基因检测,带来隐私问题
-
解决方案:核保
-
大数据类型:生物计量学数据
-
准则:隐私
-
石油和天然气业 场景1:
-
解决方案:地址空间和地震分析
-
大数据类型:M2M数据
-
准则:元数据
-
石油和天然气业,场景2:
-
解决方案:钻探设备和环境监测
-
大数据类型:M2M数据
-
准则:信息生命周期管理
-
消费品行业:
-
解决方案:需求信息库(DSR)
-
大数据类型:大体量交易数据
-
准则:业务流程整合、主数据管理、数据质量
-
银行,场景1 风险管理部门需要基于最新财务信息来更新客户层级
-
解决方案:风险管理
-
大数据类型:Web和社交媒体(Web内容)数据
-
准则:主数据整合
-
银行 场景2
-
解决方案:信用、收款
-
大数据类型;Web和社交媒体数据
-
准则:隐私
-
铁路业,场景:
-
解决方案:定期检修
-
大数据类型:M2M数据
-
准则:数据质量、信息生命周期管理
-
教育业
-
解决方案:纵向数据仓库
-
大数据类型:Web和社交媒体数据
-
准则:隐私
-
、客户服务功能:
-
解决方案:呼叫监视和对呼叫中心克服人员记录的分析
-
大数据类型:人工生成的数据
-
准则:主数据整合、隐私
-
信息技术功能:IT部门借助于大户数据分析应用日志,获得可提高系统绩效的洞察力,由于应用服务商的日志文件的使用格式不同,在得到有效使用之前,日志文件首先要被标准化。
-
解决方案:日志分析
-
大数据类型:M2M数据
-
准则:元数据
-
市场营销功能
-
解决方案:情绪分析
-
大数据类型:Web和社交媒体数据
-
准则:主数据整合、数据质量、隐私
-
生产运营功能
-
解决方案:运营管理
-
大数据类型:M2M数据
-
准则:隐私
-
人力资源功能
-
解决方案:招聘筛选
-
大数据类型:Web和社交媒体数据
-
准则:隐私
-
信息安全功能:安全信息与事件管理SIEM工具,从企业系统、应用、网元和安全设备中聚合日志数据,对聚合数据进行关联分析,判断安全事故是否会发生
-
解决方案:网络分析
-
大数据类习惯:M2M数据
-
准则:元数据
第3章 成熟度评估
-
IBM信息治理委员会的成熟度模型
-
11个信息治理成熟度指标
-
业务成果:地表西悉尼治理计划的目标和目的
-
组织结构和认知:指业务部门和IT部门间的相互责任,以及对治理不同管理层次中数据的信托责任的认识。
-
管理人员。指在保护数据监护,实现资产增值、风险消解和组织控制的质量控制准则。
-
数据风险管理。据以识别、保留、量化、规避、接受、消解和转嫁风险的方法论。
-
政策。期望得到落实的组织行为的书面表达
-
数据质量管理。指测量、提高和保证铲平数据、测试数据和归档数据的质量和集成性的方法。
-
信息生命周期管理。有关信息采集、使用、保留和删除的系统化、基于策略的方法。
-
信息安全与隐私。组织用于消解风险和保护数据资产的策略、实践和控制手段。
-
数据架构。结构化和非结构化数据系统及应用的架构式涉及,用于实现数据的可用性,并将数据分配给合适的用户。
-
分类和元数据。指用于创建常见的语义定义、IT术语、数据模型和数据库的方法和工具。
-
审计信息日志和报告。指监测和测量数据价值、风险和信息治理有效的组织流程。
-
成熟度的示例问题
-
业务成功
-
是否已经确定了大数据治理计划的关键业务关联方
-
是否对大数据治理可能带来的财务收益进行了量化
-
组织结构和认识
-
是否为需要治理的大数据分类规划了优先级
-
是否已扩充了信息治理章程,使其覆盖了大数据
-
关键角色的职位说明中,是否包含大数据治理,如配备首席数据官和信息治理官
-
组织是否配备了数据科学加,如已经配备,那么他们是否代表信息治理委员会
-
信息治理委员会是否已经解决了所有的大数据问题
-
西悉尼治理委员会是否已经解决了大数据和主数据(如将社交媒体数据集成到客户主数据之中)的融合问题
-
管理人员
-
如何解决大数据的管理问题
-
对现有管理人员的职位描述加以扩展(例如,客户数据管理人员需要负责社交媒体方面的工作)
-
指派另外的大数据管理人员(如,社交媒体管理人员负责处理该领域特有的隐私问题)
-
数据管理人员是否要负责从法律、市场营销和其他部门收集有关可接受的大数据使用过的意见
-
是否已经建立了责任分配举证(RACI)以定义针对大数据关键属性的角色和责任
-
数据管理角色是否由人力资源部门加以规范
-
数据风险管理
-
风险管理是否是大数据治理中的关键组成部分
-
是否在大数据治理和风险管理之间建立了联系
-
政策
-
是否已经 归档了一组大数据治理政策
-
是否已将政策转化成一组运营控制措施
-
是否在利用治理、风险和合规性(GRC)框架,对运营控制措施的遵守情况进行监控
-
大数据平台支持这些政策吗
-
政策与业务流程一致吗
-
数据质量管理
-
对于与大数据相关的质量问题(数据价值不该或不显著),是否达成了一致意见
-
对糟糕的大数据质量的财务影响,是否达成了一致意见
-
在组织中,数据质量政策是否同时应用于实时技术(流式传输)和静态技术(Haddop)
-
糟糕的主数据质量如何影响大数据
-
是否使用非结构化数据提高人口稀疏数据的质量,增加数据维度
-
是否考虑过与机器间通信相关的数据质量问题(例如,在某些读取角度和高湿度环境中,RFID读书可能易于出错)
-
分析能力容忍质量糟糕的数据或者质量参差不齐的数据吗
-
如何发现干扰数据
-
设定了限于解决不同层面可信度问题的数据类型吗
-
大数据生命周期管理
-
大数据的存储量是多少,预计年增长率是多少
-
大数据的存储陈哥不能是多少,预计年增长率是多少
-
是否理解治理大数据保留的法规要求
-
是否理解推动大数据保留的业务需求
-
是否扩展了保留计划,将大数据包含其中
-
是否计划中包含按国家、州的要求治理大数据保留测法律引擎
-
是否创建了从保留计划到大数据物理存储库的指导方针
-
是否制定了流程,依法保留仍在诉讼期的大数据
-
是否制定了流程,根据法律和业务要求合法处理不再需要的大数据
-
是否会在Haddoop或者其他工具中压缩大数据
-
是否会存档大数据,一边降低it成本,提高应用绩效
-
信息安全和隐私
-
首席信息安全官是否是大数据治理计划的关键支持者
-
首席隐私官是否是大数据治理计划的关键支持者
-
是否理解各国,省制定的影响各类大数据的隐私法规
-
是否理解使用Facebook,Twitter和其他类型社交媒体数据的条款
-
是否制定了有关客户社交媒体数据可接受使用的指南
-
是否定义了有关客户地理位置数据可接受使用的策略
-
是否与人力资源部门合作,建立了有关员工和应聘者的社交媒体与地理位置数据使用的政策
-
是否对生产系统中的敏感大数据进行了加密
-
是否在开发、商业智能和测试环境中,使用未屏蔽的敏感大数据,需要使用加密技术吗
-
数据架构
-
Hadoop、NoSQL以及与当前架构相关的其他新兴大数据技术的共存战略是怎样的
-
是否确定了哪些应用程序应该转入大数据基础架构平台
-
现代的ETL工具如何才能将数据导入并导出大数据基础架构平台
-
如何在大数据基础架构平台内利用数据压缩和存档技术
-
是否考虑过主数据对大数据的影响(也就是业务源数据)
-
是否考虑过参考数据(如医保索赔数据)对大数据的影响
-
能处理动态和静态大数据的质量吗
-
业务词库包括了大数据有关的关键定义吗
-
如何处理大数据的血统
-
在MapReduce中进行本机编程吗,如果不掌握MapReduce技术,那使用更高级的编程范式吗
-
如何处理不同层面的数据可信度
-
使用机器学习吗
-
大数据平台支持高级文本分析能力吗
-
分类和元数据
-
业务词库是否包含了与大数据相关的业务关键术语
-
企业是否指派数据管理人员来管理大数据的关键定义
-
如何处理大数据基础架构平台内的大数据血统
-
如何处理大数据基础架构平台内的大数据影响分析
-
是否会捕获关键的运营元数据,以识别未加载大数据的场景
-
审计信息日志和报告
-
企业中是否有数据库管理员、承包商和其他类型的第三方,能够对地理位置数据、电话通话详单、公共事业智能仪表读取和医保索赔等敏感的大数据进行未加密的访问
-
企业如何监测特权用户对医保索赔和通信详单等敏感大数据的访问
第4章 业务案例
-
通过大数据治理,提高运营实时性和录客安全度
-