【IT168 专稿】本文根据【2016 第七届中国数据库技术大会】现场演讲嘉宾白芸老师分享内容整理而成。录音整理及文字编辑IT168@杨璐@ZYY
讲师简介
▲人大金仓大数据业务部总监 白芸
白芸,毕业于中国人民大学信息学院,获得计算机及应用专业硕士学位。 毕业后进入北京人大金仓信息技术股份有限公司,参与金仓数据库产品的研发,曾任咨询服务部总监、产品中心总监,现任大数据业务部总监,负责大数据系列产品研发,以及大数据解决方案的咨询和实施服务。
正文
大家上午好!我今天分享的主题是《数据之道 笃行拓新》。
笃行拓新,人大金仓一路成长
人大金仓起源于人民大学,1999年人大一批做科研的老师,想把自己的科研成果转化为对中国人有用的产品,便开创了这家公司。后来我们也在逐渐发展,现在的股东是中国电子科技集团,太极计算机股份有限公司以及中国人民大学。
我们致力于打造中国本土产品,一方面我们承担了国家的重大专项,另一方面我们也在市场努力推广我们的产品,目前我们所统计到的产品实际应用量已达到45万套。
人大金仓自成立以来,一直坚持走数据库的道路,但我们也在不断开拓创新。从2011年开始,我们就从数据库向解决方案方向转型。到去年底,我们开始正式推广大数据业务。根据过去的技术积累,今天跟大家分享一下人大金仓在大数据上的想法和理念。
人大金仓有两条业务线,数据库业务和大数据业务。数据库业务又分为交易型应用、分析型应用、嵌入式应用。大数据方面,我们也有自己的组织方案和产品,今天给大家重点分享大数据中心技术层面的具体架构方案。
专注技术,人大金仓大数据业务二三事
很多人可能会好奇,人大金仓怎么想起来做大数据了。当然,我们也是经过深思熟虑的,我们对自己有一个定位。大家印象中,人大金仓的标签可能还是数据库。所以我们在选择做大数据时对自己是有定位的。如下图所示,是全球大数据产业分类,大家可以看到有Open Source、Analytics、Data Sources等等很多。我们做数据库也致力于做技术发展。
国内也有机构对国内的大数据产业做过一个分类,如下图所示,包括分析应用、基础架构、数据源等等。但少了开源和跨平台产能架构,我们也希望中国有一天也可以拥有自己的开源社区。
所以在这两个领域,我们经常会对自己的业务有一个聚焦,原来我们卖数据库,现在我们卖解决方案、产品和服务,帮助用户把大数据建设落地。
数仓向大数据中心演进,人大金仓大数据中心技术架构
下面是我今天分享的重点话题——人大金仓的大数据中心到底是什么架构。我们在建大数据中心的过程中要考虑哪些环节。首先要有自己的想法,想明白传统数据 仓库和大数据中心到底有什么区别,这些都想明白才足以应对数据中心建设过程中的各种问题。第一个问题是面对的数据类型可能比原来结构化时多了很多,我们传 统数据仓库的数据质量还是比较高的,因为数据都来自于业务系统原有的业务数据,基本上都是在业务系统运转良好的情况下获得的,质量是可以保证的。但大数据 的质量由于无法保证,来源多样,可能导致其数据质量较低。
从价值的角度说,传统的数据仓库只要进入业务系统,比如进行数据分析,数据的价值基本上是很高的。但大数据里面的数据价值是不确定的,必须通过很复杂的 分析才能找到背后的隐藏价值。用户在使用数据仓库和大数据的过程中,比如建数据仓库,用户经常会有明确的需求。但如果是大数据中心,我们经常遇到搞不清需 求的用户。数据仓库背后的相关技术已经成熟,但大数据中心的相关技术和工具基本都还在发展中。
所以建大数据中心的过程,必须从数据仓库向大数据中心演进。比如底层,我们要用低成本的硬件平台替代原来的平台,从原来的方式向综合性数据采集平台演进,往海量数据模型处理平台发展,从传统BI向复杂分析挖掘过渡。
基于上述种种考虑,我们画了一个可视化,来展示大数据中心里面包含的环节,基础架构要考虑的环节,从数据产生到采集处理和数据存储,如何分析利用这些数据,最后展现到用户面前。整个过程要对数据中心做统一管理。如上图所示,还包括一些统一的运营规划和聚焦位置。
大数据中心技术架构之数据采集
数据采集涉及结构化和非结构化数据,结构化数据是大家很熟悉的技术,可以通过一系列转换,把原有的业务系统数据分离到目标存储里,这是传统的结构化数据中心,只是我们增加了一些面向更多业务或更多处理规则的扩展,但原理是一致的。
我们通常是用开源架构里的已有组件,实现对非结构化数据或对互联网数据的采集处理,我们有从关系数据库到Hadoop或流数据的服务,实时处理语言、处理框架、网页爬虫引擎都可以帮助我们把数据导到里面,再根据具体的数据决定应该用哪种技术处理。
所以综合上面两种情况和技术,我们整个大数据的处理流程分解来看,就是针对不同的数据,包括结构化的,互联网的,还有从其他地方来的,通过ETL、流处理进入大数据存储,其背后的存储方式可能是多种多样的。以下是我们数据采集的一个产品:
大数据中心技术架构之数据存储
数据采集完成后,要进行数据存储,我们又面临着一些新的问题,对于结构化数据,原来的单机解决不了海量数据存储,也解决不了海量数据的分析计算,所以提 出了MPP架构。通过横向扩展一方面解决了数据登陆问题,另一方面解决了分布式计算问题。这是一个很通用的技术。对结构化数据完全可以用MPP解决,它可 以线性拓展,容量最大可扩展到PB级。
对非结构化数据存储也有很多方法,有的用文件系统,如果你的业务系统是文件的话,可以直接存到数据库管理系统。第二个方法是——Hadoop。基于 Hadoop技术,我们也有产品适用于大数据中心——大数据管理平台,它是基于Hadoop做的,但我们把常用的组件包放到了平台上。
我们的不同之处在于,第一我们的SQL和Hadoop是面向企业级用户的,企业可能用惯了MySQL,、Sql Sever、金仓等数据库,我们在SQL和Hadoop上增加了很多面向企业的需求,去支撑上层应用。另一点是在安全方面,我们有自己的创新。熟悉大数据 平台的也熟悉Hadoop里的安全管理办法,但我们会把原来关系数据库里用到的一些安全技术,用在大数据平台上。由于我们面向的应用比较多,所以我们会把原来对数据库的需求体现在大数据平台里。
我们的一款数据库可以支持HDFS,并且用户可以直接通过sql访问到HDFS。为了提供一些简单的数据挖掘能力,用户可以直接在集群上通过sql调用 挖掘算法和接口,它可以直接进行一些简单的计算,而不需要用挖掘工具连到数据库上做挖掘,这是它的特别之处。我们也有相应的产品应对我们在存储关键技术上 的需求。
大数据中心技术架构之数据分析挖掘
数据存好后要做分析挖掘,分析挖掘也有多种需求,比如要进行可视化展现,要检索,做报表,分析,跟GIS平台结合,做预警,还有传统的OLAP分析。
针对大数据的分析需求,我们也有相应的产品。面对这样的需求,我们可以提供相应的解决方案,包括可视化我们也有多种展现方式,包括企业用户需要做查询还 有传统分析时,我们可以把我们的BI架到数据库上做一些分析。还可以生成很多复杂报表。中国用户有一个特点就是中国人喜欢灵活的报表,可以随时增删改查最 好。对于这些需求,国外的BI软件基本上是不支持的,这对于国产BI是比较有优势的。除此之外,我们也可以对我们定义的规格产生一些预警提示。
我们与GIS平台的结合支持三种情况,并且是完全统一的,一是内置的HTML地图,二是ArcGIS,三是百度/谷歌公用地图。我们可以把分析结果展现到地图上(效果如下图所示)。
另一点就是挖掘,市面上可能也有很多挖掘工具,我们的与大家见到的挖掘工具很类似,只是面对的挖掘分析需求不太一样。一方面我们能够实现很多挖掘算法,另一方面我们的挖掘也在向情报分析需求方向演进。
传统挖掘主要是做描述式软件的,是什么数据就展现什么样,但很多潜在的关系是看不出来的。从大量的数据,文字描述里找到背后人与人之间的关系,是传统工 具做不到的,而我们需要应对这样的情况。我们的挖掘增加了关联分析的能力,现在互联网的很多网页,网站数据,论坛内容,互联网数据背后会潜在什么样的价 值,互联网上讨论的热点,大家对某一个话题的赞同或不同意的一些分析,这些都可能不再是传统数据挖掘能解决的问题了,所以在挖掘方面我们还在不断探索背后 的隐藏价值。
数据存储完毕就要进行分析,但在大数据中心的建设过程中,这个数据不光为自己所用,所有建大数据中心的项目都有一个前提条件——数据共享交换。大家可能 关注国家大数据的建设方向,就是数据要服务于大数据应用。单一的一块数据可能是不够的,需要跟外面的数据做共享交换,这个过程增加了一个技术难点——数据 利用,怎样让数据被利用起来,比如怎么做资源用户发布,如何为别人提供数据服务。
大数据中心技术架构之数据利用
我们如何以服务的方式把数据提供出去,建设数据仓库的时候,企业里面的数据仓库有很多数据,企业的信息部门是很精准的,但一个大数据中心的建设过程,里 面的数据就很复杂了,我们必须把大数据中心里的数据称为数据资源,我们要做管理分类,才能让想访问这个数据中心的人,清楚的看到里面有什么数据,哪些是有 用的,哪些是需要获取的,所以需要对数据做一个资源编目,这有点像图书管的编目,我们要运用一些标准对数据做分类描述。
通过数据资源目录编目,可以看到数据中心里的数据,我想要落实、获取这个数据,这称为共享交换。有两种模式,一是独立主权交换,就是每个人都有自己的数据,所谓的大数据中心在虚拟上看是一个大数据中心,但数据还是在各自的地方,因为存在主权问题。
独立主权交换的过程是我要获得这个数据,我需要了解有什么数据可以运用,要通过什么方式才可以获得对方的数据,交换过程中,首先我要知道所需数据在何处,其次提出申请,审核成功后,别人可以把这个数据通过技术手段共享给你,这就是整个的流程。
第二种方式是集中共享,也是现在很多大数据中心建设的常用方式,就是把不需要共享的数据放在一起,把共享的内容单独建一个数据中心,大家都访问这个数据中心就可以了,而数据中心里的数据来自于其它信息系统。
集中共享也有一个典型案例,比如政府会把各个业务中所有跟人相关的数据放到共享里,谁需要什么数据,就根据自己的需要去查。所以在建大数据中心的过程中一定要提前想好什么数据是不准备交换的,什么数据是可以共享的。
大数据中心架构之数据管理
最后一个环节就是管理,数据中心建好以后需要有一些类似于传统数据库DBA的角色,他要对数据中心的运作做一个相关管理,包括资源维护,数据库运行维护等,源数据是不是有变化,数据质量是不是合规,它背后是需要有人做一些管理工作的,我们称之为数据管理。
首先说一下数据库管理,通常情况是我有一个前端管理平台,可以对现在整个数据中心里运行的所有主机上的数据库做统一管理,并且还可以针对具体数据库进行单独访问,看到数据库的具体情况,这是数据库管理平台的管辖范围。
刚刚说的管理也涉及元数据的管理,我们在建一个数据中心的时候,一定要清楚进入数据中心的数据需要符合什么标准,标准化是很复杂的一个流程,通常简化处 理,我们要搞清楚标准都包含哪些,怎么执行标准化的过程,怎么维护标准化,这都是我们建数据中心过程中要考虑的问题。要是可以把这些问题想清楚,就会逐渐 实现数据的标准化。
定义了标准就要去维护,保护数据标准。我们要利用好元数据,很多人理解的元数据就是在数据库里定义一个表,包括自传,类型等。这只是元数据的一部分,真正的元数据管的是整个数据中心运行过程中所有环节规划性的东西,它不一定是针对数据的,每个环节都有要对应的元数据。
数据地图可以显示出表与表之间的关系,分析可以显示出数据源头之间的依赖关系,一条数据发生变动之后会影响到多少个表,可以很直观的看出来。元数据管理要干的事情很多,所以元数据管理不是一个产品而是服务,是背后用数据中心运行起来的服务。
还有另一个管理——数据质量管理,做软件开发的人都知道有软件过程管理,同样的,数据中心建设过程中也要保证数据质量,从监控到分析到跟踪,整个过程和软件质量的体系道理是一样的。
整个过程都是要发现问题、分析问题、解决问题,这是质量管理要干的事,比如数据是不是及时进入我的数据中心了,数据是不是对的,有效的。我导出来的数据 是不是有意义的,准确的,过程中会不会有丢失,实效性如何等等,这些是质量管理员要做的事情,它不是一个产品而是一个服务。在这方面我们也有一些自己的产 品,包括我们的自由管理品牌,数据库管理品牌等。
最后回到这张图上,我们可以看到一个大数据中心的建设,从采集到存储到全流程管理,有很多环节是需要认真考虑的。
我今天的分享到此结束,谢谢大家!