目前,随着全球信息产业在不断融合发展,网络资源与数据规模也在不断增长,尤其是在科学研究(天文学、生物学、高能物理)等、计算机仿真、互联网应用、电子商务等领域,数据量呈现快速增长的趋势,并由此产生了许多机遇。
传统的数据分析技术已经越来越不适应当前密集型海量数据处理的需求。而近几年兴起的云计算(Cloud Computing),其实本质上是一种新的提供资源按需租用的服务模式,是一种新型的互联网数据中心(Internet Data Center,IDC)业务。可以根据需要访问的计算机和存储系统中的数据,把网络中的计算资源集中起来,虚拟为一个资源池,并且使用特定的软件实现自动化、智能化,使得各种计算资源可以协同工作,这一技术使得大数据分析成为了可能。
由Google 实验室提出了云计算中的Map/Reduce模型实现解决了这些问题,MapReduce这种分析大数据集的并行计算模型,在业界形成了“集群革命”。尽管MapReduce的分布式模型技术在模式上很简单,但还存在许多问题,比如需要数据分析人员自行设计编写Map与Reduce函数内部细节,所以传统的数据挖掘与知识发现算法,需要重新设计,才能更好地实现代码向数据迁移这一目标,所以传统算法的MapReduce化成为一个研究热点,值得我们深入研究。
自Google公司提出云计算的概念以来,很多千亿级的企业都相继拥有了自己的特色云计算产品。IBM推出了”蓝云”;微软推出了Windows Azure云计算平台;Amazon在原有的弹性云基础上建立了Amazon网络服务;SUN公司宣布了自己的“黑盒子”计划;苹果公司推出了“Mobile Me“;惠普、英特尔、雅虎、戴尔等公司巨头都纷纷加入。
空间数据库的研究经过了几十年的发展,涌现了大量的空间数据索引方法,传统的索引方法都是基于B树和散列索引的,这些索引方法比较适用于线性的结构,近年来,国内外学者提出了许多不同的空间索引方法:包括 R-树、R+-树、R*-树、区域四叉树和网格索引等,目前国内外主要的空间数据库大都采用 R-树系列和四叉树系列空间索引方法。后续的研究中,也出现了一些改进的空间索引方法,王淼在前人的基础上将R树与Voronoi图结合,提出了VR树索引用来解决最近邻查询问题。
关于空间查询和MapReduce结合的研究现在相对较少,Akdogan A.等人将基于Voronoi的空间数据查询与MapReduce编程模型结合,提出了高效并行空间数据查询。Stupar A.等人提出了RankReduce机制,将LSH和MapReduce相结合,并且空间数据索引是由分布式集群维护,解决了海量空间数据的K最近邻查询问题。Ariel Cary等人提出一种基于R-tree空间索引的MapReduce处理方法,该方法能够并行处理大规模数据,解决了两个问题:R-tree桶结构问题和航拍图像质量计算问题。