论文阅读笔记 : The State of the Art in Distributed Query Processing (略读)
Abstract
论文当时,分布式系统存在的一些问题
- 设计数千个异构站点和大型服务器 => 分布式系统庞大
- 分布式系统的状态快速变化,因为站点的负载会随时间变化,并且新站点会 添加到系统中
- 遗留系统需要集成,此类遗留系统通常不是为分布式数据处理而设计的,现在需要与分布式环境中的其他(现代)系统交互。
论文的主要内容:
- 介绍分布式数据库和信息系统查询处理的最新技术。
- 介绍分布式查询处理的体系结构
- 介绍对分布式数据库系统特别有用的技术
* 括特殊的连接技术
* 利用查询内并 行性的技术
* 降低通信成本的技术
* 利用数据的缓存和复制的技术 - 文讨论了不同种类的分布式系统以及这些系统中如何进行查询处理
* C/S
* 中间件(多层)和异构数据库系统
Background and Motivation
研究人员和从业人员关注大公司或组织的分布式数据管理,需求明确,但商业上没有成功。
早期的问题
早期好的构想和原型:System R
、SDD-1
、Distributed Ingres
不成功的两个原因
- 当时的通信技术难以稳定的按照系统的要求传输兆字节的数据
- 使用磁带软盘纸张等而不使用复杂的分布式系统
论文当时的情况
分布式数据系统变得可行且必需:1.硬件、软件协议、标准等在不断进步,2.业务需求不断变化
具体原因:
- Cost and scalability( 成本和可伸缩性 )
- 使用小型机组成的处理网络比大型机更便宜,性能更高,可扩展性更强。
- Integration of different software modules.
- 单一的package不能满足一个公司所有的需求,需要安装不同的package,这些package都有自己的database,这造成的结果就是一个分布式数据库系统。
- Integration of legacy systems.
* 旧的遗留系统需要和现代系统集成,被迫使用分布式数据处理。 - New applications.
- 新应用依赖分布式数据处理
- Market forces.
* 公司被迫重组业务和使用最新的分布式数据库技术。
The purpose of this paper is to give a comprehensive overview of what query processing techniques are needed to implement any kind of distributed database and information
本文的目的是全面概述实现任何种类的分布式数据库和信息系统所需的查询处理技术。
such as 优化器的设计,缓存复制技术。
分布式数据查询的基本方法和技术
目的:通过介绍各种分布式数据查询处理的技术来概述分布式数据系统中的一些准则
- 查询处理器的体系结构
- 查询优化
- 查询执行技术
针对特定的数据系统上的技术实现
C/S 系统
讨论cs系统中查询优化和查询执行问题,介绍cs系统中的流行的查询处理技术,介绍的一些技术同样适用于其他的分布式系统
异构的数据库系统
展示在异构的数据库系统中如何进行查询处理操纵。
目的是为了使得需要面对多种数据库组件的应用开发成为可能。
动态数据palcement
前面三个部分解决了:给定query和data location的情况下,如何又快又便宜的执行。
从另一个角度看待问题,应该将数据放在什么位置来达到cheaper and faster 的 目的。
数据的位置:静态 => 动态
分布式查询处理的新结构
尽管前面介绍的数据查询处理技术已经能够满足今天的应用系统。
因特网的发展使得应用程序越来越多,客户机和服务器的数量不断增加。前面的查询处理方法可能会过于的僵化。
描述论文当时最新的趋势和发展:简要概述用于分布式数据查询处理和基于传播的信息系统的经济模型。
Conclusion
分布式数据系统格局发生巨大变化,balabala….
文章主要介绍为最新产品和研究原型开发的各种查询处理技术,以及他们是如何应用在不同的分布式数据系统中的。
所有的系统基本上都要遵循两个原则:
-
尽力而为
-
灵活的数据放置
文中介绍的分布式查询处理技术没有被完全集成在数据系统中,最好是可以集成在现代的数据库管理系统中这样的话应用系统就可以直接使用。
可扩展性的问题:需要多对尽力而为和查询优化进一步的研究,没有在大规模的数据中对上述的技术进行测试。
本文只是研究了关系型结构的数据库,需要在集成如XML图像等类型的结构上做进一步的研究