关系型数据库工作原理-快速缓存(翻译自Coding-Geek文章)

zoukankan html css js c++ java

关系型数据库工作原理-快速缓存(翻译自Coding-Geek文章)
本文翻译自Coding-Geek文章:《 How does a relational database work》。

原文链接：http://coding-geek.com/how-databases-work/#Buffer-Replacement_strategies

先翻译快速缓存章节。兴许有时间再翻译其他章节。
翻译内容在原文的文件夹：

一、数据管理器

数据查询器运行查询操作，从数据表中获取数据。它向Data Manger发送请求，获取数据。当中存在2个问题：

关系型数据使用事物模型。当数据库在运行改动操作时，不能运行查询操作。避免查询出脏数据。

数据提取是最慢的数据库操作，由于数据要从磁盘上读取。
因此，数据库必须要有一个非常强大的数据缓存系统。

本章。我们将看一下关系数据是怎样解决这两个问题的。
我们不会探讨数据库是怎样从磁盘载入数据的。这个不是本文的重点(受篇幅所限，不展开分析)。

二、快速缓存器

正如我之前所言。数据库的性能瓶颈是I/O。
为了提升性能，现代数据库都使用了快速缓存。

数据查询器从Cache Manger中获取数据。而不是直接从磁盘文件里读取数据。
Cache Manger管理着一片内存区域。叫缓存池。直接从内存获取数据，使得訪问数据库的性能突飞猛进。
可是，非常难评估使用快速缓存的重要性有多大，这取决于你要做什么样的数据库操作。

顺序訪问 VS 随机訪问。

读操作 VS 写操作。

以及数据库使用的是什么样的磁盘

7.2k/10k/15k rpm HDD

SSD

RAID 1/5/…

可是，我敢说使用内存快速缓存比不适用缓存直接从磁盘读数据快100到10万倍。
这也导致另外一个问题(全部的数据库都有这个问题……)，快速缓存器须要在查询器訪问数据之前预取数据，否则查询器须要挂起，等待快速缓存器把数据从磁盘载入到内存先。

三、缓存数据预取

问题的核心就在“数据预取”。
数据查询器清楚须要哪些数据，由于它了解每一次查询操作的详细要求，也清楚数据库表的存储结构。数据预取的基本逻辑是这种：

数据查询器在获取第一批数据时通知Cache Manger提前载入第二批数据到缓存中。

数据查询器在获取第二批数据时通知Cache Manger提前载入第三批数据，而第一批数据能够从缓存中移除了。

…….

Cache Manger存储全部的数据在缓存池中。
为了确定缓存池中数据是否正在被使用，Cache Manger须要维护一些关于这些数据的额外信息(被称之为锁的东西)。

但有时。数据查询器不清楚下一步须要什么数据，或者数据库没有提供指定预取哪些数据的功能。取而代之，数据库提供的是随机预取功能(比如，查询了数据1,2,3后，它由于你可能还须要7,8,9，提前把7,8,9载入到缓存中)或者顺序缓存功能（运行一次查询后。将磁盘上查询数据临近的其他数据也预取到缓存中）。

为了评估Cache Manger预期机制工作的效果。现代数据库系统提供一个指标度量：缓存命中率。缓存命中率描写叙述查询器从缓存中拿到数据的几率（在不须要读磁盘文件的情况下）。

说明：糟糕的缓存命中率。并不总是意味Cache工作得不好。很多其他信息可參考Oracle说明文档。

可是，快速缓存内存大小是受限的。缓存内容须要不断吐故纳新。缓存数据的载入和移除都须要消耗磁盘I/O和网络I/O资源。
假设某个查询操作要常常运行，缓存数据频繁的载入和移除是非常低效的。为了解决问题。现代数据库都使用了一些缓存置换策略。

四、缓存置换策略

大多数现代数据库缓存置换策略都使用LRU算法，至少SQL Server, MySQL, Oracle and DB2是这种。

1. LRU

LRU的意思是非近期当前使用。这个算法的是基于这样一种假设：近期使用过的数据，在将来被再次使用的概率非常大，须要驻留在缓存中。反之，非近期当前使用的数据可移除。

为了方便理解，我们假设缓存中的数据未被加锁(因此可被移除)。
举个样例说明它的工作原理。这个简单的演示样例中缓存池能容纳3个数据。

Cache Manger使用数据1后。将1放入缓存。

Cache Manger使用数据4后，将4放入缓存。

Cache Manger使用数据3后。将3放入缓存。

Cache Manger使用数据9后。将9放入缓存。
由于缓存已满，须要先移除一条数据。移除哪一条？
依据LRU原则，1是最远当前使用的数据，移除1后增加9。

Cache Manger使用数据4后放入缓存，4变成了近期被使用过的数据。调整顺序。

Cache Manger使用数据1后放入缓存，1变成了近期被使用过的数据。3被移除。

……

算法OK。但有一些限制，假设读取的是一张大表呢？换言之。读取的表数据太大，超过了缓存空间的大小。使用该算法将清除缓存之前全部的数据，即使新载入上来的这张大表数据仅仅会使用一次就不再使用。

2. 算法改进

为解决问题。一些数据库管理系统加了一些特殊规则。比如：Oracle规则说明：

对于超级大表的读取，直接从磁盘文件里读取数据。避免是用快速缓存。对于中型表。能够从磁盘文件直接读也能够用缓存。假设使用缓存应该把读取的数据放到LRU列表末尾(这样，新增加缓存数据时将先把该表的数据移除)。

LRU算法有高级版本号，叫LRU-K。比如SQL Server使用的LRU-K, K=2。
K代表的是考虑近期时间段，数据訪问的次数。
前面的样例是LRU-K算法最简单的样例。仅仅考虑一次訪问。K = 1。LRU-K的原理例如以下：

记录数据的近期訪问次数(最多记录K次)。

依据数据訪问次数，设置一个权值。近期訪问次数越多的权值越大。

当一批新的数据载入到缓存中时，权值大的数据不会被移除，即使该数据是非常早就载入到缓存中的。

假设数据长时间未被再使用，权值会逐渐减少。

权值的计算是非常耗资源的。这也是为什么 SQL Server使用K=2的原因。这种设置方式。投入产出比較高。

想更深入的了解LRU算法，能够參考一下算法文档（文档google）。

3. 其他算法

另一些其他算法策略，用于管理快速缓存器。

2Q(相似LRU-K算法)

CLOCK(相似LRU-K算法)

MRU（用得比較多的算法。逻辑相似LRU。用的是另一套规则）

LRFU(近期、最频繁使用算法)

……

一些数据库同意你使用除默认算法外的其他算法。多种方式可选。

五、写缓存器

前讨论的最多的是读缓存器。它在数据使用之前将其提前载入到内存。数据库中还存在一种写缓存器，它将多次操作改动的数据存储累计起来，一次写到磁盘文件。减少对磁盘IO的频繁訪问(数据库瓶颈在I/O)。

谨记，快速缓存中存储的是分页数据而不是人们直观印象中的行数据。假设缓存中的某一页数据被改动了，还没有保存到磁盘上，这页被称为“脏页”。有多种策略算法能评估脏页数据写到磁盘上的最佳时机，而这也和事物强相关(事务是下一章节将展开的内容)。

已翻译的《How does a relational database work》其他章节链接：
1. 关系型数据库工作原理-时间复杂度：http://blog.csdn.net/ylforever/article/details/51205332
2. 关系型数据库工作原理-归并排序：http://blog.csdn.net/ylforever/article/details/51216916
3. 关系型数据库工作原理-数据结构：http://blog.csdn.net/ylforever/article/details/51278954
4. 关系型数据库工作原理-快速缓存：http://blog.csdn.net/ylforever/article/details/50990121
5. 关系型数据库工作原理-事务管理(一)：http://blog.csdn.net/ylforever/article/details/51048945
6. 关系型数据库工作原理-事务管理(二)：http://blog.csdn.net/ylforever/article/details/51082294
查看全文

相关阅读:
Palindrome Partitioning
Minimum Path Sum
Maximum Depth of Binary Tree
Minimum Depth of Binary Tree
Unique Binary Search Trees II
Unique Binary Search Trees
Merge Intervals
Merge Sorted Array
Unique Paths II
C++ Primer Plus 笔记第九章

原文地址：https://www.cnblogs.com/zhchoutai/p/7262723.html

关系型数据库工作原理-快速缓存(翻译自Coding-Geek文章)

一、数据管理器

二、快速缓存器

三、缓存数据预取

四、缓存置换策略

1. LRU

2. 算法改进

3. 其他算法

五、写缓存器