Cache和Buffer是两个不同的概念,简单的说,Cache是加速“读”,而 buffer是缓冲“写”,前者解决读的问题,保存从磁盘上读出的数据,后者是解决写的问题,保存即将要写入到磁盘上的数据。在很多情况下,这两个名词并没有严格区分,常常把读写混合类型称为buffer cache,在Oracle Instance里同样有一块区域作为数据库缓冲区&&高速缓存。
Oracle Overview
MySQL Memory Overview
数据库设计普遍都会有插入缓冲、双写(double wirte)的特性,这些特性为数据库带来了更好的性能和更高的可靠性能。
双写
Oracle中的redo log buffer和MySQL Innodb引擎中的日志缓冲是解决redo写入的问题,而database buffer cache和插入缓冲则解决data block的读写问题。
对于Oracle来说,如果IO没有在SGA中命中,都会发生物理IO,Oracle并不关心底层存储的类型,可能是一套存储系 统,可能是本地磁盘,可能是RAID 10,也可能是RAID 5,可能是文件系统,也可能是裸设备,或是ASM。总之,Oracle把底层的存储系统称为存储子系统。
存储系统
在存储系统中,buffer几乎无处不在,文件系统有buffer,存储有buffer,RAID控制器上有 buffer,磁盘上也有buffer。为了提高性能,Oracle的一个写操作,很有可能写在存储的buffer上就返回了,如果这时存储系统发生问题,Oracle如何来保证数据一致性的问题。
Oracle数据库最重要的特性是:Write ahead logging,在data block在写入前,必须保证首先写入redo log,在事务commit时,同时必须保证redo log被写入。Oracle为了保证数据的一致性,对于redo log采用了direct IO,Direct IO会跳过了OS上文件系统的cache这一层。但是,OS管不了存储这一层,虽然跳过了文件系统的cache,但是依然可能写在存储的cache上。
对于MySQL来说,redolog在每次事务commit的时候,就立刻将事务更改操作记录到redolog。所以即使bufferpool中的dirtypage在断电时丢失,InnoDB在启动时,仍然会根据redolog中的记录完成数据恢复。redolog的另一个作用是,通过延迟dirtypage的flush最小化磁盘的随机写入。(redolog会合并一段时间内TRX对某个page的修改)
一般的存储都有buffer,为了提高性能,写操作在buffer上完成就返回给OS了,我们称这种写操作为write back,为了保证掉电时cache中的内容不会丢失,存储都有电池保护,这些电池可以供存储在掉电后工作一定时间,保证cache中的数据被刷入磁盘, 不会丢失。不同于UPS,电池能够支撑的时间很短,一般都在30分钟以内,只要保证buffer中的数据被写入就可以了。存储可以关闭写cache,这时所 有的写操作必须写入到磁盘才返回,我们称这种写操作为write throuogh,当存储发现某些部件不正常时,存储会自动关闭写buffer,这时写性能会下降。
RAID
RAID卡上也有buffer,一般是256M,同样是通过电池来保护的,不同于存储的是,这个电池并不保证数据可以被写入到磁盘上,而是为 buffer供电以保护数据不丢失,一般可以支撑几天的时间。还有些RAID卡上有flash buffer,掉电后可以将cache中的内容写入到flash buffer中,保证数据不丢失。如果你的数据库没有存储,而是放在普通PC机的本地硬盘之上的,一定要确认主机中的RAID卡是否有电池,很多硬件提供商 默认是不配置电池的。当然,RAID卡上的buffer同样可以选择关闭。
磁盘
磁盘上的buffer,一般是16M-64M,很多存储厂商都明确表示,存储中磁盘的buffer是禁用的,这也是可以理解的,为了保证数据可靠性,而 存储本身又提供了非常大的buffer,相比较而言,磁盘上的buffer就不再那么重要。SCSI指令中有一个FUA(Force Unit Access)的参数,设置这个参数时,写操作必须在磁盘上完成才可以返回,相当于禁用了磁盘的写buffer。虽然没有查证到资料,但是我个人认为一旦磁 盘被接入到RAID控制器中,写buffer就会被禁用,这也是为了数据可靠性的考虑,我相信存储厂商应该会考虑这个问题。
至此,我们可以看到Oracle的一个物理IO是经历了一系列的buffer之后,最终被写入到磁盘上。buffer虽然可以提高性能,但是也要考虑掉电保护的问题。关于数据的一致性,是由Oracle数据库,操作系统和存储子系统共同来保证的。
插入缓冲
插入缓冲是InnoDB存储引擎的关键特性。它并不仅仅是缓冲池的一部分,InnoDB缓冲池中有Insert Buffer信息固然不错,但是Insert Buffer和数据页一样,也是物理页的一个组成部分。
mysql> create table t ( id int auto_increment, name varchar(30), primary key (id), key(name) );
- redolog是一个环(ring)结构,当redo空间占满时,将会将部分dirtypageflush到disk上,然后释放部分redolog。这种情况可以通过Innodb_log_wait(SHOWGLOBALSTATUS)观察,情况发生该计数器会自增一次。
- 当需要在Bufferpool分配一个page,但是已经满了,并且所有的page都是dirty的(否则可以释放不dirty的page),通常是不会发生的。这时候必须flushdirtypagestodisk。这种情况将会记录到Innodb_buffer_pool_wait_free中。一般地,可以可以通过启动参数innodb_max_dirty_pages_pct控制这种情况,当bufferpool中的dirtypage到达这个比例的时候,将会强制设定一个checkpoint,并把dirtypageflush到disk中。
- 检测到系统空闲的时候,会flush,每次64pages。
浅谈数据库系统中的cache