MySQL架构与历史

zoukankan html css js c++ java

MySQL架构与历史

　　和其他数据库系统相比，MySQL有点与众不同，它的架构可以在多种不同场景中应用并发挥好的作用，但同时也会带来一点选择上的困难。MySQL并不完美，却足够灵活，能够适应高要求的环境，例如Web类应用。同时，MySQL既可以嵌入到应用程序中，也可以支持数据仓库、内容索引和部署软件、高可用的冗余系统、在线事务处理系统 (OLTP)等各种应用类型。

　　为了充分发挥MySQL的性能并顺利地使用，就必须理解其设计。MySQL的灵活性体现在很多方面。例如，你可以通过配置使它在不同的硬件上都运行得很好，也可以支持多种不同的数据类型。但是，MySQL最重要、最与众不同的特性是它的存储引擎架构，这种架构的设计将査询处理（Query Processing)及其他系统任务（Server Task)和数据的存储/提取相分离。这种处理和存储分离的设计可以在使用时根据性能、特性，以及其他需求来选择数据存储的方式。

　　本章概要地描述了MySQL的服务器架构、各种存储引擎之间的主要区别，以及这些区别的重要性。另外也会回顾一下MySQL的历史背景和基准测试，并试图通过简化细节和演示案例来讨论MySQL的原理。这些讨论无论是对数据库一无所知的新手，还是熟知其他数据库的专家，都不无裨益。

1.MySQL逻辑架构

　　如果能在头脑中构建出一幅MySQL各组件之间如何协同工作的架构图，就会有助于深入理解MySQL服务器。图1-1展示了MySQL的逻辑架构图。

　　最上层的服务并不是MySQL所独有的，大多数基于网络的客户端/服务器的工具或者服务都有类似的架构。比如连接处理、授权认证、安全等等。

　　第二层架构是MySQL比较有意思的部分。大多数MySQL的核心服务功能都在这一层，包括査询解析、分析、优化、缓存以及所有的内置函数（例如，日期、时间、数学和加密函数），所有跨存储引擎的功能都在这一层实现：存储过程、触发器、视图等。

　　第三层包含了存储引擎。存储引擎负责MySQL中数据的存储和提取。和GNU/Linux下的各种文件系统一样，每个存储引擎都有它的优势和劣势。服务器通过API与存储引擎进行通信。这些接口屏蔽了不同存储引擎之间的差异，使得这些差异对上层的査询过程透明。存储引擎API包含几十个底层函数，用于执行诸如“开始一个事务”或者“根据主键提取一行记录”等操作。但存储引擎不会去解析SQL（InnoDB是一个例外，它会解析外键定义，因为MySQL服务器本身没有实现该功能。），不同存储引擎之间也不会相互通信，而只是简单地响应上层服务器的请求。

1.1 连接管理与安全性

　　每个客户端连接都会在服务器进程中拥有一个线程，这个连接的査询只会在这个单独的线程中执行，该线程只能轮流在某个CPU核心或者CPU中运行。服务器会负责缓存线程，因此不需要为每一个新建的连接创建或者销毁线程。(MySQL 5.5或者更新的版本提供了一个API，支持线程池（Thread-Pooling)插件，可以使用池中少量的线程来服务大量的连接。)

　　当客户端（应用）连接到MySQL服务器时，服务器需要对其进行认证。认证基于用户名、原始主机信息和密码。如果使用了安全套接字（SSL)的方式连接，还可以使用X.509证书认证。一旦客户端连接成功，服务器会继续验证该客户端是否具有执行某个特定査询的权限（例如，是否允许客户端对world数据库的Country表执行SELECT语句）。

1.2 优化与执行

　　MySQL会解析査询，并创建内部数据结构（解析树），然后对其进行各种优化，包括重写査询、决定表的读取顺序，以及选择合适的索引等。用户可以通过特殊的关键字提示 (hint)优化器，影响它的决策过程。也可以请求优化器解释（explain)优化过程的各个因素，使用户可以知道服务器是如何进行优化决策的，并提供一个参考基准，便于用户重构查询和schema、修改相关配置，使应用尽可能高效运行。

　　优化器并不关心表使用的是什么存储引擎，但存储引擎对于优化査询是有影响的。优化器会请求存储引擎提供容量或某个具体操作的开销信息，以及表数据的统计信肩等。例如，某些存储引擎的某种索引，可能对一些特定的査询有优化。关于索引与schema的优化。

　　对于SELECT语句，在解析査询之前，服务器会先检査査询缓存（Query Cache),如果能够在其中找到对应的査询，服务器就不必再执行査询解析、优化和执行的整个过程，而是直接返回査询缓存中的结果集。

2.并发控制

　　无论何时，只要有多个査询需要在同一时刻修改数据，都会产生并发控制的问题。本章的目的是讨论MySQL在两个层面的并发控制：服务器层与存储引擎层。并发控制是一个内容庞大的话题，有大量的理论文献对其进行过详细的论述。本章只简要地讨论MySQL如何控制并发读写，因此读者需要有相关的知识来理解本章接下来的内容。

　　以Unix系统的email box为例，典型的mbox文件格式是非常简单的。一个邮箱中的所有邮件都串行在一起，彼此首尾相连。这种格式对于读取和分析邮件信息非常友好，同时投递邮件也很容易，只要在文件末尾附加新的邮件内容即可。

　　但如果两个进程在同一时刻对同一个邮箱投递邮件，会发生什么情况？显然，邮箱的数据会被破坏，两封邮件的内容会交叉地附加在邮箱文件的末尾。设计良好的邮箱投递系统会通过锁(lock)来防止数据损坏。如果客户试图投递邮件，而邮箱已经被其他客户锁住，那就必须等待，直到锁释放才能进行投递。

　　这种锁的方案在实际应用环境中虽然工作良好，但并不支持并发处理。因为在任意一个时刻，只有一个进程可以修改邮箱的数据，这在大容量的邮箱系统中是个问题。

2.1 读写锁

　　从邮箱中读取数据没有这样的麻烦，即使同一时刻多个用户并发读取也不会有什么问题。因为读取不会修改数据，所以不会出错。但如果某个客户正在读取邮箱，同时另外一个用户试图删除编号为25的邮件，会产生什么结果？结论是不确定，读的客户可能会报错退出，也可能读取到不一致的邮箱数据。所以，为安全起见，即使是读取邮箱也需要特别注意。

　　如果把上述的邮箱当成数据库中的一张表，把邮件当成表中的一行记录，就很容易看出，同样的问题依然存在。从很多方面来说，邮箱就是一张简单的数据库表。修改数据库表中的记录，和删除或者修改邮箱中的邮件信息，十分类似。

　　解决这类经典问题的方法就是并发控制，其实非常简单。在处理并发读或者写时，可以通过实现一个由两种类型的锁组成的锁系统来解决问题。这两种类型的锁通常被称为共享锁（shared lock)和排他锁（exclusive lock),也叫读锁（read lock)和写锁（write lock)。

　　这里先不讨论锁的具体实现，描述一下锁的概念如下：读锁是共享的，或者说是相互不阻塞的。多个客户在同一时刻可以同时读取同一个资源，而互不干扰。写锁则是排他的，也就是说一个写锁会阻塞其他的写锁和读锁，这是出于安全策略的考虑，只有这样，才能确保在给定的时间里，只有一个用户能执行写入，并防止其他用户读取正在写入的同一资源。

　　在实际的数据库系统中，每时每刻都在发生锁定，当某个用户在修改某一部分数据时， MySQL会通过锁定防止其他用户读取同一数据。大多数时候，MySQL锁的内部管理都是透明的。

2.2 锁粒度

　　一种提髙共享资源并发性的方式就是让锁定对象更有选择性。尽量只锁定需要修改的部分数据，而不是所有的资源。更理想的方式是，只对会修改的数据片进行精确的锁定。任何时候，在给定的资源上，锁定的数据量越少，则系统的并发程度越高，只要相互之间不发生冲突即可。

　　问题是加锁也需要消耗资源。锁的各种操作，包括获得锁、检査锁是否已经解除、释放锁等，都会增加系统的开销。如果系统花费大量的时间来管理锁，而不是存取数据，那么系统的性能可能会因此受到影响。

　　所谓的锁策略，就是在锁的开销和数据的安全性之间寻求平衡，这种平衡当然也会影响到性能。大多数商业数据库系统没有提供更多的选择，一般都是在表上施加行级锁（row-level lock)，并以各种复杂的方式来实现，以便在锁比较多的情况下尽可能地提供更好的性能。

　　而MySQL则提供了多种选择。每种MySQL存储引擎都可以实现自己的锁策略和锁粒度。在存储引擎的设计中，锁管理是个非常重要的决定。将锁粒度固定在某个级别，可以为某些特定的应用场景提供更好的性能，但同时却会失去对另外一些应用场景的良好支持。好在MySQL支持多个存储引擎的架构，所以不需要单一的通用解决方案。下面将介绍两种最重要的锁策略。

　　表锁（table lock)

　　表锁是MySQL中最基本的锁策略，并且是开销最小的策略。表锁非常类似于前文描述的邮箱加锁机制：它会锁定整张表。一个用户在对表进行写操作（插入、删除、更新等）前，需要先获得写锁，这会阻塞其他用户对该表的所有读写操作。只有没有写锁时，其他读取的用户才能获得读锁，读锁之间是不相互阻塞的。

　　在特定的场景中，表锁也可能有良好的性能。例如，READ LOCAL表锁支持某些类型的并发写操作。另外，写锁也比读锁有更高的优先级，因此一个写锁请求可能会被插入到读锁队列的前面（写锁可以插入到锁队列中读锁的前面，反之读锁则不能插入到写锁的前面）。

　　尽管存储引擎可以管理自己的锁，MySQL本身还是会使用各种有效的表锁来实现不同的目的。例如，服务器会为诸如ALTER TABLE之类的语句使用表锁，而忽略存储引擎的锁机制。

　　行级锁（rowlock)

　　行级锁可以最大程度地支持并发处理（同时也带来了最大的锁开销）。众所周知，在InnoDB和XtraDB，以及其他一些存储引擎中实现了行级锁。行级锁只在存储引擎层实现，而MySQL服务器层（如有必要，请回顾前文的逻辑架构图）没有实现。服务器层完全不了解存储引擎中的锁实现。在mysql中，所有的存储引擎都以自己的方式显现了锁机制。

3.事务

　　参考以下文章<MySQL的事务(ACID)和MySQL的隔离级别>

4.多版本并发控制

　　MySQL的大多数事务型存储引擎实现的都不是简单的行级锁。基于提升并发性能的考虑，它们一般都同时实现了多版本并发控制（MVCC)。不仅是MySQL,包括Oracle、PostgreSQL等其他数据库系统也都实现了MVCC，但各自的实现机制不尽相同，因为MVCC没有一个统一的实现标准。

　　可以认为MVCC是行级锁的一个变种，但是它在很多情况下避免了加锁操作，因此开销更低。虽然实现机制有所不同，但大都实现了非阻塞的读操作，写操作也只锁定必要的行。

　　MVCC的实现，是通过保存数据在某个时间点的快照来实现的。也就是说，不管需要执行多长时间，每个事务看到的数据都是一致的。根据事务开始的时间不同，每个事务对同一张表，同一时刻看到的数据可能是不一样的。如果之前没有这方面的概念，这句话听起来就有点迷惑。熟悉了以后会发现，这句话真实还是很容易理解的。

　　前面说到不同存储引擎的MVCC实现是不同的，典型的有乐观（optimistic)并发控制和悲观（pessimistic)并发控制。下面我们通过InnoDB的简化版行为来说明MVCC是如何工作的。

　　InnoDB的MVCC，是通过在每行记录后面保存两个隐藏的列来实现的。这两个列，一个保存了行的创建时间，一个保存行的过期时间（或删除时间）。当然存储的并不是实际的时间值，而是系统版本号（system version number)。每开始一个新的事务，系统版本号都会自动递增。事务开始时刻的系统版本号会作为事务的版本号，用来和査询到的每行记录的版本号进行比较。下面看一下在REPEATABLE READ隔离级别下，MVCC具体是如何操作的。

　　SELECT

InnoDB会根据以下两个条件检査每行记录：

a.InnoDB只査找版本早于当前事务版本的数据行（也就是，行的系统版本号小于或等于事务的系统版本号），这样可以确保事务读取的行，要么是在事务开始前已经存在的，要么是事务自身插入或者修改过的。

b.行的删除版本要么未定义，要么大于当前事务版本号。这可以确保事务读取到的行，在事务开始之前未被删除。

只有符合上述两个条件的记录，才能返回作为査询结果。

　　INSERT

　　　　InnoDB为新插入的每一行保存当前系统版本号作为行版本号。

　　DELETE

　　　　InnoDB为删除的每一行保存当前系统版本号作为行删除标识。

　　UPDATE

　　　　InnoDB为插入一行新记录，保存当前系统版本号作为行版本号，同时保存当前系统版本号到原来的行作为行删除标识。

　　保存这两个额外系统版本号，使大多数读操作都可以不用加锁。这样设计使得读数据操作很简单，性能很好，并且也能保证只会读取到符合标准的行。不足之处是每行记录都需要额外的存储空间，需要做更多的行检査工作，以及一些额外的维护工作。

　　MVCC只在REPEATABLE READ和READ COMMITTED两个隔离级别下工作。其他两个隔离级别都和MVCC不兼容(MVCC并没有正式的规范，所以各个存储引擎和数据库系统的实现都是各异的，没有人能说其他的实现方式是错的),因为READ UNCOMMITTED总是读取最新的数据行，而不是符合当前事务版本的数据行。而SERIALIZABLE则会对所有读取的行都加锁。

5.MySQL的存储引擎

　　参考以下文章<MySQL的存储引擎>

6.MySQL 时间线（Timeline)

　　参考以下文章<MySQL的时间线>

7.MySQL的开发模式

　　MySQL的开发过程和发布模型在不同的阶段有很大的变化，但目前已经基本稳定下来。在Oracle定期发布的新里程碑开发版本中，会包含即将在下一个GA版本发布的新特性。这样做是为了测试和获得反馈，请不要在生产环境使用此版本，虽然Oracle宣称每个里程碑版本的质量都是可靠的，并随时可以正式发布（到目前为止也没有任何理由去推翻这个说法）。Oracle也会定期发布实验室预览版，主要包含一些特定的需要评估的特性，这些特性并不保证会在下一个正式版本中包括进去。最终，Oracle会将稳定的特性打包发布一个新的GA版本。

　　MySQL依然遵循GPL开源协议，全部的源代码（除了一些商业版本的插件）都会开放给社区。Oracle似乎也理解，为社区和付费用户提供不同的版本并非明智之举。MySQL AB曾经尝试过不同版本的策略，结果导致付费用户变成了“睁眼瞎”，无法从社区的测试和反馈中获得好处。不同版本的策略并不受企业用户的欢迎，所以后来被Sun废除了。

　　现在Oracle为付费用户单独提供了一些服务器插件，而MySQL本身还是遵循开源模式。尽管对于私有的服务器插件的发布有一些抱怨，但这只是少数的声音，并且慢慢地在平息。大多数MySQL用户对此并不在意，有需求的用户也能够接受商业授权的付费插件。

　　无论如何，不开源的扩展也只是扩展而已，并不会将MySQL变成受限制的非开源模式。没有这些扩展，MySQL也是功能完整的数据库。坦白地说，我们也很欣赏Oracle将更多的特性做成插件的开发模式。如果将特性直接包含在服务器中而不是API的方式，那就更加没有选择了：用户只能接受这种实现，而失去了选择更适合业务的实现的机会。

　　例如，如果Oracle将InnoDB的全文索引功能以API的方式实现，那么就可能以同样的API实现Sphinx或者Lucene的插件，这可能对一些用户更有用。服务器内部的API设计也很干净，这对于提升代码质量非常有帮助，谁不想要这个呢？

8.总结

　　MySQL拥有分层的架构。上层是服务器层的服务和査询执行引擎，下层则是存储引擎。虽然有很多不同作用的插件API,但存储引擎API还是最重要的。如果能理解MySQL在存储引擎和服务层之间处理査询时如何通过API来回交互，就能抓住MySQL的核心基础架构的精髓。

　　MySQL最初基于ISAM构建（后来被MyISAM取代），其后陆续添加了更多的存储引擎和事务支持。MySQL有一些怪异的行为是由于历史遗留导致的。例如，在执行ALTER TABLE时，MySQL提交事务的方式是由于存储引擎的架构直接导致的，并且数据字典也保存在.frm文件中(这并不是说InnoDB会导致ALTER变成非事务型的。对于InnoDB来说，所有的操作都是事务）。

　　当然，存储引擎API的架构也有一些缺点。有时候选择多并非好事，而在MySQL5.0和MySQL5.1中有太多的存储引擎可以选择。InnoDB对于95%以上的用户来说都是最佳选择，所以其他的存储引擎可能只是让事情变得复杂难搞，当然也不可否认某些情况下某些存储引擎能更好地满足需求。

　　Oracle—开始收购了InnoDB,之后又收购了MySQL,在同一个屋檐下对于两者都是有利的。InnoDB和MySQL服务器之间可以更快地协同发展。MySQL依然基于GPL协议开放全部源代码，社区和客户都可以获得坚固而稳定的数据库，MySQL正在变得越来越可扩展和有用。

作者：小家电维修

相见有时，后会无期。

查看全文

相关阅读:
名信片定做网站
 [置顶] 数据库开发常识
 <IMG>中UserMap的用法
 阿斯钢iojeg9uhweu9erhpu9hyw49
慎得慌二u赫然共和任务i个屁
 阿斯钢iojeg9uhw8uhy平
 2014校园招聘笔、面经历总结---华为双选会
 PDCA模型的学习
 阿斯钢弇7人后偶尔一个味5而已
 【HTML】让<pre>标签文本自动换行

原文地址：https://www.cnblogs.com/lizexiong/p/15534765.html

MySQL架构与历史

1.MySQL逻辑架构

1.1 连接管理与安全性

1.2 优化与执行

2.并发控制

2.1 读写锁

2.2 锁粒度

3.事务

4.多版本并发控制

5.MySQL的存储引擎

6.MySQL 时间线（Timeline)

7.MySQL的开发模式

8.总结