MySQL
起源和分支
MySQL
它是最体积小、速度快、开源免费、使用简单、维护成本高,是最流行的关系数据库软件之一
在集群架构中易于扩展、高可用,因此深受开发商和企业的欢迎。
Oracle
和
MySQL
它是世界上市场比例最高的两个数据库。
IOE
:
IBM
的服务器,
Oracle
数据库,
EMC
存储设备。是银行、电信、石材等富裕公司的产品采购
油、证券等大企业。
Oracle
:垄断,有钱大企业采用,互联网企业以外第一。
MySQL
:互联网高速发展,互联网企业使用第一。
MySQL
发展过程如下:
MySQL
主流分支如下图所示
MySQL
从最初的
1.0
、
3.1
到后来的
8.0
,各种变化都发生了。
Oracle
收购后,
MySQL
的版本演化
出了多个分支,除了需要付费的
MySQL
还有很多企业版
MySQL
社区版。还有一个很受欢迎的分支。
开源分支版称为
Percona Server
,它是
MySQL
技术支持公司
Percona
也是在实际工作中推出的
常碰到的。
Percona Server
在
MySQL
官方版本的基础上做了一些补丁和优化,同时推出了一些工具。另
另一个很好的版本叫做
MariaDB
,它是
MySQL
的公司被
Oracle
收购后,
MySQL
的创始人
Monty
先
生,按照原来的想法重写一套新的数据库,同时也把
InnoDB
作为主要的存储引擎,发动机也被认为是
MySQL
的
分支。
第
4
节
MySQL
应用架构的演变
本节主要介绍不同并发访问量级和数据量级的网站,
MySQL
应用架构的演变过程。
用户请求
--
》 应用层
--
》服务层
--
》存储层
架构
V1.0 -
单机单库
一个简单的小型网站或者应用背后的架构可以非常简单
,
数据存储只需要一个
MySQL Instance
就能
满足数据读取和写入需求(这里忽略掉了数据备份的实例),处于这个的阶段系统,一般会把所有
的信息存到一个
MySQL Instance
里面。
V1.0
瓶颈
数据量太大,超出一台服务器承受
读写操作量太大,超出一台服务器承受
一台服务器挂了,应用也会挂掉(可用性差)
架构
V2.0 -
主从架构
V2.0
架构主要解决架构
V1.0
下的高可用和读扩展问题,通过给
Instance
挂载从库解决读取的压力,
主库宕机也可以通过主从切换保障高可用。在
MySQL
的场景下就是通过主从结构(双主结构也属
于特殊的主从),主库抗写压力,通过从库来分担读压力,对于写少读多的应用,
V2.0
主从架构
完全能够胜任。
V2.0
瓶颈
数据量太大,超出一台服务器承受
写操作太大,超出一台
M
服务器承受
架构
V3.0 -
分库分表
对于
V1.0
和
V2.0
遇到写入瓶颈和存储瓶颈时,可以通过水平拆分来解决,水平拆分和垂直拆分有
较大区别,垂直拆分拆完的结果,每一个实例都是拥有全部数据的,而水平拆分之后,任何实例都
只有全量的
1/n
的数据。以下图所示,将
Userinfo
拆分为
3
个
Sharding
,每个
Sharding
持有总量的
1/3
数据,
3
个
Sharding
数据的总和等于一份完整数据
数据如何路由成为一个关键问题, 一般可以采用范围拆分,
List
拆分、
Hash
拆分等。
如何保持数据的一致性也是个难题。
架构
V4.0 -
云数据库
云数据库(云计算)现在是各大
IT
公司内部作为节约成本的一个突破口,对于数据存储的
MySQL
来说,如何让其成为一个
saas
(
Software as a Service
)是关键点。
MySQL
作为一个
saas
服务,
服务提供商负责解决可配置性,可扩展性,多用户存储结构设计等这些疑难问题。
第一部分
MySQL
架构原理
第
1
节
MySQL
体系架构
MySQL Server
架构自顶向下大致可以分网络连接层、服务层、存储引擎层和系统文件层。
一、网络连接层
客户端连接器(
Client Connectors
):提供与
MySQL
服务器建立的支持。目前几乎支持所有主流
的服务端编程技术,例如常见的
Java
、
C
、
Python
、
.NET
等,它们通过各自
API
技术与
MySQL
建立
连接。
二、服务层(
MySQL Server
)
服务层是
MySQL Server
的核心,主要包含系统管理和控制工具、连接池、
SQL
接口、解析器、查询优
化器和缓存六个部分。
连接池(
Connection Pool
)
:负责存储和管理客户端与数据库的连接,一个线程负责管理一个
连接。
系统管理和控制工具(
Management Services & Utilities
)
:例如备份恢复、安全管理、集群
管理等
SQL
接口(
SQL Interface
)
:用于接受客户端发送的各种
SQL
命令,并且返回用户需要查询的结
果。比如
DML
、
DDL
、存储过程、视图、触发器等。
解析器(
Parser
)
:负责将请求的
SQL
解析生成一个
"
解析树
"
。然后根据一些
MySQL
规则进一步
检查解析树是否合法。
查询优化器(
Optimizer
)
:当
“
解析树
”
通过解析器语法检查后,将交由优化器将其转化成执行计
划,然后与存储引擎交互。
select uid,name from user where gender=1;
选取
--
》投影
--
》联接 策略
1
)
select
先根据
where
语句进行选取,并不是查询出全部数据再过滤
2
)
select
查询根据
uid
和
name
进行属性投影,并不是取出所有字段
3
)将前面选取和投影联接起来最终生成查询结果
缓存(
Cache&Buffffer
)
: 缓存机制是由一系列小缓存组成的。比如表缓存,记录缓存,权限缓
存,引擎缓存等。如果查询缓存有命中的查询结果,查询语句就可以直接去查询缓存中取数据。
三、存储引擎层(
Pluggable Storage Engines
)
存储引擎负责
MySQL
中数据的存储与提取,与底层系统文件进行交互。
MySQL
存储引擎是插件式的,
服务器中的查询执行引擎通过接口与存储引擎进行通信,接口屏蔽了不同存储引擎之间的差异 。现在有
很多种存储引擎,各有各的特点,最常见的是
MyISAM
和
InnoDB
。
四、系统文件层(
File System
)
该层负责将数据库的数据和日志存储在文件系统之上,并完成与存储引擎的交互,是文件的物理存储
层。主要包含日志文件,数据文件,配置文件,
pid
文件,
socket
文件等。
日志文件
错误日志(
Error log
)
默认开启,
show variables like '%log_error%'
通用查询日志(
General query log
)
记录一般查询语句,
show variables like '%general%';
二进制日志(
binary log
)
记录了对
MySQL
数据库执行的更改操作,并且记录了语句的发生时间、执行时长;但是它不
记录
select
、
show
等不修改数据库的
SQL
。主要用于数据库恢复和主从复制。
show variables like '%log_bin%'; //
是否开启
show variables like '%binlog%'; //
参数查看
show binary logs;//
查看日志文件
慢查询日志(
Slow query log
)
记录所有执行时间超时的查询
SQL
,默认是
10
秒。
show variables like '%slow_query%'; //
是否开启
show variables like '%long_query_time%'; //
时长
配置文件
用于存放
MySQL
所有的配置信息文件,比如
my.cnf
、
my.ini
等。
数据文件
db.opt
文件:记录这个库的默认使用的字符集和校验规则。
frm
文件:存储与表相关的元数据(
meta
)信息,包括表结构的定义信息等,每一张表都会
有一个
frm
文件。
MYD
文件:
MyISAM
存储引擎专用,存放
MyISAM
表的数据(
data)
,每一张表都会有一个
.MYD
文件。
MYI
文件:
MyISAM
存储引擎专用,存放
MyISAM
表的索引相关信息,每一张
MyISAM
表对
应一个
.MYI
文件。
ibd
文件和
IBDATA
文件:存放
InnoDB
的数据文件(包括索引)。
InnoDB
存储引擎有两种
表空间方式:独享表空间和共享表空间。独享表空间使用
.ibd
文件来存放数据,且每一张
InnoDB
表对应一个
.ibd
文件。共享表空间使用
.ibdata
文件,所有表共同使用一个(或多
个,自行配置)
.ibdata
文件。
ibdata1
文件:系统表空间数据文件,存储表元数据、
Undo
日志等 。
ib_logfifile0
、
ib_logfifile1
文件:
Redo log
日志文件。
pid
文件
pid
文件是
mysqld
应用程序在
Unix/Linux
环境下的一个进程文件,和许多其他
Unix/Linux
服务
端程序一样,它存放着自己的进程
id
。
socket
文件
socket
文件也是在
Unix/Linux
环境下才有的,用户在
Unix/Linux
环境下客户端连接可以不通过
TCP/IP
网络而直接使用
Unix Socket
来连接
MySQL
。
第
2
节
MySQL
运行机制
①建立连接(
Connectors&Connection Pool
),通过客户端
/
服务器通信协议与
MySQL
建立连
接。
MySQL
客户端与服务端的通信方式是
“
半双工
”
。对于每一个
MySQL
的连接,时刻都有一个
线程状态来标识这个连接正在做什么。
通讯机制:
全双工:能同时发送和接收数据,例如平时打电话。
半双工:指的某一时刻,要么发送数据,要么接收数据,不能同时。例如早期对讲机
单工:只能发送数据或只能接收数据。例如单行道
线程状态:
show processlist; //
查看用户正在运行的线程信息,
root
用户能查看所有线程,其他用户只能看自
己的
id
:线程
ID
,可以使用
kill xx
;
user
:启动这个线程的用户
Host
:发送请求的客户端的
IP
和端口号
db
:当前命令在哪个库执行
Command
:该线程正在执行的操作命令
Create DB
:正在创建库操作
Drop DB
:正在删除库操作
Execute
:正在执行一个
PreparedStatement
Close Stmt
:正在关闭一个
PreparedStatement
Query
:正在执行一个语句
Sleep
:正在等待客户端发送语句
Quit
:正在退出
Shutdown
:正在关闭服务器
Time
:表示该线程处于当前状态的时间,单位是秒
State
:线程状态
Updating
:正在搜索匹配记录,进行修改
Sleeping
:正在等待客户端发送新请求
Starting
:正在执行请求处理
Checking table
:正在检查数据表
Closing table :
正在将表中数据刷新到磁盘中
Sending Data
:正在处理
Select
查询,同时将结果发送给客户端
Info
:一般记录线程执行的语句,默认显示前
100
个字符。想查看完整的使用
show full
processlist;
②查询缓存(
Cache&Buffffer
),这是
MySQL
的一个可优化查询的地方,如果开启了查询缓存且在
查询缓存过程中查询到完全相同的
SQL
语句,则将查询结果直接返回给客户端;如果没有开启查询
缓存或者没有查询到完全相同的
SQL
语句则会由解析器进行语法语义解析,并生成
“
解析树
”
。
缓存
Select
查询的结果和
SQL
语句
执行
Select
查询时,先查询缓存,判断是否存在可用的记录集,要求是否完全相同(包括参
数值),这样才会匹配缓存数据命中。
即使开启查询缓存,以下
SQL
也不能缓存
查询语句使用
SQL_NO_CACHE
查询的结果大于
query_cache_limit
设置
查询中有一些不确定的参数,比如
now()
show variables like '%query_cache%'; //
查看查询缓存是否启用,空间大小,限制等
show status like 'Qcache%'; //
查看更详细的缓存参数,可用缓存空间,缓存块,缓存多少等
③解析器(
Parser
)将客户端发送的
SQL
进行语法解析,生成
"
解析树
"
。预处理器根据一些
MySQL
规则进一步检查
“
解析树
”
是否合法,例如这里将检查数据表和数据列是否存在,还会解析名字和别
名,看看它们是否有歧义,最后生成新的
“
解析树
”
。
④查询优化器(
Optimizer
)根据
“
解析树
”
生成最优的执行计划。
MySQL
使用很多优化策略生成最
优的执行计划,可以分为两类:静态优化(编译时优化)、动态优化(运行时优化)。
等价变换策略
5=5 and a>5
改成
a > 5
a < b and a=5
改成
b>5 and a=5
基于联合索引,调整条件位置等
优化
count
、
min
、
max
等函数
InnoDB
引擎
min
函数只需要找索引最左边
InnoDB
引擎
max
函数只需要找索引最右边
MyISAM
引擎
count(*)
,不需要计算,直接返回
提前终止查询
使用了
limit
查询,获取
limit
所需的数据,就不在继续遍历后面数据
in
的优化
MySQL
对
in
查询,会先进行排序,再采用二分法查找数据。比如
where id in (2,1,3)
,变
成
in (1,2,3)
⑤查询执行引擎负责执行
SQL
语句,此时查询执行引擎会根据
SQL
语句中表的存储引擎类型,以
及对应的
API
接口与底层存储引擎缓存或者物理文件的交互,得到查询结果并返回给客户端。若开
启用查询缓存,这时会将
SQL
语句和结果完整地保存到查询缓存(
Cache&Buffffer
)中,以后若有
相同的
SQL
语句执行则直接返回结果。
如果开启了查询缓存,先将查询结果做缓存操作
返回结果过多,采用增量模式返回
第
3
节
MySQL
存储引擎
存储引擎在
MySQL
的体系架构中位于第三层,负责
MySQL
中的数据的存储和提取,是与文件打交道的
子系统,它是根据
MySQL
提供的文件访问层抽象接口定制的一种文件访问机制,这种机制就叫作存储引
擎。
使用
show engines
命令,就可以查看当前数据库支持的引擎信息。
在
5.5
版本之前默认采用
MyISAM
存储引擎,从
5.5
开始采用
InnoDB
存储引擎。
InnoDB
:支持事务,具有提交,回滚和崩溃恢复能力,事务安全
MyISAM
:不支持事务和外键,访问速度快
Memory
:利用内存创建表,访问速度非常快,因为数据在内存,而且默认使用
Hash
索引,但是
一旦关闭,数据就会丢失
Archive
:归档类型引擎,仅能支持
insert
和
select
语句
Csv
:以
CSV
文件进行数据存储,由于文件限制,所有列必须强制指定
not null
,另外
CSV
引擎也不
支持索引和分区,适合做数据交换的中间表
BlackHole:
黑洞,只进不出,进来消失,所有插入数据都不会保存
Federated
:可以访问远端
MySQL
数据库中的表。一个本地表,不保存数据,访问远程表内容。
MRG_MyISAM
:一组
MyISAM
表的组合,这些
MyISAM
表必须结构相同,
Merge
表本身没有数据,
对
Merge
操作可以对一组
MyISAM
表进行操作。
3.1 InnoDB
和
MyISAM
对比
InnoDB
和
MyISAM
是使用
MySQL
时最常用的两种引擎类型,我们重点来看下两者区别。
事务和外键
InnoDB
支持事务和外键,具有安全性和完整性,适合大量
insert
或
update
操作
MyISAM
不支持事务和外键,它提供高速存储和检索,适合大量的
select
查询操作
锁机制
InnoDB
支持行级锁,锁定指定记录。基于索引来加锁实现。
MyISAM
支持表级锁,锁定整张表。
索引结构
InnoDB
使用聚集索引(聚簇索引),索引和记录在一起存储,既缓存索引,也缓存记录。
MyISAM
使用非聚集索引(非聚簇索引),索引和记录分开。
并发处理能力
MyISAM
使用表锁,会导致写操作并发率低,读之间并不阻塞,读写阻塞。
InnoDB
读写阻塞可以与隔离级别有关,可以采用多版本并发控制(
MVCC
)来支持高并发
存储文件
InnoDB
表对应两个文件,一个
.frm
表结构文件,一个
.ibd
数据文件。
InnoDB
表最大支持
64TB
;
MyISAM
表对应三个文件,一个
.frm
表结构文件,一个
MYD
表数据文件,一个
.MYI
索引文件。从
MySQL5.0
开始默认限制是
256TB
。
适用场景
MyISAM
不需要事务支持(不支持)
并发相对较低(锁定机制问题)
数据修改相对较少,以读为主
数据一致性要求不高
InnoDB
需要事务支持(具有较好的事务特性)
行级锁定对高并发有很好的适应能力
数据更新较为频繁的场景
数据一致性要求较高
硬件设备内存较大,可以利用
InnoDB
较好的缓存能力来提高内存利用率,减少磁盘
IO
总结
两种引擎该如何选择?
是否需要事务?有,
InnoDB
是否存在并发修改?有,
InnoDB
是否追求快速查询,且数据修改少?是,
MyISAM
在绝大多数情况下,推荐使用
InnoDB
扩展资料:各个存储引擎特性对比
3.2 InnoDB
存储结构
从
MySQL 5.5
版本开始默认使用
InnoDB
作为引擎,它擅长处理事务,具有自动崩溃恢复的特性,在日
常开发中使用非常广泛。下面是官方的
InnoDB
引擎架构图,主要分为内存结构和磁盘结构两大部分。
一、
InnoDB
内存结构
内存结构主要包括
Buffffer Pool
、
Change Buffffer
、
Adaptive Hash Index
和
Log Buffffer
四大组件。
Buffffer Pool
:缓冲池,简称
BP
。
BP
以
Page
页为单位,默认大小
16K
,
BP
的底层采用链表数
据结构管理
Page
。在
InnoDB
访问表记录和索引时会在
Page
页中缓存,以后使用可以减少磁
盘
IO
操作,提升效率。
Page
管理机制
Page
根据状态可以分为三种类型:
free page
: 空闲
page
,未被使用
clean page
:被使用
page
,数据没有被修改过
dirty page
:脏页,被使用
page
,数据被修改过,页中数据和磁盘的数据产生了不
一致
针对上述三种
page
类型,
InnoDB
通过三种链表结构来维护和管理
free list
:表示空闲缓冲区,管理
free page
flflush list
:表示需要刷新到磁盘的缓冲区,管理
dirty page
,内部
page
按修改时间
排序。脏页即存在于
flflush
链表,也在
LRU
链表中,但是两种互不影响,
LRU
链表负
责管理
page
的可用性和释放,而
flflush
链表负责管理脏页的刷盘操作。
lru list
:表示正在使用的缓冲区,管理
clean page
和
dirty page
,缓冲区以
midpoint
为基点,前面链表称为
new
列表区,存放经常访问的数据,占
63%
;后
面的链表称为
old
列表区,存放使用较少数据,占
37%
。
改进型
LRU
算法维护
普通
LRU
:末尾淘汰法,新数据从链表头部加入,释放空间时从末尾淘汰
改性
LRU
:链表分为
new
和
old
两个部分,加入