目录
磁盘与内存交互的基本单位—页
页结构概述
页的大小
页的上层结构
页的内部结构
1、File Header(文件头部)
2、File Trailer(文件尾部)
3、Free Space (空闲空间)
4、User Records (用户记录)
5、Infimum + Supremum(最小最大记录)
6、Page Directory(页目录)
7、Page Header(页面头部)
磁盘与内存交互的基本单位—页
InnoDB 将数据划分为若干个页,InnoDB中页的大小默认为16KB,以页作为磁盘和内存之间交互的基本单位,也就是一次最少从磁盘中读取16KB。
页结构概述
页a、页b、页c . . .页n 这些页可以不在物流结构上相连,只要通过双向链表相关联即可。每个数据页中的记录会按照主键值从小到大的顺序组成一个单向链表。
页的大小
不同的数据库管理系统(DBMS)的页大小不同。比如在MySQL的 InnoDB存储引擎中,默认页的大小是 16KB。
SHOW VARIABLES LIKE '%innodb_page_size%';
页的上层结构
在数据库中,还存在着区(Extent)、段(Segment)和表空间(Tablespace)的概念。
区(Extent):是比页大一级的存储结构,在InnoDB存储引擎中,一个区会分配64 个连续的页。因为InnoDB中的页大小默认是16KB,所以一个区的大小是 64 * 16KB = 1MB
段(Segment):由一个或多个 区 组成,区在文件系统是一个连续分配的空间(在InnoDB中是连续的 64 个页),不过在段中不要求区与区之间是相邻的。段是数据库中的分配单位,不同类型的数据库对象以不同的段形式存在。当我们创建数据表、索引的时候,就会相应创建对应的段,比如创建一张表时会创建一个表段,创建一个索引时会创建一个索引段。
表空间(Tablespace)是一个逻辑容器,表空间存储的对象是段,在一个表空间中可以有一个或多个段,但是一个段只能属于一个表空间。数据库由一个或多个表空间组成,表空间从管理上可以划分为系统表空间、用户表空间、撤销表空间、临时表空间等。
页的内部结构
页如果按类型划分的话,常见的有数据页(保存 B+ 树节点)、系统页、Undo 页和事务数据页等。数据页是我们最常使用的页。数据页的 16KB 大小的存储空间被划分为 7 个部分,分别是文件头(File Header)、页头(Page Header)、最大最小记录(Infimum + supremum)、用户记录(User Records)、空闲空间(Free Space)、页目录(Page Directory)和文件尾(File Tailer)。
1、File Header(文件头部)
作用:描述各种页的通用信息(页的编号、其上一页、下一页)
FIL_PAGE_OFFSET:每一个页都有一个单独的页号,就跟你的身份证号码一样,InnoDB通过页号可以唯一定位一个页。
FIL_PAGE_TYPE:代表当前页的类型
FIL_PAGE_PREV(4字节)和FIL_PAGE_NEXT(4字节):InnoDB都是以页为单位存放数据的,如果数据分散到多个不连续的页中存储的话需要把这些页关联起来,FIL_PAGE_PREV和FIL_PAGE_NEXT就分别代表本页的上一个和下一个页的页号。这样通过建立一个双向链表把许许多多的页就都串联起来了,保证这些页之间不需要是物理上的连续,而是逻辑上的连续。
FIL_PAGE_SPACE_OR_CHKSUM(4字节):代表当前页面的校验和(checksum)。
什么是校验和?
就是对于一个很长的字节串来说,我们会通过某种算法来计算一个比较短的值来代表这个很长的字节串,这个比较短的值就称为校验和。在比较两个很长的字节串之前,先比较这两个长字节串的校验和,如果校验和都不一样,则两个长字节串肯定是不同的,所以省去了直接比较两个比较长的字节串的时间损耗。
文件头部和文件尾部都有属性:FIL_PAGE_SPACE_OR_CHKSUM,InnoDB存储引擎以页为单位把数据加载到内存中处理,如果该页中的数据在内存中被修改了,那么在修改后的某个时间需要把数据同步到磁盘中。但是在同步了一半的时候断电了,造成了该页传输的不完整。为了检测一个页是否完整(也就是在同步的时候有没有发生只同步一半的尴尬情况),这时可以通过文件尾的校验和(checksum 值)与文件头的校验和做比对,如果两个值不相等则证明页的传输有问题,需要重新进行传输,否则认为页的传输已经完成。
2、File Trailer(文件尾部)
前4个字节代表页的校验和:这个部分是和File Header中的校验和相对应的。
后4个字节代表页面被最后修改时对应的日志序列位置(LSN):这个部分也是为了校验页的完整性的,如果首部和尾部的LSN值校验不成功的话,就说明同步过程出现了问题。
3、Free Space (空闲空间)
每当我们插入一条记录,都会从Free Space部分,也就是尚未使用的存储空间中申请一个记录大小的空间划分到User Records部分,当Free Space部分的空间全部被User Records部分替代掉之后,也就意味着这个页使用完了,如果还有新的记录插入的话,就需要去申请新的页了。
4、User Records (用户记录)
User Records中的这些记录按照指定的行格式一条一条摆在User Records部分,相互之间形成单链表。
用户记录里的一条条数据如何记录
CREATE TABLE page_demo
(
c1 INT,
c2 INT,
c3 VARCHAR(10000),
PRIMARY KEY (c1)
) CHARSET = asciiROW_FORMAT = COMPACT;
记录头信息中各个属性
增加操作
INSERT INTO page_demo
VALUES (1, 100, 'song'),(2, 200, 'tong'),(3, 300, 'zhan');
属性介绍
delete_mask
- 这个属性标记着当前记录是否被删除,占用1个二进制位。
- 值为0:代表记录并没有被删除
- 值为1:代表记录被删除掉了
- 被删除的记录为什么还在页中存储呢?你以为它删除了,可它还在真实的磁盘上。这些被删除的记录之所以不立即从磁盘上移除,是因为移除它们之后其他的记录在磁盘上需要重新排列,导致性能消耗。所以只是打一个删除标记而已,所有被删除掉的记录都会组成一个所谓的垃圾链表,在这个链表中的记录占用的空间称之为可重用空间,之后如果有新记录插入到表中的话,可能把这些被删除的记录占用的存储空间覆盖掉。
next_record:记录头信息里该属性非常重要,它表示从当前记录的真实数据到下一条记录的真实数据的地址偏移量
比如:第一条记录的next_record值为32,意味着从第一条记录的真实数据的地址处向后找32个字节便是下一条记录的真实数据。
删除操作
DELETE FROM page_demo WHERE c1 = 2
- 从图中可以看出来,删除第2条记录前后主要发生了这些变化
- 第2条记录并没有从存储空间中移除,而是把该条记录的delete_mask值
- 设置为1。
- 第2条记录的next_record值变为了0,意味着该记录没有下一条记录了。
- 第1条记录的next_record指向了第3条记录。
- 最大记录的n_owned值
- 从 5 变成了 4。
- 所以,不论我们怎么对页中的记录做增删改操作,InnoDB始终会维护一条记录的单链表,链表中的各个节点是按照主键值由小到大的顺序连接起来的
主键值为2的记录被我们删掉了,但是存储空间却没有回收,如果我们再次把这条记录插入到表中,会发生什么事呢?
INSERT INTO page_demo VALUES(2, 200, 'tong');
我们看一下记录的存储情况:直接复用了原来被删除记录的存储空间
说明:当数据页中存在多条被删除掉的记录时,这些记录的next_record属性将会把这些被删除掉的记录组成一个垃圾链表,以备之后重用这部分存储空间。
5、Infimum + Supremum(最小最大记录)
对于一条完整的记录来说,比较记录的大小就是比较主键的大小。比方说我们插入的4行记录的主键值分别是:1、2、3、4,这也就意味着这4条记录是从小到大依次递增。 InnoDB规定的最小记录与最大记录这两条记录的构造十分简单,都是由5字节大小的记录头信息和8字节大小的一个固定的部分组成的。
6、Page Directory(页目录)
为什么需要页目录?
在页中,记录是以单向链表的形式进行存储的。单向链表的特点就是插入、删除非常方便,但是检索效率不高,最差的情况下需要遍历链表上的所有节点才能完成检索。因此在页结构中专门设计了页目录这个模块,专门给记录做一个目录,通过二分查找法的方式进行检索,提升效率。
SELECT * FROM page_demo WHERE c1 = 3;
方式1:顺序查找
从Infimum记录(最小记录)开始,沿着链表一直往后找,总有一天会找到(或者找不到)
方式2:使用页目录,二分法查找
为什么最小记录的n_owned值为1,而最大记录的n_owned值为5呢?
InnoDB规定:对于最小记录所在的分组只能有1条记录,最大记录所在的分组拥有的记录条数只能在1~8条之间,剩下的分组中记录的条数范围只能在是4~8 条之间。
页目录结构下如何快速查找记录?
现在向page_demo表中添加更多的数据
INSERT INTO page_demo
VALUES (5, 500, 'zhou'),(6, 600, 'chen'),(7, 700, 'deng'),(8, 800, 'yang'),(9, 900, 'wang'),(10, 1000, 'zhao'),(11, 1100, 'qian'),(12, 1200, 'feng'),(13, 1300, 'tang'),(14, 1400, 'ding'),(15, 1500, 'jing'),(16, 1600, 'quan');
添加了12条记录,现在页里一共有18条记录了(包括最小和最大记录),这些记录被分成了5个组
找主键值为6的记录,过程是这样的
5个槽的编号分别是:0、1、2、3、4,所以初始情况下最低的槽就是low=0,最高的槽就是high=4。
1.计算中间槽的位置:(0+4)/2=2,所以查看槽2对应记录的主键值为8,又因为8 > 6,所以设置high=2,low保持不变。
2.重新计算中间槽的位置:(0+2)/2=1,所以查看槽1对应的主键值为4,又因为4 < 6,所以设置low=1,high保持不变。
3.因为high - low的值为1,所以确定主键值为6的记录在槽2对应的组中
7、Page Header(页面头部)
为了能得到一个数据页中存储的记录的状态信息,比如本页中已经存储了多少条记录,第一条记录的地址是什么,页目录中存储了多少个槽等等,特意在页中定义了一个叫Page Header的部分,这个部分占用固定的56个字节,专门存储各种状态信息。
PAGE_DIRECTION
假如新插入的一条记录的主键值比上一条记录的主键值大,我们说这条记录的插入方向是右边,反之则是左边。用来表示最后一条记录插入方向的状态就是PAGE_DIRECTION。
1、第一步找叶子节点
首先是从B+树的根节点开始,逐层检索,直到找到叶子节点,也就是找到对应的数据页为止
2、第二步通过目录页找槽(slot)分组
将数据页加载到内存中,页目录中的槽(slot)采用二分查找的方式先找到一个粗略的记录分组
3、在分组中通过链表遍历的方式查找记录
页的读取
内存读取
如果该数据存在于内存中,基本上执行时间在 1ms 左右,效率还是很高的。
随机读取
如果数据没有在内存中,就需要在磁盘上对该页进行查询,整体时间语句在 10ms 左右,这 10ms 中有 6ms是磁盘的实际繁忙时间(包括了寻道和半圆旋转时间),有 3ms 是对可能发生的排队事件的估计,另外还有 1ms 的传输时间,将页从磁盘服务器缓冲区传输到数据库缓冲区中。
顺序读取
顺序读取其实是一种批量读取的方式,因为我们请求的数据在磁盘上往往都是相邻存储的,顺序读取可以帮助我们批量读取页面,这样的话,一次性加载到缓冲池中就不需要再对其他页单独进行磁盘I/O操作了。
如果一个磁盘的吞吐量是 40MB/S,那么对于一个 16KB大小的页来说,一次可以顺序读取 2560(40MB/16KB)个页,相当于一个页的读取时间为 0.4ms。采用批量读取的方式,即使是从磁盘上进行读取,效率也比从内存中只单独读取一个页的效率要高。