什么情况下创建索引,什么时候不需要索引?
索引的种类有哪些?
索引就是帮助数据库管理系统高效获取数据的数据结构,就好比一本书的目录,它可以帮我们快速进行特定值的定位与查找,从而加快数据查询的效率。
数据库服务器有两种存储介质,硬盘和内存,存储在内存时如果发生故障比如断点什么的,容易造成数据丢失,存储在磁盘上,会有很多的IO,我们知道磁盘IO是会耗时的,如果让索引的数据结构尽可能的减少磁盘IO操作,那么耗时就会大大减少。
支持快速查找的数据结构有跳表、hash表、二叉树搜索树,跳表支持区间查找,hash表不支持区间查询,二叉树搜索树不支持按照区间快速查询,但是二叉树搜索树的不断演进和改造满足了索引对数据结构的要求,下面来看看二叉搜索到B+树的演进历程。
二叉搜索树是一种比较特别大的二叉树,每个节点的左子节点都小于父节点,右子节点大于父节点,查找一个接地那的时间复杂度是O(log2n)。
iShot 2020-03-05 22.55.45.png
但是随着不断往树上添加节点,可能会造成一种现象,某一条路径会不断增加,最后二叉树退化成了一个链表,时间复杂度变成了O(n)。
如果能让左右子树之间的高度差不大,还能继续维持二叉搜索树的特性,大牛们提出了平衡二叉树这种结构,他让每个节点的左右子树高度差不能超过1,这属于严格平衡的,比如avl树,但是这种严格平衡的树,维护高度差需要设计复杂的算法去实现,时间成本也会增加,后来又有大牛提出,我们不让他严格平衡,高度差不要太大就行,虽然会损失一点查询速度,但是树的复杂性大大降低,查询效率也能满足要求就行,这种树就叫做红黑树。
数据查询的时间主要依赖于磁盘 I/O 的次数,如果我们采用二叉树的形式,即使通过平衡二叉搜索树进行了改进,树的深度也是 O(log2n),当 n 比较大时,深度也是比较高的。
这个时候大牛又来了,那就该成多叉树吧,多叉树可以降低高度,这样就可以减少磁盘IO次数了,给这种树起个名字,就叫多叉平衡树,Balance Tree。那究竟该是多少个叉呢,这个是根据内存页大小计算出来的。
Balance Tree也就是B树,B树的节点是可以存储数据的,这样就会造成查询效率不稳定的情况,有时候访问到了非叶子节点就可以找到关键字,而有时需要访问到叶子节点才能找到关键字。
这个时候就又提出了B+树,B+树非叶子节点只存储索引不存数据,叶子节点才存储数据记录,叶子节点又构成一个双向链表并且从大到小顺序链接。