如果不使用索引的话,检索数据得逐行进行匹配,匹配成功才进行返回,而使用索引的话,可以将每行的地址进行保存,并将它们以某种数据结构的方式进行保存,可以极大的优化了检索数据,比如有800条数据,如下表所示。
如果想要对用户名为h的数据进行查询,不使用索引的情况下逐行匹配需要检索8次才能查询到数据。
而使用索引情况下,可以将索引与数据地址进行绑定,并以某种数据结构进行保存,以AVL平衡二分查找树举例。
索引地址对应着右边存储的数据所在的硬盘地址
建立一个AVL
查找索引为8的元素只需要2次就可以查到,但是二叉树有个缺点就是,随着存入的数据越来越多,树的高度则是越来越大,会使得检索效率下降,解决树的高度的问题可以采用B-Tree的方式进行数据保存,一个节点多存储几个数据即可
比如下面这种格式
这个关键字为4,表示子树必须为4个
在这条子树中,最左边那条的取值范围为-∞, 15,再后面那条的取值范围为15, 17, 之后那条是17, 最后那条取值范围为19, +∞。
但是B Tree有个缺点就范围查询时会回旋,比如要查大于15的元素时,会找到15然后到16,然后再返回15继续查找,这样会使得吞吐量下降,B+Tree可以解决这个问题。
非叶子节点不存储数据,数据全在叶子节点中存储,叶子节点中的数据是有序的,从左到右,依次递增。叶子节点类似链表,通过指针来连接下一个节点,叶子节点中保存所有索引数据。
比如要查找索引为三十的元素,首先会将15 56 77 这三个值装载进内存进行匹配,匹配所得30在15-56直接,走左子树,之后将15 20 49三个元素装载进内存进行匹配,匹配得20 49直接进中间那条,然后在中间那条所指的叶子节点进行加载内存并进行匹配返回。