要保证id不重复,主要从三方面考虑,时间维度、空间维度、原子维度;
时间维度:时间维度不重复,例如今天和明天不能重复,所以时间是可以加入id的一种因子;
空间维度:不同的机器,不同的环境生成的id不同,所以mac地址,机房地址等,都可以作为空间维度的区分;
原子维度:主要是线程的安全性,也就是递增的保证,我们一般称之为 序列 ,例如数据库的自增id,就仅仅是原子维度;
讨论完分布式id后,我们讨论一下非功能性的一些要求:
高可用:可以随时提供服务,不间断;
低延迟:id获取速度要快;
高并发:支持高QPS;
雪花算法生成的ID是一个64 bit的long型的数字且按时间趋势递增。大致由首位无效符(0,1bit)、时间戳差值(41bit)、机器编码(10bit),序列号四部分组成(12bit)。
阿里内部的较多用法,主要是解决一个序列原子性的问题,首先它的序列是维护在数据中的,用一张表表示,每次获取一定个数(如10000)的序列到进程中使用。
为了保证高可用,和高并发,维护序列的必然不能只是一张表,所以可以搞n张表,每一个数据库表,维护一个sequence,所以就有了单个步长和组步长的说法。
序列的获取如下所示: