运维同事导入一批大约500万左右的数据,耗时较久。他使用的是纯SQL导入,主键使用的是UUID,因为业务原因没有使用自增ID。
因为是内网,不能远程访问。
通过沟通,大致觉得有两个原因,一是因为UUID作为主键,二是表字段繁多,单行加起来接近10000的长度引起行溢出。
因为是临时一次性任务,同事没有做深纠,我在这里简单做一个验证。
版本:5.7.19
引擎:innodb
mysql自带的UUID()函数简单方便,不重复。但是它缺点也是众所周知的。
UUID的返回值通常是随机的,而InnoDB的表实质是以主键组织存储的索引,插入新的记录不是顺序追加,而会往前插入,造成页分裂,表的再平衡。在数据量越大的情况,性能影响越严重。
主键包含在每个二级索引中,过长的主键会浪费磁盘和内存的空间。
页分裂
为什么主键ID的顺序这么重要?
mysql innodb引擎数据结构为B+tree,查找的时候二分查找,这就要求数据是按顺序存储的。
而UUID是无序的,它作为主键在写入的时候,就可能会频繁的进行中间插入和页分裂。页分裂会造成已有的数据移位,类似于arraylist进行插入数据。
因此表数据越多,插入的效率就会越低。也会使得磁盘空间利用率降低。
除了UUID,其它还有两种常见的ID生成法。
一是自增id,最简单效率也最高,但不适合分布式唯一主键,和在一些敏感业务如订单注册用户时,可能通过ID值会暴露一些商业秘密。
雪花算法
再一个是雪花算法,最常见的分布式ID生成算法。
可以看到它跟时间戳(毫秒级)和服务器相关,通过12bit序列号区分同毫秒内产生的不同id。
因此能保证在单台服务器上的大致趋势递增。 在并发高的情况下不能保证完全递增,因此需考虑到这一点。
它有时钟回拨的问题,这里不展开。
定量验证
以上只是定性的判断。
下面做一下定量的测试。
本文验证自增id,雪花算法ID,以及uuid作为主键3种情况,往3张空表插入500万条数据,每个批次10万,共50个批次。
StopWatch stopWatch = new StopWatch(); stopWatch.start("准备数据阶段"); int count = 500 * 10000 ; List<TUser> list = new ArrayList<>(count); ExecutorService executorService = Executors.newFixedThreadPool(100); List<TUser> finalList = list; Semaphore semaphore = new Semaphore(100); for (int i = 0; i < count; i++) { executorService.submit(new Runnable() { @SneakyThrows @Override public void run() { semaphore.acquire(); TUser user = new TUser(); // 雪花算法ID user.setId(SnowflakeIdUtil.snowflakeId()); user.setName(testService.getRandomName()); // UUID user.setId(UUID.randomUUID().toString()); finalList.add(user); semaphore.release(); } }).get(); } stopWatch.stop(); System.out.println("开始写入"); List<Time> times = new ArrayList<>(); stopWatch.start("写入数据阶段"); List<TUser> subList = new ArrayList<>(100000); for (int i = 1; i <= count; i++) { TUser user = finalList.get(i-1); subList.add(user); if (i % 100000 == 0) { // finalList.remove(user); long start = System.currentTimeMillis(); tUserDao.insertBatch(subList); long time = System.currentTimeMillis() - start; times.add(new Time(time)); subList.clear(); log.info("写入一次" + i); } } stopWatch.stop(); System.out.println(stopWatch.prettyPrint()); // 将每个批次耗时打印出来,放入excel生成图表 times.stream().map(e -> e.getTime()).forEach(System.out::println);
总耗时情况
UU ID:414321ms
雪花ID 167748ms
自增ID 75829ms
将最后每个批次耗时的集合打印出来,放到Excel中,生成图表。
纵坐标表示耗时,单位ms
横坐标表示写入批次
可以明显的观察到,使用UUID作为主键,在表数据量在350万以后,耗时上升极快,性能呈指数级下降。
同时自增ID效率高于雪花算法ID,都很稳定。
这是在行数据量极小(<50)的情况下。
在行大小> 8000,在页16KB至少两行数据的情况下,也必然会发生行溢出。这里再看看测试情况。
MySQL单行数据最大能存储65535字节的数据,InnoDB的页为16KB,即16384字节,当行的实际存储长度超过16384/2的长度时,就会行溢出。
为什么是/2,因为页至少需要存储两行数据。
为什么单页至少存储两行数据,如果为1,B+tree就退化为了链表。
当行溢出的时候,会将大字段数据存放在页类型为Uncompress BLOB页中,在当前页就会对大字段建立一个引用,类假于二级索引。
所以设置测试表name长度大于大约16384/2的时候,就会发生行溢出现象。
测试代码跟上面类似。
再准备3张空表。
字段类型varchar,长度10000,user.setName()设置实际长度大于8000。
这次只写入50万条数据,每批次1万条数据,共50个批次。
这次uuid在写入30万条记录后,耗时开始明显上升。
以上是行溢出的情况下,UUID,雪花算法,自增ID等 3种ID的写入性能情况。
下面来测试一下,使用UUID在行溢出和不溢出的两种情况下写入性能情况。
再新建两张表,t_user_uuid_long,此表name字段长度100000,最终写入字符长度9995
t_user_uuid_short,此表name字段长度8000,最终写入字符长度7995
写入耗时曲线大致相当,看不出明显差距。
但是读的差距非常明显!
因为t_user_uuid_long 中的name字段发生了行溢出,。。。。。select的时候需要跨页提取数据,类似于做了1次回表,而且回表还是跨页的。
select id,name from t_user_uuid_short order by id asc limit 1000
耗时0.145s
select id,name from t_user_uuid_long order by id asc limit 1000
耗时4.153s,性能相差接近30倍。
以上测试结果只是在测试机上的粗糙测试结果,不是基准测试,只做参考。
测试结果表明,运维同事的慢操作可能受UUID影响 ,但大字段对写入的影响并不明显。
不过大字段对读取的性能影响明显。