常见代码运行时间长底层逻辑两大主要原因:
数据量大小比较好理解,第二个则是运算的复杂程度,如果说你用了状元或者或者是微六方式,这样代码的运算复杂程度就会增加,所以你的运算时间就会大大增长。
技巧1:只选择用用的column,而不是不用select *或select all;
技巧2:使用temp table,而不是使用nested query。(temp table指的是本代码运行中的内存里面,存了一个临时表,那么之后的运算中可以读取之前的临时表;nested query就是子query,比如说你先select一个子表,然后从这个子表里再次select出一个新表,这样嵌套速度相对前者就会慢不少);
技巧3:使用partition来filter rdata(我们的数据库一般都是存在一个巨大的data center的硬盘里面的,那partition是决定整个数据是如何存在不同的硬盘里面,比如说我们的data是根据日期来分组,每一个日期的数据存储在不同的硬盘里,当你在读取数据的时候,如果你只需要一个精准的日期或者部分日期的时候,你可以用partition by日期来作为一个filter,数据库里可以直接锁定那个硬盘可以快速读取,而不是先读取了所有的数据然后在进行筛选);
技巧4:使用in clause 而避免使用not in clause语句(这个涉及到sql代码来自行优化语句,用not in速度会非常的慢,一种替代的方式你可以用left outer join在filter by x column is null,或者呢使用这个exist语句;
技巧5:不到最后一步不使用order by(order by 是遍历了所有数据,运算时间非常长),所以只在最后的输出的时候运行,而不要放在前面的字表里面;
技巧6:不要使用select distinct而是使用select...from ...group by ..这种方式(distinct这个语句是非常费运算的)大家可以使用select x from table group by 1这种方式来替代select distinct x from table。