需求:50亿个电话号码,查找10万个,判断10w个电话号码是否存在?
用bitmap/hyperloglog的话,亿级数据也是非常吃内存哟。
由一个初始值都为0的bit数组和多个哈希函数构成,用于快速判断某个数据是否存在。(多个hash函数,减少hash冲突概率)
本质:用于快速判断数据是否存在于一个大的集合中。类似set,但是统计结果不太准确。
1.插入、查询高效,占空间少,返回结果不确定。
2.一个元素,存在时,bloom来判断它不一定就存在;但是不存在的,bloom来判断,结果一定不存在。(hash冲突)
3.可以添加元素,但是不能删除,删除导致误判率增大
4.误判只会发生在bloom没添加过的元素,添加过的元素不会误判
空对象缓存治标不治本!黑客短时间发送大量不同的、不存在的key的话,依旧会造成压力。
fpp(误差率)设置的不是越小越好,误判率低,空间占比大,同时执行效率也会降低。
这就是不能删除的原因:多个哈希函数对多个obj哈希运算时,有可能出现上图3号槽位的冲突,删除后俩对象都被删除,但实质上俩对象都是存在的,会被误判为俩对象不存在。
1.初始化 。
2.添加元素至过滤器 (给存在于redis的数据按位打个0/1★标识★,并非把真实数据存入过滤器!)。
3.判断是否存在。
往redis存之后再存入bloom,只要bloom中有,没那么redis大概率也有,bloom有误判偶尔缓存穿透一两次无所谓;只要bloom判断没有,那么就不必去redis查了。
sout(“Aa”.hashcode());
sout(“BB”.hashcode());
2.
下一代:布谷鸟过滤器。可以删除,查询效率和空间利用率都优于bloom