ConcurrentHashMap是java并发包下一个常用的并发集合类,在面试中经常会被问及,一般在讲述了线程不安全的HashMap之后,面试官会问这个。
在这篇文章中,我会详细分析ConcurrentHashMap中几个重要API的底层源码和实现机制
本文将以JDK1.8版本进行讲解
1.8中去除了Segment+HashEntry+Unsafe的实现方式,改为Synchronized+CAS+Node+Unsafe的实现方式
ConcurrentHashMap中的分段锁称为Segment,它即类似于HashMap的结构,即内部拥有一个Entry数组,数组中的每个元素又是一个链表,同时又是一个ReentrantLock(Segment继承了ReentrantLock)。
ConcurrentHashMap(1.7)使用了分段锁的机制,将数据分成一段一段进行存储,每个Segment对应一把锁,当一个线程占用锁访问一个Segment时,其他线程可以访问其他的Segment,这就实现了真正意义上的并发。
在1.7版本中,定位到一个元素需要通过两次Hash计算,第一次计算定位到Segment,第二次计算定位到HashEntry(所在元素的头结点)
优点:
在写操作的时候只需要对当前的Segment加锁即可,因此理想状态下,ConcurrentHashMap同时可支持Segment数量的并发写操作,而且不会影响到其他的Segment部分,通过这种数据结构可以大大提高并发力度。
缺点:
由于是通过Segment -》HashEntry的定位方式,需要两次计算,相比1.8中效率比较低下
static class Node<K,V> implements Map.Entry<K,V> { final int hash; final K key; volatile V val; volatile Node<K,V> next; Node(int hash, K key, V val, Node<K,V> next) { this.hash = hash; this.key = key; this.val = val; this.next = next; } public final K getKey() { return key; } public final V getValue() { return val; } public final int hashCode() { return key.hashCode() ^ val.hashCode(); } public final String toString(){ return key + "=" + val; } public final V setValue(V value) { throw new UnsupportedOperationException(); } public final boolean equals(Object o) { Object k, v, u; Map.Entry<?,?> e; return ((o instanceof Map.Entry) && (k = (e = (Map.Entry<?,?>)o).getKey()) != null && (v = e.getValue()) != null && (k == key || k.equals(key)) && (v == (u = val) || v.equals(u))); } /** * 比较常见的链表的搜索方法,通过对比hash值,value来判断是否是目标元素,如果不是的话就e = e.next向下遍历,如果到末尾为null了 就返回null */ Node<K,V> find(int h, Object k) { Node<K,V> e = this; if (k != null) { do { K ek; if (e.hash == h && ((ek = e.key) == k || (ek != null && k.equals(ek)))) return e; } while ((e = e.next) != null); } return null; } }
/** * Creates a new, empty map with the default initial table size (16). 如果是空构造器,默认初始长度是16 */ public ConcurrentHashMap() { }
public ConcurrentHashMap(int initialCapacity) { if (initialCapacity < 0) throw new IllegalArgumentException(); int cap = ((initialCapacity >= (MAXIMUM_CAPACITY >>> 1)) ? MAXIMUM_CAPACITY : tableSizeFor(initialCapacity + (initialCapacity >>> 1) + 1)); this.sizeCtl = cap; }
如果制定了初始容量的大小,先进行小于零的验证,判断初始化大小是否大于最大值的一般,如果是的话就去最大时,否则就执行tableSizeFor方法,这个方法返回的是一个大于或者等于输入的初始化容量的一个2^n的大小
final V putVal(K key, V value, boolean onlyIfAbsent) { if (key == null || value == null) throw new NullPointerException(); //判断K,V是否为空 int hash = spread(key.hashCode()); //计算key的hash值 int binCount = 0; //用来计算这个节点总共有多少元素,用来控制扩容或者转化为红黑树 for (Node<K,V>[] tab = table;;) { Node<K,V> f; int n, i, fh; if (tab == null || (n = tab.length) == 0) tab = initTable(); //如果当前的table没有初始化,就先进行初始化 else if ((f = tabAt(tab, i = (n - 1) & hash)) == null) { if (casTabAt(tab, i, null, new Node<K,V>(hash, key, value, null))) break; // 通过CAS自旋的方式,将元素添封装成Node,添加到这个位置,注意这时候是没有加锁的 } else if ((fh = f.hash) == MOVED) //判断是否处于扩容阶段,是的话就先帮助扩容 tab = helpTransfer(tab, f); else { V oldVal = null; synchronized (f) { //如果这个位置有元素,使用sunchronized锁对当前头节点进行加锁 if (tabAt(tab, i) == f) { if (fh >= 0) { //判断是链表 binCount = 1; for (Node<K,V> e = f;; ++binCount) {//循环遍历这个链表 K ek; if (e.hash == hash && ((ek = e.key) == key || (ek != null && key.equals(ek)))) { oldVal = e.val; //如果存在这个Key,就把值进行替换 if (!onlyIfAbsent) e.val = value; break; } Node<K,V> pred = e; if ((e = e.next) == null) {//如果遍历到最后不存在得话,就把Key,value封装成Node,放到尾部 pred.next = new Node<K,V>(hash, key, value, null); break; } } } else if (f instanceof TreeBin) { //如果是红黑树形式,使用putTreeVal方法进行添加 Node<K,V> p; binCount = 2; if ((p = ((TreeBin<K,V>)f).putTreeVal(hash, key, value)) != null) { oldVal = p.val; if (!onlyIfAbsent) p.val = value; } } } } if (binCount != 0) { if (binCount >= TREEIFY_THRESHOLD) // treeifyBin(tab, i);//将链表转化为红黑树 if (oldVal != null) return oldVal; break; } } } addCount(1L, binCount);//计数 return null; }
private final void transfer(Node<K,V>[] tab, Node<K,V>[] nextTab) { int n = tab.length, stride; if ((stride = (NCPU > 1) ? (n >>> 3) / NCPU : n) < MIN_TRANSFER_STRIDE) stride = MIN_TRANSFER_STRIDE; // 每个cpu至少处理16个长度的数据元素,用于控制不占用过多cpu资源 if (nextTab == null) { // 如果第一个复制的目标是空的话,初始化一个table两倍长的nexttable try { @SuppressWarnings("unchecked") Node<K,V>[] nt = (Node<K,V>[])new Node<?,?>[n << 1]; nextTab = nt; } catch (Throwable ex) { // try to cope with OOME sizeCtl = Integer.MAX_VALUE; return; } nextTable = nextTab; transferIndex = n; } int nextn = nextTab.length; ForwardingNode<K,V> fwd = new ForwardingNode<K,V>(nextTab);//fwd节点,用来控制并发,当一个节点为空或者已经被转移了,就设置为fwd节点 boolean advance = true; //判断是否继续向前判断,ConcurrentHashMap复制是从n号往0开始遍历判断 boolean finishing = false; // 重新扫描数组用的,看看有没有没完成的 for (int i = 0, bound = 0;;) { Node<K,V> f; int fh; while (advance) { int nextIndex, nextBound; if (--i >= bound || finishing) //判断已经到头了 advance = false; else if ((nextIndex = transferIndex) <= 0) { i = -1; advance = false; } else if (U.compareAndSwapInt (this, TRANSFERINDEX, nextIndex, nextBound = (nextIndex > stride ? nextIndex - stride : 0))) { bound = nextBound; i = nextIndex - 1; advance = false; } } if (i < 0 || i >= n || i + n >= nextn) { int sc; if (finishing) { //已经完成了转移 nextTable = null; table = nextTab; sizeCtl = (n << 1) - (n >>> 1); //设置阈值为扩容后的0.75 return; } if (U.compareAndSwapInt(this, SIZECTL, sc = sizeCtl, sc - 1)) { if ((sc - 2) != resizeStamp(n) << RESIZE_STAMP_SHIFT) return; finishing = advance = true; i = n; // recheck before commit } } else if ((f = tabAt(tab, i)) == null) //把数组中null的元素设置为fwd节点 advance = casTabAt(tab, i, null, fwd); else if ((fh = f.hash) == MOVED) advance = true; // already processed else { synchronized (f) {//加锁开始转移 if (tabAt(tab, i) == f) { Node<K,V> ln, hn; if (fh >= 0) { //判断是一个Node节点 int runBit = fh & n; //这里是判断&操作后是0还是1,因为n的值是数组长度,是2的幂此,所以这个结果就是,如果是0就放在新表 的同一个位置,如果是1的话就放在新表原位置+n的地方 Node<K,V> lastRun = f; for (Node<K,V> p = f.next; p != null; p = p.next) { int b = p.hash & n; //n为扩张前原数据的长度 if (b != runBit) { runBit = b; lastRun = p; } } if (runBit == 0) { ln = lastRun; hn = null; } else { hn = lastRun; ln = null; } for (Node<K,V> p = f; p != lastRun; p = p.next) { //构造两个链表,分别放到原来的位置和新增加的长度的相同位置,i 或者n+i int ph = p.hash; K pk = p.key; V pv = p.val; if ((ph & n) == 0) ln = new Node<K,V>(ph, pk, pv, ln); else hn = new Node<K,V>(ph, pk, pv, hn); } setTabAt(nextTab, i, ln); setTabAt(nextTab, i + n, hn); setTabAt(tab, i, fwd); advance = true; } else if (f instanceof TreeBin) { //判断是一个树节点 TreeBin<K,V> t = (TreeBin<K,V>)f; TreeNode<K,V> lo = null, loTail = null; TreeNode<K,V> hi = null, hiTail = null; int lc = 0, hc = 0; for (Node<K,V> e = t.first; e != null; e = e.next) { int h = e.hash; TreeNode<K,V> p = new TreeNode<K,V> (h, e.key, e.val, null, null); if ((h & n) == 0) { if ((p.prev = loTail) == null) lo = p; else loTail.next = p; loTail = p; ++lc; } else { if ((p.prev = hiTail) == null) hi = p; else hiTail.next = p; hiTail = p; ++hc; } } //判断复制完之后,如果节点数小于6,就转化为链表 ln = (lc <= UNTREEIFY_THRESHOLD) ? untreeify(lo) : (hc != 0) ? new TreeBin<K,V>(lo) : t; hn = (hc <= UNTREEIFY_THRESHOLD) ? untreeify(hi) : (lc != 0) ? new TreeBin<K,V>(hi) : t; setTabAt(nextTab, i, ln); setTabAt(nextTab, i + n, hn); setTabAt(tab, i, fwd); advance = true; } } } } } }
public V get(Object key) { Node<K,V>[] tab; Node<K,V> e, p; int n, eh; K ek; int h = spread(key.hashCode()); //计算key的hash值 if ((tab = table) != null && (n = tab.length) > 0 && (e = tabAt(tab, (n - 1) & h)) != null) { //如果数组位置不为空 if ((eh = e.hash) == h) { //判断如果是头节点,返回value if ((ek = e.key) == key || (ek != null && key.equals(ek))) return e.val; } else if (eh < 0) return (p = e.find(h, key)) != null ? p.val : null; while ((e = e.next) != null) { //链表向下遍历 if (e.hash == h && ((ek = e.key) == key || (ek != null && key.equals(ek)))) return e.val; } } return null; }
前面分析了下ConcurrentHashMap的源码,那么,对于一个映射集合来说,ConcurrentHashMap是如果来做到并发安全,又是如何做到高效的并发的呢?
首先是读操作,从源码中可以看出来,在get操作中,根本没有使用同步机制,也没有使用unsafe方法,所以读操作是支持并发操作的。
那么写操作呢?
分析这个之前,先看看什么情况下会引起数组的扩容,扩容是通过transfer方法来进行的。而调用transfer方法的只有trePresize、helpTransfer和addCount三个方法。
这三个方法又是分别在什么情况下进行调用的呢?
·tryPresize是在treeIfybin和putAll方法中调用,treeIfybin主要是在put添加元素完之后,判断该数组节点相关元素是不是已经超过8个的时候,如果超过则会调用这个方法来扩容数组或者把链表转为树。
·helpTransfer是在当一个线程要对table中元素进行操作的时候,如果检测到节点的HASH值为MOVED的时候,就会调用helpTransfer方法,在helpTransfer中再调用transfer方法来帮助完成数组的扩容
·addCount是在当对数组进行操作,使得数组中存储的元素个数发生了变化的时候会调用的方法。
所以引起数组扩容的情况如下:
·只有在往map中添加元素的时候,在某一个节点的数目已经超过了8个,同时数组的长度又小于64的时候,才会触发数组的扩容。
·当数组中元素达到了sizeCtl的数量的时候,则会调用transfer方法来进行扩容
那么在扩容的时候,可以不可以对数组进行读写操作呢?
事实上是可以的。当在进行数组扩容的时候,如果当前节点还没有被处理(也就是说还没有设置为fwd节点),那就可以进行设置操作。
如果该节点已经被处理了,则当前线程也会加入到扩容的操作中去。
那么,多个线程又是如何同步处理的呢?
在ConcurrentHashMap中,同步处理主要是通过Synchronized和unsafe两种方式来完成的。
·在取得sizeCtl、某个位置的Node的时候,使用的都是unsafe的方法,来达到并发安全的目的
·当需要在某个位置设置节点的时候,则会通过Synchronized的同步机制来锁定该位置的节点。
·在数组扩容的时候,则通过处理的步长和fwd节点来达到并发安全的目的,通过设置hash值为MOVED
·当把某个位置的节点复制到扩张后的table的时候,也通过Synchronized的同步机制来保证现程安全
感谢Ouka傅的源码分析,https://www.cnblogs.com/zerotomax/p/8687425.html#go5,我也是从这篇博客里学来的