上一节我们说到了waterMark,这个时间数据的作用,我们知道waterMark表示在这个时间数据的,之前的数据都已经传输完了.
我们来看,我们知道在flink中,一个任务可以分为多个子任务,那么上游任务的数据,到子任务的时候,
数据我们说,如果设置了keyby那么,他分配下游子任务数据的时候,就是按照hashcode,这样分配的
对吧.
如果没有设置keyby默认是通过轮询分配的对吧.
那么如果从上游来的数据是waterMark呢?这种数据呢?
他应该怎么做?应该广播出去对吧,如果是waterMark,我们说waterMark就是个时间数据,他
代表在这个时间,之前的数据都已经,传输完毕了,所以如果上游来的数据是waterMark的话,
就要广播出去,告诉所有的下游任务,在这个waterMark之前的数据都已经接收完毕了.