从近年来的发展趋势来看,Flink所受到的关注也越来越多。大数据处理的相关技术框架,从Hadoop到Spark,Storm、Flink,在各个应用场景下,不同的技术框架,各自表现出来的性能优势也都不同。今天的Flink大数据开发分享,我们主要来分享一下Flink技术框架入门。
在Hadoop之后,受到广泛青睐的是Spark,也被称为是主流选择的第二代技术框架,而Flink,在这些年的发展当中,隐隐有了下一代大数据主流框架的架势。
从大数据处理的需求来看,批处理和流处理都是普遍存在的需求,目前市面上能够同时支持批处理和流处理的框架,Spark和Flink都拥有姓名。Spark是基于批来模拟流的计算,而Flink则基于流计算来模拟批计算。
在国内,提起Flink,阿里是忠实的拥护者,几乎所有业务线都采用了基于Flink搭建的实时计算平台,美团、滴滴等公司,也在使用Flink作为企业的分布式大数据处理引擎。
而Flink之所以受到重用,与框架自身的优势性能有重要的关系。
Flink通过实现Google Dataflow流式计算模型实现了高吞吐,低延迟,高性能兼具实时流式计算框架。
同时Flink支持高效容错的状态管理,Flink能够将其状态维护在内存或RockDB数据库中,为了防止状态在计算过程中因为系统异常而出现丢失,Flink周期性的通过分布式快照技术CheckPoints实现状态的持久化维护,使得在系统即使在停机或者异常的情况下都能正确的进行状态恢复,从而保证在任何时间都能计算出正确的结果。
Flink是一套集高吞吐,低延迟,高性能三者于一身的分布式流式数据处理框架。相比于Spark和Storm,有着更加显著的优势。
Spark只能兼顾高吞吐和高性能特性,在Spark Streaming流式计算中无法做到低延迟保障;而Apache Storm只能支持低延迟和高性能特性,但是无法满足高吞吐的要求。只有Flink,才算是真正达成了高吞吐,低延迟,高性能的目标。
关于Flink大数据开发,Flink技术框架入门,以上就是简单的介绍了。在大数据技术框架的发展流变当中,Flink无疑是站在了新一轮技术框架的“潮头”,受到越来越多的企业的青睐。