大数据平台复习12.Spark streaming与Flume/kafka的结合

本文主要是介绍大数据平台复习12.Spark streaming与Flume/kafka的结合，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

Flume的介绍
一个分布式的、高可靠、高可用日志收集和汇总的工具
能够将大批量的不同数据源的日志数据收集、聚合、移动到数据中心进行存储
是Apache软件基金会下、Hadoop生态系统中的一个开源项目
在实际中，Flume的使用不仅仅局限于日志数据收集聚合，还可以用于传输网络流量数据、社交媒体数据、电子邮件消息等。
Flume通过在数据产生的节点上启动agent来收集数据，并推送给其他的Flume的agent或者HDFS、Hbase等数据存储系统。一个agent就是一个java进程，它包括了三个组件：
Source：从产生数据的数据源接收数据，并以event事件的形式发送给channel。一个source可以将数据发送给多个channel。
Channel：从source接收和临时存储数据（以内存或者文件形式存储），直到sink将数据消费掉。Channel是source和sink之间的桥梁，如图7-8所示。
Sink：从channel获取数据并消费，将数据发送给其他的agent或者HDFS等数据存储设施。在这里插入图片描述

以event进行传输
Flume将传输的数据封装为event
event是Flume内部数据传输的最基本单元
一个event包括了event headers、event body，其中event body就包含了Flume收集和传输的日志信息

保证可靠传输的缓存机制
在event从source流向channel再到sink的过程中，为了保证数据传输的可靠性，event在送达sink之前，会在channel中进行缓存，直到event可靠到达sink之后，channel才会删除缓存的数据

Spark Streaming可通过两种方式来与Flume进行整合
pull的方式：即Spark Streaming主动从Flume中拉取数据，这需要在Flume中使用Spark Streaming自定义的sink类型
push的方式：即Flume主动将数据发送给Spark Streaming

kafka是一个分布式消息队列，能够实现高吞吐量的分布式消息发布订阅
也是Apache软件基金会下属的一个应用Scala语言编写的开源流处理平台
由多个不同的应用程序来作为消息的生产者producer向Kafka集群写入消息，然后也会多个应用程序作为消息的消费者consumer来从Kafka集群中主动读取消息，并进行实时的数据分析
所以，Kafka在消息的生产者和消费者之间实现了解耦在这里插入图片描述
Kafka按照消息的主题topic将消息分类存储
消息的生产者在向Kafka集群写入消息的时候，必须指定消息的主题
Kafka又将一个主题下的消息分为多个分区partition
当消息的生产者在写入一条指定主题的消息时，会根据一定的分配策略比如基于key值的hash策略将该条消息发送到该主题下的某个分区。
该条消息会以日志的形式追加到该分区当前记录的后面，并按照写入的时间顺序分配一个单调递增的顺序编号。这个编号也称为offset，是该条消息在分区内的ID
所以，每个主题下的分区是一个有序的消息序列
多副本存储：Kafka会持久化存储所有的消息，不管他们是否已经被消费者消费。为了进一步保证消息存储的可靠性，kafka中每个主题的分区会有多个副本以保证数据存储的可靠性
定期删除：Kafka的消息持久化机制并不会永远存储消息。Kafka会定期清理过期的消息日志。我们可以配置消息在Kafka中暂存的时长，比如2小时，以及对过期消息的处置方式，默认的方式是删除

程序略，有一些配置什么说不清楚就不写了。

这篇关于大数据平台复习12.Spark streaming与Flume/kafka的结合的文章就介绍到这儿，希望我们推荐的文章对大家有所帮助，也希望大家多多支持为之网！

云计算

大数据平台复习12.Spark streaming与Flume/kafka的结合

前端开发

后端开发

移动端开发

数据库

服务器运维

人工智能

区块链

游戏开发

网站运营

大数据/云计算

软件工程

软件/开发工具使用

资讯