ETL管道是指一组从输入源提取数据,转换数据并加载到输出目的地(如datamart,数据库和数据仓库)以进行分析,报告和数据同步的过程。
ETL代表Extract,Transform和load。
提取
在此阶段,数据从各种异构源中提取,例如业务系统,营销工具,传感器数据,API和事务数据库。
转换
第二步是将数据转换为不同应用程序使用的格式。在此阶段,使用不同应用程序中使用的格式更改数据存储格式的数据。在成功提取数据之后,将数据转换为用于标准化处理的形式。ETL过程中使用了各种工具,例如Data Stage,Informatica或SQL Server Integration Services。
加载
这是ETL过程的最后阶段。在这里,信息以一致的格式提供。现在可以获得任何特定的数据,并可以将其与另一部分数据进行比较。数据仓库可以自动更新或手动触发。这些步骤根据需求在仓库之间执行。作为过程的一部分,数据临时存储在至少一组临时表中。
但是,当数据加载到数据库或数据仓库时,数据管道不会结束。ETL目前正在发展,因此它可以支持跨事务系统,运营数据存储,MDM中心,云和Hadoop平台的集成。由于非结构化数据的增长,数据转换过程变得更加复杂。例如,现代数据流程包括实时数据,例如来自广泛的电子商务网站的网络分析数据。Hadoop是大数据的代名词。开发了几种基于Hadoop的工具来处理ETL过程的不同方面。我们可以使用的工具取决于数据的结构,批量或处理的数据流。
虽然ETL管道和数据管道几乎都做同样的活动。他们跨平台移动数据并以此方式对其进行转换。主要区别在于构建管道的应用程序。
ETL管道是为数据仓库应用程序构建的,包括企业数据仓库以及特定于主题的数据集市。当新应用程序替换传统应用程序时,ETL管道也用于数据迁移解决方案。ETL管道通常使用精通转换结构化数据的行业标准ETL工具构建。
可以为使用数据带来值的任何应用程序构建数据管道。它可用于跨应用程序集成数据,构建数据驱动的Web产品,构建预测模型,创建实时数据流应用程序,执行数据挖掘活动,构建数字产品中的数据驱动功能。随着开源大数据技术(用于构建数据管道)的可用性,过去十年中数据管道的使用有所增加。这些技术能够转换非结构化数据和结构化数据。
ETL管道和数据管道之间的区别,如下所示:
ETL管道 | 数据管道 |
---|---|
ETL管道定义为从一个系统中提取数据,转换并将其加载到某个数据库或数据仓库的过程。 | 数据管道是指将数据从一个系统移动到另一个系统并沿途转换数据的任何处理元素集。 |
ETL管道表示管道分批工作。例如,管道每12小时运行一次。 | 数据管道也可以作为流评估运行(即,每个事件在发生时进行处理)。数据管道类型是ELT管道(将整个数据加载到数据仓库并稍后进行转换)。 |