云计算

2024年ETL工程的几大趋势解读

本文主要是介绍2024年ETL工程的几大趋势解读,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!

你好,我是蒂博,我写关于数据工程和ETL的文章(ETL指的是抽取、转换和加载)。如果你喜欢我的文章,可以在Medium上关注我。

ETL 已经存在了几十年之久,多个创新周期已经塑造了数据工程的领域。作为更广泛的数据工程领域的一个子集,ETL 工程随着人工智能的兴起而再次受到关注,其中 ETL 过程变得越来越重要。让我们来看看在 2024 年 ETL 领域的几个重要趋势。

🐍 Python霸权主义

我在之前的文章中提到过这个话题。ETL 长期以来一直是由基于 Java 的工具和工作负载主导的。Python 因其在学术和研究中的广泛应用,以及多次 AI/ML(机器学习、深度学习、生成式 AI 等)浪潮的推动而重新流行起来。事实上,大多数 AI/ML 库都是以 Python 为主的,因此,数据领域不得不做出调整。看看数据科学家、数据工程师甚至数据分析师的工作描述,你会发现 Python 现已成为数据领域最常要求的技能之一,与 SQL 一起,成为数据领域不可或缺的技能。

🪶 小巧但强大的数据

在2010年代大数据浪潮及其好坏参半的成功之后,人们意识到并非所有问题都是大数据问题。Jordan Tigani在其受欢迎的文章《大数据已死》(Big Data is Dead)中对此解释得很清楚。与此同时,强大的Python库的兴起,首先是Pandas,然后是Polars和DuckDB,在单机上可以完成的任务上设定了新的界限。使用这些框架实际上可以让你走得很远(成本只是分布式处理所需成本的一小部分),在需要多台机器上的分布式工作负载之前。除此之外,始终应优先考虑最适合你工作的工具(以及最适合你的工具)。

📄 未结构化的数据,比如文字、图片等

随着生成式人工智能的兴起,处理海量未结构化数据,大部分公司尚未充分利用变得可能。例如,检索增强生成(RAG)管道使公司能够索引企业文档并输入到大型语言模型(LLM)中,以更准确地回答特定查询。大型语言模型还可以从这些文档中提取相关信息,并以结构化格式提供,以便分析使用。总体而言,这为公司利用其专有数据提供了更多机会,无论是在内部还是外部应用场景。

💡 提示:由GenAI驱动的ETL开发任务

生成式AI对ETL有许多影响,其中之一是它大大降低了开发数据抽取和转换管道的门槛。因为它们是在大量开源Python代码的基础上训练的,所以大型语言模型尤其擅长编写代码,特别是Python代码。例如,它们生成Selenium代码(一种流行的网站抓取框架)非常高效,能够高效地提取并正确结构化数据。此外,它们还能写SQL查询,这对数据分析师非常有用,同时数据工程师也能更快地编写复杂的SQL查询,堪称游戏规则的改变者。

🏠 湖畔小屋与表格格式之争

正如Databricks收购Tabular和Snowflake的新Polaris发布所展示的,表格式正大行其道。湖仓架构正被广泛采用,数据供应商也在密切关注并迅速响应。目录功能日趋成熟,与常用库和工具的集成也在逐步进行。未来几年内,我们可能会看到表格式进一步成熟、更广泛采用,甚至可能会出现整合。

这些趋势中的一些已经持续了几年,并将在未来几年继续成熟。另一些,比如用于数据和ETL工程的生成式人工智能,则仍处于起步阶段,正在迅速演变。无论如何,灵活适应性和持续学习是这个领域中唯一不变的常量!

Amphi ETL 是一个低代码且基于 Python 的 ETL 工具,适用于结构化、半结构化或非结构化数据。它允许你通过图形界面开发数据管道,并生成可以部署的 Python 代码。Amphi 是免费和开源的,试试看吧!

Github 页面: https://github.com/amphi-ai/amphi-etl

这篇关于2024年ETL工程的几大趋势解读的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!