为什么ETL和AI不是竞争对手,而是数据未来的合作伙伴

译者 | 晶颜审校 | 重楼去年,大模型经历了爆炸式增长,进一步完善了人工智能解决问题的能力。 今年,随着炒作的热度消退,大模型进入了更深层次的阶段,旨在重塑各行业的基础逻辑。 在大数据处理中,大模型与传统ETL (即提取Extract、转换Transform、加载Load)过程之间的冲突引发了新的争论。

译者 | 晶颜

审校 | 重楼

去年,大模型经历了爆炸式增长,进一步完善了人工智能解决问题的能力。今年,随着炒作的热度消退,大模型进入了更深层次的阶段,旨在重塑各行业的基础逻辑。在大数据处理中,大模型与传统ETL (即提取Extract、转换Transform、加载Load)过程之间的冲突引发了新的争论。大模型以“Transformers”(一种基于自注意力机制的深度学习模型)为特征,而ETL则依赖于“Transform(转换)”过程——相似的名称代表了截然不同的范式。

为什么ETL和AI不是竞争对手,而是数据未来的合作伙伴

一些声音大胆地预测:“ETL将在未来被完全取代,因为大模型可以处理所有数据!”这是否标志着支撑数据处理数十年的ETL框架的终结?或者这仅仅是一个被误解的预测?这种冲突的背后是对科技未来的更深层次的思考。

大数据处理(ETL)会消失吗?

随着大模型的快速发展,一些人开始猜测,包括ETL在内的传统大数据处理方法是否仍然有存在的必要。能够自主学习规则并从大量数据集中发现模式的大模型无疑令人印象深刻。然而,我的答案很明确:ETL不会消失!原因在于大模型仍然无法解决下述几个核心数据挑战:

1. 效率问题

尽管大模型在特定任务中表现出色,但它们会产生巨大的计算成本。训练一个大型的Transformer模型可能需要数周的时间,并消耗大量的能源和金钱。相比之下,ETL依赖于预定义的规则和逻辑,效率高,消耗资源少,并且擅长处理结构化数据。

对于日常的企业数据任务,许多操作仍然是规则驱动的,例如:

  • 数据清洗:使用清晰的规则或正则表达式清除异常。
  • 格式转换:标准化格式,方便跨系统的数据传输和集成。
  • 聚合和统计:对每日、每周或每月的数据进行分类、聚合和计算。

这些任务可以由ETL工具快速处理,而无需大模型的复杂推理能力。

2. 自然语言中的歧义

大模型在自然语言处理(NLP)方面表现出色,但也暴露了人类语言的歧义性和模糊性这一固有挑战。例如:

  • 单个输入查询可能根据上下文产生不同的解释,不能保证准确性。
  • 数据质量的差异可能导致模型生成的结果与实际需求不一致。

相比之下,ETL是确定性的,它根据预定义的规则处理数据,以产生可预测的标准化输出。在金融和医疗保健等高需求行业,ETL的可靠性和精度仍然是关键优势。

3. 对结构化数据有很强的适应性

大模型擅长从非结构化数据(例如,文本、图像、视频)中提取见解,但它们通常难以处理结构化数据任务。例如:

  • 传统的ETL能够有效地处理关系数据库,处理复杂的操作,如JOINs和GROUP BYs。
  • 大模型需要在处理之前将数据转换为特定格式,从而导致冗余和延迟。

在由结构化数据(例如表、JSON)主导的场景中,ETL仍然是最佳选择。

4. 可解释性和遵从性

大模型通常被称为“黑匣子”。即使数据处理完成,它们的内部运作和决策机制仍然不透明。具体表现为以下方面:

  • 无法解释的结果:在金融和医疗等受监管的行业中,由于缺乏透明度,大模型的预测可能无法使用。
  • 遵从性挑战:许多行业需要对数据流和处理逻辑进行全面审计。大模型及其复杂的数据管道和决策机制构成了重大的审计挑战。

相比之下,ETL提供了高度透明的过程,每个数据处理步骤都有文档记录和可审计,确保符合公司和行业标准。

5. 数据质量和输入标准化

大模型对数据质量非常敏感。噪音、异常或非标准化输入都会严重影响其性能:

  • 数据噪音:大模型无法自动识别错误数据,可能会将其用作“学习材料”并产生有偏见的预测。
  • 缺乏标准化:将原始的、未经清理的数据输入大模型可能导致不一致和缺失值,这需要像ETL这样的预处理工具。

ETL确保在将数据输入大型模型之前对数据进行清理、重复数据删除和标准化,从而保持数据质量高。

尽管大模型在许多领域表现出色,但它们的复杂性、对高质量数据的依赖、硬件需求和实际限制都说明它们无法完全取代ETL。作为一种确定性的、高效的和透明的工具,ETL将继续与大模型共存,为数据处理提供双重保障。

CPU vs. GPU:等同于ETL vs.大模型

虽然ETL是不可替代的,但大模型在数据处理领域的兴起也是必然趋势。几十年来,计算系统以CPU为中心,其他组件被视为外围设备。GPU主要用于游戏,但今天,数据处理依赖于CPU和GPU(或NPU)的协同作用。这种模式的转变反映了更广泛的变化,反映在英特尔和英伟达的股票趋势上。

从单中心到多中心计算

从历史上看,数据处理架构从“以CPU为中心”演变为“CPU+GPU(甚至NPU)协作”。这种由计算性能需求的变化所驱动的转变深刻地影响了数据处理工具的选择。

在以CPU为中心的时代,早期的ETL进程严重依赖CPU逻辑进行数据清理、格式化和聚合等操作。这些任务非常适合CPU的顺序处理能力。

然而,复杂数据格式(音频、视频、文本)的兴起和存储的指数级增长揭示了CPU能力的局限性。GPU以其无与伦比的并行处理能力,在训练大型Transformer模型等数据密集型任务中占据了中心位置。

从传统ETL到大模型

传统的ETL流程,针对“以CPU为中心”的计算进行了优化,擅长处理基于规则的结构化数据任务。具体例子包括:

  • 数据验证和清理。
  • 格式标准化。
  • 聚合和报告。

相比之下,大模型需要GPU能力来进行高维矩阵计算和大规模参数优化。具体例子包括:

  • 预处理:实时标准化和数据分割。
  • 模型训练:涉及浮点运算的计算繁重任务。
  • 推理服务:优化批处理,实现低延迟和高吞吐量。

这反映了从逻辑计算到神经推理的转变,将数据处理扩展到包括推理和知识提取。

面向大模型的新一代ETL架构

大模型的兴起凸显了传统数据处理的低效率,需要更先进、更统一的架构。

当前数据处理中的痛点

  1. 复杂、碎片化的流程:数据清理、注释和预处理仍然是高度手工化和孤立的。
  2. 低可重用性:团队经常重新创建数据管道,导致效率低下。
  3. 质量不一致:缺乏标准化的工具会导致数据质量的变化。
  4. 高成本:每个团队独立的开发和维护会增加成本。

解决方案:AI增强ETL工具

未来的ETL工具将嵌入人工智能功能,将传统优势与现代智能相结合。具体包括以下几点:

  • 嵌入生成:内置支持文本、图像和音频矢量化。
  • LLM知识提取:非结构化数据的自动结构化。
  • 动态清理规则:数据清理策略的上下文感知优化。
  • 非结构化数据处理:支持关键帧提取、OCR和语音到文本。
  • 自动增强:智能数据生成和增强。

终极趋势:Transformers + Transform

随着技术的不断进步,大模型与传统ETL技术逐渐融合。下一代ETL架构有望将大模型的智能与ETL的效率结合起来,创建一个能够处理各种数据类型的综合框架。

硬件:数据处理单元的集成

数据处理的基础正在从以CPU为中心的系统转向涉及CPU和GPU的协作方法:

  • CPU用于基础任务:CPU擅长基本操作(如初步数据清理、集成)和基于规则的处理(如提取、转换和加载结构化数据)。
  • GPU用于高级分析:GPU具有强大的并行计算能力,可以处理预处理数据上的大模型训练和推理任务。

这一趋势不仅体现在技术创新上,也体现在行业动态上:英特尔正在推进用于CPU-AI协作的人工智能加速器,而英伟达正在将GPU应用扩展到传统的ETL场景。CPU和GPU之间的协同作用为下一代数据处理提供了更高的效率和智能支持。

软件:数据处理架构的集成

随着ETL和大模型功能日益交织在一起,数据处理正在演变成一个多功能的协作平台,其中ETL作为大模型的数据准备工具。

大模型在训练过程中需要高质量的输入数据,ETL为其提供了初步处理,创造了理想的条件。具体表现为以下方面:

  • 噪声去除和清洗:消除噪声数据,提高数据集质量。
  • 格式化和标准化:将多种数据格式转换为适合大模型的统一结构。
  • 数据增强:通过预处理和基于规则的增强来扩展数据规模和多样性。

AI增强ETL架构的出现

ETL工具的未来在于嵌入AI功能,以实现更智能的数据处理:

1.嵌入功能

  • 集成用于生成嵌入的模块以支持基于向量的数据处理。
  • 生成文本、图像和音频的高维表示;在下游任务中使用预训练模型进行语义嵌入。
  • 直接在ETL工作流中执行嵌入计算,减少对外部推理服务的依赖。

2.LLM知识提取

  • 利用大语言模型(LLM)有效地处理非结构化数据,提取实体和事件等结构化信息。
  • 完成和推断复杂的字段,例如填充缺失值或预测未来趋势。
  • 在数据集成期间支持多语言数据翻译和语义对齐。

3.非结构化数据识别和关键帧提取

  • 原生支持视频、图像和音频数据,支持注释或训练数据集的自动关键帧提取。
  • 从图像中提取特征(例如,对象检测,OCR)并执行音频到文本的转换,情感分析等等。

4.动态清理规则

  • 根据数据上下文动态调整清理和增强策略,以提高效率和相关性。
  • 实时检测异常并生成自适应清理规则。
  • 优化特定领域(例如,金融、医疗保健)的清洁策略。

5.自动数据增强和生成

  • 通过人工智能模型动态增强数据集,例如同义词替换、数据反翻译、对抗性样本生成等。
  • 扩展低样本场景的数据集,支持跨语言或跨领域的数据生成。

AI增强的ETL代表了传统ETL的转型飞跃,提供嵌入生成、基于LLM的知识提取、非结构化数据处理和动态规则生成,以显著提高数据处理的效率、灵活性和智能。

案例研究:Apache seattunnel——新一代AI增强ETL架构

例如,开源Apache SeaTunnel项目通过支持创新的数据格式和先进的处理能力,打破了传统的ETL限制,展示了数据处理的未来:

  • 原生支持非结构化数据:SeaTunnel引擎支持文本、视频和音频处理,以满足不同的模型训练需求。
  • 向量化数据支持:实现深度学习和大模型推理任务的无缝兼容。
  • 嵌入大模型功能:SeaTunnel v2.3.8支持嵌入生成和LLM转换,将传统的ETL与AI推理工作流连接起来。
  • “Any-to-Any”转换:将数据从任何来源(例如,数据库、binlogs、pdf、SaaS、视频)转换为任何目标格式,提供无与伦比的多功能性。

SeaTunnel等工具说明了现代数据处理如何演变为人工智能+大数据全栈协作系统,成为企业人工智能和数据战略的核心。

结语

大模型Transformers和大数据Transforms不是竞争对手,而是盟友。数据处理的未来在于ETL与大模型的深度融合,具体如下所示:

  • 协作数据处理单元:利用CPU-GPU协同进行结构化和非结构化数据处理。
  • 动态数据处理架构:将AI功能嵌入ETL,用于嵌入生成、LLM知识提取和智能决策。
  • 下一代工具:像Apache SeaTunnel这样的开源解决方案突出了这一趋势,实现了“Any-to-Any”的数据转换,并重新定义了ETL边界。

大模型与ETL的融合,将推动数据处理进入智能化、标准化、开放的新时代。通过满足企业需求,这种演变将推动业务创新和智能决策,成为未来数据驱动型企业的核心引擎。

原文标题:Why ETL and AI Aren’t Rivals, but Partners in Data’s Future作者:William Guo

相关资讯

1.8B参数,阿里云首个联合DNA、RNA、蛋白质的生物大模型,涵盖16.9W物种

编辑 | 萝卜皮不久之前,Google DeepMind 发布了 AlphaFold3,再次引发了人们对「AI 生命科学」的讨论。在学界,科学家的目标往往是先认识世界,然后在认识的基础上改造世界。但是在生命科学领域,人类对整个生命的理解与认识还如九牛一毛、冰山一角;建立对生命系统的多维度深刻认识是当前人类研究的重要一步,AI 是达成这一步的重要工具。近期,阿里云飞天实验室发布并开源了业界首个联合 DNA、RNA、蛋白质的生物大模型「LucaOne」。这是一种新型预训练基础模型,旨在综合学习遗传和蛋白质组语言,涵

为大模型提供全新科学复杂问答基准与测评体系,UNSW、阿贡、芝加哥大学等多家机构联合推出SciQAG框架

编辑 | ScienceAI问答(QA)数据集在推动自然语言处理(NLP)研究发挥着至关重要的作用。高质量QA数据集不仅可以用于微调模型,也可以有效评估大语言模型(LLM)的能力,尤其是针对科学知识的理解和推理能力。尽管当前已有许多科学QA数据集,涵盖了医学、化学、生物等领域,但这些数据集仍存在一些不足。其一,数据形式较为单一,大多数为多项选择题(multiple-choice questions),它们易于进行评估,但限制了模型的答案选择范围,无法充分测试模型的科学问题解答能力。相比之下,开放式问答(openQA

中国科学院团队发布GeneCompass:解析基因调控密码,打造干湿融合新范式

作者 | 中国科学院多学科交叉研究团队编辑 | ScienceAI近年来,大语言模型(LLMs)已在自然语言、计算机视觉等通用领域引发了新一轮技术革命,通过大规模语料和模型参数进行预训练,LLMs能够掌握语言的共性规律,能够对多种下游任务产生质的提升,已经形成了新的人工智能范式。在生命科学领域,单细胞组学技术的突破产生了大量不同物种细胞的基因表达谱数据,形成了海量的生命「语料」。如果把基因表达值看作单词,组合在一起构成细胞「句子」,进而形成组织「段落」和器官「文章」,并将不同物种作为生命「语种」,利用LLMs相关技