AI在线 AI在线

开源模型逆袭:Databricks TAO 技术微调 Llama 超越 GPT-4o

作者:AI在线
2025-03-27 02:39
近日,数据智能公司 Databricks 推出了一种全新的大语言模型微调方法 ——TAO(Test-time Adaptive Optimization),这一技术的出现为开源模型的发展带来了新的希望。 通过运用无标注数据和强化学习,TAO 不仅在降低企业成本方面表现出色,更是在一系列基准测试中取得了令人瞩目的成绩。 根据科技媒体 NeoWin 的报道,TAO 微调后的 Llama3.370B 模型在金融文档问答和 SQL 生成等任务中,展现出了优于传统标注微调方法的性能,甚至逼近了 OpenAI 的顶级闭源模型。

近日,数据智能公司 Databricks 推出了一种全新的大语言模型微调方法 ——TAO(Test-time Adaptive Optimization),这一技术的出现为开源模型的发展带来了新的希望。通过运用无标注数据和强化学习,TAO 不仅在降低企业成本方面表现出色,更是在一系列基准测试中取得了令人瞩目的成绩。

根据科技媒体 NeoWin 的报道,TAO 微调后的 Llama3.370B 模型在金融文档问答和 SQL 生成等任务中,展现出了优于传统标注微调方法的性能,甚至逼近了 OpenAI 的顶级闭源模型。这一成果标志着开源模型在与商用 AI 产品竞争中的又一次重大突破。

image.png

TAO 方法的核心在于其独特的 “测试时计算” 理念,能够自动探索任务的多样性,同时结合强化学习来优化模型,从而避免了传统微调所需的人工标注成本。在多项企业基准测试中,TAO 微调的 Llama 模型成绩斐然:

- 在 FinanceBench 基准测试中,该模型在7200道 SEC 文档问答中取得了85.1的高分,超过了传统标注微调(81.1)和 OpenAI 的 o3-mini(82.2)的成绩。

- 在 BIRD-SQL 测试中,TAO 微调的 Llama 模型得分为56.1,接近 GPT-4o 的58.1,远超传统标注微调(54.9)。

- 在 DB Enterprise Arena 中,TAO 模型得分为47.2,虽然略低于 GPT-4o 的53.8,但仍然显示了强劲的竞争力。

image.png

TAO 技术为开源模型的持续进化打开了一扇新的大门。随着用户使用量的增加,模型将通过反馈数据进行自我优化。目前,Databricks 已在 Llama 模型上开始了私测,企业可通过申请参与这一创新的体验。

image.png

这一新技术的推出,不仅是开源 AI 领域的一次创新突破,也是对未来大语言模型发展的重要指引。随着更多企业的参与,TAO 微调方法有望进一步推动开源模型的性能提升,让开源 AI 在商业化应用中展现更大潜力。

相关资讯

开源逆袭:TAO 方法微调 Llama 模型,FinanceBench 跑分超 GPT-4o

Databricks发布TAO方法,通过无标注数据和强化学习技术,微调Llama模型在FinanceBench等基准测试中表现优异,甚至超越OpenAI的GPT-4o。这一技术不仅降低了企业成本,还为开源模型提供了持续进化的路径。#开源创新# #AI技术#
3/27/2025 8:56:38 AM
故渊

模型调优无需标注数据!将Llama 3.3 70B直接提升到GPT-4o水平

现阶段,微调大型语言模型(LLMs)的难点在于,人们通常没有高质量的标注数据。 最近,AI 公司 Databricks 推出了一种新的调优方法 TAO,只需要输入数据,无需标注数据即可完成。 更令人惊喜的是,TAO 在性能上甚至超过了基于标注数据的监督微调。
3/30/2025 5:21:00 PM
机器之心

首批中文版Llama3模型来了,解释成语、答弱智吧问题

中文问题,中文回答。最近,Meta 推出了 Llama 3,为开源大模型树立了新的标杆。和以往的原始 Llama 模型一样,Llama 3 对中文的支持效果欠佳,经常会出现你用中文提问,它用英文或中文 英文回复的现象。因此,要想让国内用户用上该模型,开发者还需对其进行微调。最近,在 Github 以及 HuggingFace 平台上,我们已经陆陆续续地看到了一些这样的项目,比如 llama3-Chinese-chat 和 Llama3-8B-Chinese-Chat。这篇文章将逐一介绍。llama3-Chinese
4/25/2024 11:23:00 AM
机器之心