AI在线 AI在线

开源逆袭:TAO 方法微调 Llama 模型,FinanceBench 跑分超 GPT-4o

作者:故渊
2025-03-27 08:56
Databricks发布TAO方法,通过无标注数据和强化学习技术,微调Llama模型在FinanceBench等基准测试中表现优异,甚至超越OpenAI的GPT-4o。这一技术不仅降低了企业成本,还为开源模型提供了持续进化的路径。#开源创新# #AI技术#

科技媒体 NeoWin 昨日(3 月 26 日)发布博文,报道称数据智能公司 Databricks 发布新型大语言模型微调方法 TAO(Test-time Adaptive Optimization),通过无标注数据和强化学习技术,在显著降低企业成本的同时提升模型性能。

开源逆袭:TAO 方法微调 Llama 模型,FinanceBench 跑分超 GPT-4o

开源逆袭:TAO 方法微调 Llama 模型,FinanceBench 跑分超 GPT-4o

开源逆袭:TAO 方法微调 Llama 模型,FinanceBench 跑分超 GPT-4o

测试显示,在金融文档问答和 SQL 生成任务中,通过 TAO 微调后的 Llama 3.3 70B 模型,表现甚至超越传统标注微调方法,逼近 OpenAI 顶级闭源模型。

开源逆袭:TAO 方法微调 Llama 模型,FinanceBench 跑分超 GPT-4o

开源逆袭:TAO 方法微调 Llama 模型,FinanceBench 跑分超 GPT-4o

TAO 方法利用测试时计算(test-time compute)自动探索任务可能性,结合强化学习优化模型,省去人工标注成本。在三大企业基准测试中,TAO 微调的 Llama 模型表现亮眼:

  • FinanceBench(7200 道 SEC 文档问答):TAO 模型得分 85.1,优于标注微调(81.1)和 OpenAI o3-mini(82.2)。

  • BIRD-SQL:TAO 模型 56.1 分,接近 GPT-4o(58.1),远超标注微调(54.9)。

  • DB Enterprise Arena:TAO 模型 47.2 分,而 GPT-4o 模型得分为 53.8 分。

TAO 技术为开源模型提供了持续进化路径:用户使用越多,模型通过反馈数据自我优化的潜力越大,目前该技术已在 Llama 模型上启动私测,企业可通过申请表单参与。

相关资讯

开源模型逆袭:Databricks TAO 技术微调 Llama 超越 GPT-4o

近日,数据智能公司 Databricks 推出了一种全新的大语言模型微调方法 ——TAO(Test-time Adaptive Optimization),这一技术的出现为开源模型的发展带来了新的希望。 通过运用无标注数据和强化学习,TAO 不仅在降低企业成本方面表现出色,更是在一系列基准测试中取得了令人瞩目的成绩。 根据科技媒体 NeoWin 的报道,TAO 微调后的 Llama3.370B 模型在金融文档问答和 SQL 生成等任务中,展现出了优于传统标注微调方法的性能,甚至逼近了 OpenAI 的顶级闭源模型。
3/27/2025 2:39:00 PM
AI在线

模型调优无需标注数据!将Llama 3.3 70B直接提升到GPT-4o水平

现阶段,微调大型语言模型(LLMs)的难点在于,人们通常没有高质量的标注数据。 最近,AI 公司 Databricks 推出了一种新的调优方法 TAO,只需要输入数据,无需标注数据即可完成。 更令人惊喜的是,TAO 在性能上甚至超过了基于标注数据的监督微调。
3/30/2025 5:21:00 PM
机器之心

世界首款真开源类ChatGPT大模型Dolly 2.0,可随意修改商用

众所周知,在 ChatGPT 的问题上 OpenAI 并不 Open,从 Meta 那里开源的羊驼系列模型也因为数据集等问题「仅限于学术研究类应用」,在人们还在因为寻找绕过限制方法的时候,主打 100% 开源的大模型来了。
4/13/2023 2:28:00 PM
机器之心