Sakana AI 的 Transformer² 模型突破 LLM 限制,实现动态推理

Sakana AI 是一家专注于自然启发算法的人工智能研究实验室,近日推出了一种名为 Transformer² (Transformer-squared) 的创新自适应语言模型。 该模型无需昂贵的微调,即可在推理过程中动态学习并适应新任务,这标志着大型语言模型 (LLM) 技术发展的重要一步。 Transformer² 的核心创新在于其独特的两步动态权重调整机制。

Sakana AI 是一家专注于自然启发算法的人工智能研究实验室,近日推出了一种名为 Transformer² (Transformer-squared) 的创新自适应语言模型。该模型无需昂贵的微调,即可在推理过程中动态学习并适应新任务,这标志着大型语言模型 (LLM) 技术发展的重要一步。

Transformer² 的核心创新在于其独特的两步动态权重调整机制。首先,它分析传入的用户请求,理解任务需求;然后,通过数学技巧,利用奇异值分解 (SVD) 将模型权重与任务需求对齐。通过有选择地调整模型权重的关键组件,Transformer² 能够实时优化性能,而无需耗时的重新训练。这与传统的微调方法形成鲜明对比,后者需要在训练后保持参数静态,或者采用低秩自适应 (LoRA) 等方法,仅修改一小部分参数。

QQ20250124-104642.png

Transformer 平方训练和推理(来源:arXiv)

为了实现动态调整,研究人员采用了奇异值微调 (SVF) 的方法。在训练时,SVF 从模型的 SVD 组件中学习一组被称为 z 向量的技能表示。在推理时,Transformer² 通过分析提示来确定所需技能,然后配置相应的 z 向量,从而实现为每个提示量身定制的响应。

测试结果显示,Transformer² 在数学、编码、推理和视觉问答等各种任务中均优于 LoRA 模型,且参数更少。更令人瞩目的是,该模型还具有知识迁移能力,即从一个模型学习到的 z 向量可以应用到另一个模型,从而表明了广泛应用的潜力。

QQ20250124-104627.png

Transformer-squared(表中的 SVF)与基础模型和 LoRA 的比较(来源:arXiv)

Sakana AI 在其 GitHub 页面上发布了 Transformer² 组件的训练代码,为其他研究人员和开发人员打开了大门。

随着企业不断探索 LLM 的应用,推理时定制技术正逐渐成为主流趋势。Transformer² 与 Google 的 Titans 等其他技术一道,正在改变 LLM 的应用方式,使用户能够根据其特定需求动态调整模型,而无需重新训练。这种技术的进步将使 LLM 在更广泛的领域内更加有用和实用。

Sakana AI 的研究人员表示,Transformer² 代表了静态人工智能与生命智能之间的桥梁,为高效、个性化和完全集成的人工智能工具奠定了基础。

相关资讯

Sakana AI发布“AI CUDA工程师”:自动化优化CUDA内核,速度提升高达100倍

日本人工智能初创公司Sakana AI宣布推出“AI CUDA工程师”(AI CUDA Engineer),这一创新性的AI智能体系统旨在自动化生产高度优化的CUDA内核,显著提升机器学习操作的运行效率。 根据X平台上的最新消息,该系统通过进化的大型语言模型(LLM)驱动代码优化技术,将常见PyTorch操作的运行速度提高了10至100倍,标志着AI技术在GPU性能优化领域的重大突破。 Sakana AI表示,CUDA内核作为GPU计算的核心,直接编写和优化通常需要深厚的专业知识和高技术门槛,而现有框架如PyTorch虽然使用便捷,但在性能上往往无法与手动优化的内核媲美。

Meta首席AI科学家预测五年内将出现新的AI架构范式,开启 “机器人十年”

在日前的达沃斯 “技术辩论” 会上,Meta 的首席 AI 科学家 Yann LeCun 对未来五年的人工智能发展做出了激动人心的预测。 他认为,现有的人工智能系统将在未来3到5年内面临巨大的变革,将出现一种 “新的 AI 架构范式”,超越当今普遍使用的生成式 AI 和大型语言模型(LLM)的能力。 LeCun 指出,当前的 LLM 虽然在语言处理上表现良好,但在真正智能的行为上却存在显著局限性。

​字节跳动推出 PaSa:基于大语言模型的智能学术论文搜索代理

在学术研究领域,文献检索是一项复杂且重要的信息获取任务。 研究人员需要能够处理复杂的、专业知识领域的检索能力,以满足细致的研究需求。 然而,现有的学术搜索平台,如谷歌学术,往往难以应对这些复杂的研究查询。