AI在线 AI在线

Sakana AI 的 Transformer² 模型突破 LLM 限制,实现动态推理

作者:AI在线
2025-01-24 10:48
Sakana AI 是一家专注于自然启发算法的人工智能研究实验室,近日推出了一种名为 Transformer² (Transformer-squared) 的创新自适应语言模型。 该模型无需昂贵的微调,即可在推理过程中动态学习并适应新任务,这标志着大型语言模型 (LLM) 技术发展的重要一步。 Transformer² 的核心创新在于其独特的两步动态权重调整机制。

Sakana AI 是一家专注于自然启发算法的人工智能研究实验室,近日推出了一种名为 Transformer² (Transformer-squared) 的创新自适应语言模型。该模型无需昂贵的微调,即可在推理过程中动态学习并适应新任务,这标志着大型语言模型 (LLM) 技术发展的重要一步。

Transformer² 的核心创新在于其独特的两步动态权重调整机制。首先,它分析传入的用户请求,理解任务需求;然后,通过数学技巧,利用奇异值分解 (SVD) 将模型权重与任务需求对齐。通过有选择地调整模型权重的关键组件,Transformer² 能够实时优化性能,而无需耗时的重新训练。这与传统的微调方法形成鲜明对比,后者需要在训练后保持参数静态,或者采用低秩自适应 (LoRA) 等方法,仅修改一小部分参数。

QQ20250124-104642.png

Transformer 平方训练和推理(来源:arXiv)

为了实现动态调整,研究人员采用了奇异值微调 (SVF) 的方法。在训练时,SVF 从模型的 SVD 组件中学习一组被称为 z 向量的技能表示。在推理时,Transformer² 通过分析提示来确定所需技能,然后配置相应的 z 向量,从而实现为每个提示量身定制的响应。

测试结果显示,Transformer² 在数学、编码、推理和视觉问答等各种任务中均优于 LoRA 模型,且参数更少。更令人瞩目的是,该模型还具有知识迁移能力,即从一个模型学习到的 z 向量可以应用到另一个模型,从而表明了广泛应用的潜力。

QQ20250124-104627.png

Transformer-squared(表中的 SVF)与基础模型和 LoRA 的比较(来源:arXiv)

Sakana AI 在其 GitHub 页面上发布了 Transformer² 组件的训练代码,为其他研究人员和开发人员打开了大门。

随着企业不断探索 LLM 的应用,推理时定制技术正逐渐成为主流趋势。Transformer² 与 Google 的 Titans 等其他技术一道,正在改变 LLM 的应用方式,使用户能够根据其特定需求动态调整模型,而无需重新训练。这种技术的进步将使 LLM 在更广泛的领域内更加有用和实用。

Sakana AI 的研究人员表示,Transformer² 代表了静态人工智能与生命智能之间的桥梁,为高效、个性化和完全集成的人工智能工具奠定了基础。

相关资讯

Sakana AI发布“AI CUDA工程师”:自动化优化CUDA内核,速度提升高达100倍

日本人工智能初创公司Sakana AI宣布推出“AI CUDA工程师”(AI CUDA Engineer),这一创新性的AI智能体系统旨在自动化生产高度优化的CUDA内核,显著提升机器学习操作的运行效率。 根据X平台上的最新消息,该系统通过进化的大型语言模型(LLM)驱动代码优化技术,将常见PyTorch操作的运行速度提高了10至100倍,标志着AI技术在GPU性能优化领域的重大突破。 Sakana AI表示,CUDA内核作为GPU计算的核心,直接编写和优化通常需要深厚的专业知识和高技术门槛,而现有框架如PyTorch虽然使用便捷,但在性能上往往无法与手动优化的内核媲美。
2/21/2025 5:26:00 PM
AI在线

惊人突破!AI撰写的论文成功骗过人类专家评审

Sakana AI最新研发的AI Scientist-v2模型完成了一项令人瞠目结舌的壮举——它独立创作了一篇完整的科学论文,从构思到完稿全程无人类参与,更令人惊讶的是,这篇论文竟然顺利通过了ICLR2025研讨会的双盲同行评审,成功骗过了人类专家的火眼金睛。 这篇AI生成的论文完全实现了端到端的自主创作,Sakana AI确认整个过程未经任何人类修改。 AI Scientist-v2展现了令人难以置信的全面能力——它独立提出科学假设,设计实验方案,编写并优化实验代码,执行实验,分析数据,制作可视化图表,并撰写了从标题到参考文献的每一个字符,甚至包括排版和格式处理。
3/17/2025 10:28:00 AM
AI在线

Meta首席AI科学家预测五年内将出现新的AI架构范式,开启 “机器人十年”

在日前的达沃斯 “技术辩论” 会上,Meta 的首席 AI 科学家 Yann LeCun 对未来五年的人工智能发展做出了激动人心的预测。 他认为,现有的人工智能系统将在未来3到5年内面临巨大的变革,将出现一种 “新的 AI 架构范式”,超越当今普遍使用的生成式 AI 和大型语言模型(LLM)的能力。 LeCun 指出,当前的 LLM 虽然在语言处理上表现良好,但在真正智能的行为上却存在显著局限性。
1/24/2025 9:43:00 AM
AI在线