Sakana AI 的 Transformer² 模型突破 LLM 限制，实现动态推理

2025-01-24 10:48

Sakana AI 是一家专注于自然启发算法的人工智能研究实验室，近日推出了一种名为 Transformer² （Transformer-squared）的创新自适应语言模型。该模型无需昂贵的微调，即可在推理过程中动态学习并适应新任务，这标志着大型语言模型 (LLM) 技术发展的重要一步。 Transformer² 的核心创新在于其独特的两步动态权重调整机制。

Sakana AI 是一家专注于自然启发算法的人工智能研究实验室，近日推出了一种名为 Transformer² （Transformer-squared）的创新自适应语言模型。该模型无需昂贵的微调，即可在推理过程中动态学习并适应新任务，这标志着大型语言模型 (LLM) 技术发展的重要一步。

Transformer² 的核心创新在于其独特的两步动态权重调整机制。首先，它分析传入的用户请求，理解任务需求;然后，通过数学技巧，利用奇异值分解（SVD）将模型权重与任务需求对齐。通过有选择地调整模型权重的关键组件，Transformer² 能够实时优化性能，而无需耗时的重新训练。这与传统的微调方法形成鲜明对比，后者需要在训练后保持参数静态，或者采用低秩自适应 (LoRA) 等方法，仅修改一小部分参数。

Transformer 平方训练和推理（来源:arXiv）

为了实现动态调整，研究人员采用了奇异值微调（SVF）的方法。在训练时，SVF 从模型的 SVD 组件中学习一组被称为 z 向量的技能表示。在推理时，Transformer² 通过分析提示来确定所需技能，然后配置相应的 z 向量，从而实现为每个提示量身定制的响应。

测试结果显示，Transformer² 在数学、编码、推理和视觉问答等各种任务中均优于 LoRA 模型，且参数更少。更令人瞩目的是，该模型还具有知识迁移能力，即从一个模型学习到的 z 向量可以应用到另一个模型，从而表明了广泛应用的潜力。

Transformer-squared（表中的 SVF）与基础模型和 LoRA 的比较(来源:arXiv)

Sakana AI 在其 GitHub 页面上发布了 Transformer² 组件的训练代码，为其他研究人员和开发人员打开了大门。

随着企业不断探索 LLM 的应用，推理时定制技术正逐渐成为主流趋势。Transformer² 与 Google 的 Titans 等其他技术一道，正在改变 LLM 的应用方式，使用户能够根据其特定需求动态调整模型，而无需重新训练。这种技术的进步将使 LLM 在更广泛的领域内更加有用和实用。

Sakana AI 的研究人员表示，Transformer² 代表了静态人工智能与生命智能之间的桥梁，为高效、个性化和完全集成的人工智能工具奠定了基础。

Sakana AI发布“AI CUDA工程师”：自动化优化CUDA内核，速度提升高达100倍

日本人工智能初创公司Sakana AI宣布推出“AI CUDA工程师”（AI CUDA Engineer），这一创新性的AI智能体系统旨在自动化生产高度优化的CUDA内核，显著提升机器学习操作的运行效率。根据X平台上的最新消息，该系统通过进化的大型语言模型(LLM)驱动代码优化技术，将常见PyTorch操作的运行速度提高了10至100倍，标志着AI技术在GPU性能优化领域的重大突破。 Sakana AI表示，CUDA内核作为GPU计算的核心，直接编写和优化通常需要深厚的专业知识和高技术门槛，而现有框架如PyTorch虽然使用便捷，但在性能上往往无法与手动优化的内核媲美。

2/21/2025 5:26:00 PM

AI在线

惊人突破！AI撰写的论文成功骗过人类专家评审

Sakana AI最新研发的AI Scientist-v2模型完成了一项令人瞠目结舌的壮举——它独立创作了一篇完整的科学论文，从构思到完稿全程无人类参与，更令人惊讶的是，这篇论文竟然顺利通过了ICLR2025研讨会的双盲同行评审，成功骗过了人类专家的火眼金睛。这篇AI生成的论文完全实现了端到端的自主创作，Sakana AI确认整个过程未经任何人类修改。 AI Scientist-v2展现了令人难以置信的全面能力——它独立提出科学假设，设计实验方案，编写并优化实验代码，执行实验，分析数据，制作可视化图表，并撰写了从标题到参考文献的每一个字符，甚至包括排版和格式处理。

3/17/2025 10:28:00 AM

AI在线

Meta首席AI科学家预测五年内将出现新的AI架构范式，开启 “机器人十年”

在日前的达沃斯 “技术辩论” 会上，Meta 的首席 AI 科学家 Yann LeCun 对未来五年的人工智能发展做出了激动人心的预测。他认为，现有的人工智能系统将在未来3到5年内面临巨大的变革，将出现一种 “新的 AI 架构范式”，超越当今普遍使用的生成式 AI 和大型语言模型（LLM）的能力。 LeCun 指出，当前的 LLM 虽然在语言处理上表现良好，但在真正智能的行为上却存在显著局限性。

1/24/2025 9:43:00 AM

AI在线

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人 xAI 驾驶字节跳动文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型

顶部

Sakana AI 的 Transformer² 模型突破 LLM 限制，实现动态推理

相关资讯

Sakana AI发布“AI CUDA工程师”：自动化优化CUDA内核，速度提升高达100倍

惊人突破！AI撰写的论文成功骗过人类专家评审

Meta首席AI科学家预测五年内将出现新的AI架构范式，开启 “机器人十年”