华科字节推出 Liquid：重新定义多模态模型的生成与理解

2025-03-04 09:41

近年来，大语言模型（LLM）在人工智能领域取得了显著进展，尤其是在多模态融合方面。华中科技大学、字节跳动与香港大学的联合团队最近提出了一种新型的多模态生成框架 ——Liquid，旨在解决当前主流多模态模型在视觉处理上的局限性。传统的多模态大模型依赖复杂的外部视觉模块，这不仅增加了系统的复杂性，还限制了其扩展性。

近年来，大语言模型（LLM）在人工智能领域取得了显著进展，尤其是在多模态融合方面。华中科技大学、字节跳动与香港大学的联合团队最近提出了一种新型的多模态生成框架 ——Liquid，旨在解决当前主流多模态模型在视觉处理上的局限性。

传统的多模态大模型依赖复杂的外部视觉模块，这不仅增加了系统的复杂性，还限制了其扩展性。Liquid 的创新之处在于，它采用 VQGAN 作为图像分词器，摒弃了对外部视觉组件的依赖，通过将图像编码为离散的视觉 token，使得模型可以直接与文本 token 共享词表，从而实现 “原生” 的视觉理解与生成能力。

研究发现，Liquid 不仅能够降低训练成本，还揭示了多模态能力与 LLM 的尺度规律。团队在不同规模（从0.5B 到32B）的 LLM 上进行了实验，结果显示，随着模型规模的扩大，其视觉生成任务的性能和生成质量均遵循与语言任务一致的缩放规律。更令人振奋的是，视觉理解与生成任务之间存在双向促进的关系，即两者可以通过共享的表示空间实现联合优化。

Liquid 的设计充分体现了极简主义，它将图像与文本一视同仁，采用统一的处理框架。在构建过程中，研究团队利用30M 的文本数据和30M 的图文对数据，为模型的多模态训练奠定了基础。最终的实验结果表明，Liquid 在多模态理解、图像生成及纯文本任务中都表现出了优越的性能，其生成的图像与文本之间的语义一致性显著高于其他自回归模型。

Liquid 的提出为通用多模态智能的架构设计提供了新思路，预示着人工智能在多模态融合的未来可能会迎来更加高效和灵活的进化。

论文链接:https://arxiv.org/pdf/2412.04332

AI “看图说话” 更懂细节！腾讯开源多模态理解技术HaploVL

3月27日，腾讯开源团队宣布推出了一项创新的多模态理解技术——HaploVL。这一技术旨在通过单个Transformer架构实现高效的多模态融合，显著提升AI在视觉和语言交互中的表现，特别是在细粒度视觉理解任务上。在人工智能领域，多模态大模型（LMMs）近年来迅速崛起，它们能够实现复杂的视觉-语言对话和交互。

3/27/2025 5:36:00 PM

AI在线

MIT顶尖机器人学家创业，融资数千万，受线虫启发开发液态网络，叫板OpenAI

机器之能报道编辑：吴昕MIT 计算机科学和人工智能实验室 CSAIL 孵化的创业公司—— Liquid AI 终于结束隐身模式，公开与 OpenAI 和其他公司的大型语言模型竞争。近日，Liquid AI 官宣已筹集 3750 万美元。就种子轮而言，这个数字相当可观。投资人不乏一些大人物，比如 GitHub 联合创始人 Tom Preston Werner、Shopify 联合创始人 Tobias Lütke 和 Red Hat 联合创始人 Bob Young。融资后，公司估值 3.03 亿美元。著名机器人学家和计

12/12/2023 10:21:00 AM

机器之能

给机器人装上「虫脑」？非Transformer液态神经网络终于来了！MIT CSAIL负责人创业成果

在大模型时代，谷歌 2017 年开创性论文《Attention Is All You Need》中提出的 Transformer 已经成为主流架构。然而，刚刚一家由 MIT 计算机科学与人工智能实验室 (CSAIL) 前研究人员共同创立的初创公司 Liquid AI 却走出了不一样的路线。Liquid AI 表示他们的目标是「探索构建超越生成式预训练 Transformer (GPT) 基础模型的方法」。为了实现这一目标，Liquid AI 推出了其首批多模态 AI 模型：Liquid Foundation Mod

10/1/2024 2:20:00 PM

机器之心

资讯热榜

企业级模型推理部署工具vllm使用指南 - 部署最新deepseek-v3-0324模型全能且实用！实战测评谷歌最新模型Gemini 2.5 Pro 大模型部署工具 Ollama 使用指南：技巧与问题解决全攻略基于 DeepSeek GRPO 的 1.5B Rust 代码生成模型训练实战模态编码器|CLIP详细解读 DeepSeek R1 vs OpenAI O3 vs Gemini 2 Pro—谁最适合做客服主管的AI 50组多风格提示词，全面测评Midjourney V7生图效果！斯坦福2025 AI指数出炉！中美AI对决差距仅剩0.3%，DeepSeek领衔

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习 GPT 开源微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D AI设计 Anthropic 机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习模态苹果 AI视频驾驶文本搜索 xAI 人形机器人 Copilot 神器推荐 LLaMA 大语言模型具身智能字节跳动 Claude 算力安全应用视频生成科技视觉干货合集亚马逊 2024 AGI 特斯拉 DeepMind 架构

顶部

华科字节推出 Liquid：重新定义多模态模型的生成与理解

相关资讯

AI “看图说话” 更懂细节！腾讯开源多模态理解技术HaploVL

MIT顶尖机器人学家创业，融资数千万，受线虫启发开发液态网络，叫板OpenAI

给机器人装上「虫脑」？非Transformer液态神经网络终于来了！MIT CSAIL负责人创业成果