Mirasol3B
规模小、效率高:DeepMind推出多模态解决方案Mirasol 3B
性能优于规模更大的模型。多模态学习面临的主要挑战之一是需要融合文本、音频、视频等异构的模态,多模态模型需要组合不同来源的信号。然而,这些模态具有不同的特征,很难通过单一模型来组合。例如,视频和文本具有不同的采样率。最近,来自 Google DeepMind 的研究团队将多模态模型解耦成多个独立的、专门的自回归模型,根据各种模态的特征来处理输入。具体来说,该研究提出了多模态模型 Mirasol3B。Mirasol3B 由时间同步模态(音频和视频)自回归组件,以及用于上下文模态的自回归组件组成。这些模态不一定在时间上对
11/28/2023 2:43:00 PM
机器之心
- 1
资讯热榜
生成式 AI 已过时:英伟达黄仁勋首提 Agentic AI,后续是机器人 Physical AI
早报速读!2025年最新AI视频产品评测&优秀案例
清华团队开源 “赤兔 Chitu” 推理引擎,助力国产 AI 生态发展
无需训练,100%完美检索!LLM练出「火眼金睛」,InfiniRetri超长文本一针见血
OpenAI重磅剧透:GPT-5“很快推出”,CPO预测年内AI代码自动化将达99%!
Anthropic发布MCP传输机制重大升级:告别长连接,迎接更灵活的"Streamable HTTP"
一睁眼就被老祖宗追着骂,AI古人「回答我」视频火了(附教程)
写给产品设计师的AI工具指南
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
AI绘画
DeepSeek
机器人
数据
谷歌
大模型
模型
Midjourney
智能
用户
学习
GPT
开源
微软
AI创作
图像
Meta
技术
论文
Stable Diffusion
马斯克
算法
生成式
蛋白质
Gemini
芯片
代码
神经网络
腾讯
计算
研究
英伟达
Sora
AI设计
3D
AI for Science
GPU
开发者
机器学习
场景
华为
Anthropic
预测
伟达
Transformer
模态
深度学习
百度
AI视频
苹果
驾驶
文本
搜索
神器推荐
xAI
LLaMA
算力
Copilot
人形机器人
安全
科技
字节跳动
视频生成
应用
具身智能
干货合集
2024
大语言模型
视觉
Claude
AGI
特斯拉
亚马逊
语音
架构