AnyGPT
复旦等发布AnyGPT:任意模态输入输出,图像、音乐、文本、语音都支持
最近,OpenAI 的视频生成模型 Sora 爆火,生成式 AI 模型在多模态方面的能力再次引起广泛关注。现实世界本质上是多模态的,生物体通过不同的渠道感知和交换信息,包括视觉、语言、声音和触觉。开发多模态系统的一个有望方向是增强 LLM 的多模态感知能力,主要涉及多模态编码器与语言模型的集成,从而使其能够跨各种模态处理信息,并利用 LLM 的文本处理能力来产生连贯的响应。然而,该策略仅限于文本生成,不包含多模态输出。一些开创性工作通过在语言模型中实现多模态理解和生成取得了重大进展,但这些模型仅包含单一的非文本模态
3/4/2024 2:47:00 PM
机器之心
- 1
资讯热榜
浙大满血版 DeepSeek 上线免费使用:无惧系统繁忙,全国 829 所 CARSI 联盟高校开放共享
DeepSeek 等秒变操控电脑 AI 智能体,微软开源工具 OmniParser V2.0 发布
DeepSeek 团队新作:把代码变成思维链,大模型推理各种能力全面提升
阿里通义万相宣布即将开源视频生成模型WanX 2.1
DeepSeek 推出 NSA 技术:加速长上下文训练与推理
刚刚,DeepSeek揭秘R1官方同款部署设置,温度=0.6!OpenAI推理指南同时上线
阿里国际开源Ovis2系列多模态大语言模型 共有六个版本
GPT-4o“人格觉醒”? 升级后变身“毒舌”暖男,还懂人类小情绪了!
标签云
人工智能
AIGC
OpenAI
AI绘画
ChatGPT
数据
机器人
DeepSeek
谷歌
AI
Midjourney
智能
大模型
学习
GPT
用户
微软
AI创作
开源
图像
Meta
技术
论文
Stable Diffusion
马斯克
算法
模型
生成式
蛋白质
芯片
Gemini
计算
神经网络
代码
研究
AI设计
腾讯
Sora
3D
GPU
开发者
英伟达
场景
机器学习
伟达
预测
华为
模态
Transformer
AI for Science
文本
驾驶
深度学习
百度
AI视频
神器推荐
苹果
搜索
LLaMA
算力
干货合集
Anthropic
视频生成
Copilot
科技
2024
应用
安全
特斯拉
具身智能
AI应用场景
xAI
写作
机器
字节跳动
人形机器人
AGI
DeepMind
视觉
英特尔