多模态模型

多智能体架构Insight-V来了！突破长链视觉推理瓶颈
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。
工程
- 974
- 0
机器之心12月13日
清华新VLA框架加速破解具身智能止步实验室“魔咒”，LLM开销节省4-6倍 | NeurIPS’24
计算、存储消耗高，机器人使用多模态模型的障碍被解决了！来自清华大学的研究者们设计了DeeR-VLA框架，一种适用于VLA的“动态推理”框架，能将LLM部分的相关计算、内存开销平均降低4-6倍。（VLA：视觉-语言-动作模型，代表一类用于处理多模态输入的模型）简单来说，DeeR-VLA就像人的决策系统：简单任务快速思考，复杂任务仔细思考。
理论
- 974
- 0
admin12月2日
徐图智能徐东：文生视频创业，要用坚定信仰对抗 fomo 的大厂
在 GPT-4 发布一年多后，OpenAI 推出 GPT-4o，是有史以来第一个真正实现「多模态输入—多模态输出」的多模态模型。 GPT-4o 的出现所传递的信息是：在底层模型并没有变得更智能的情况下，能够跨多种模态进行推理的模型必然是更加通用的。因为其不仅具备多种功能，还能以不同模态传递知识。
应用
- 970
- 0
王悦6月20日

❯

个人中心

今日签到

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

我的优惠劵

_￥_优惠劵
使用时效：无法使用
使用时效：
之前
使用时效：永久有效

优惠劵ID：
×
限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]
所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×
删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部