X-InstructBLIP - AI在线

走在GPT 4.5前面？3D、视频直接扔进对话框，大模型掌握跨模态推理

最近，有人在社交媒体上发布了一张有关 GPT4.5 更新的截图。图中内容显示，和 GPT 系列之前推出的模型相比，GPT4.5 最大的惊喜可能就是处理 3D 和视频的能力。至于 3D 能力到底是指看得懂 3D 图像，还是能输入 3D 模型，目前只能靠猜。OpenAI CEO Sam Altman 随后否认了该截图的真实性，GPT4.5 的具体能力依然是一个谜。不过，在众多研究中，确实已经有大模型实现了多个模态同时处理，甚至连视频、3D 模型也囊括了进来。给你一首曲子的音频和一件乐器的 3D 模型，然后问你这件乐器能