MLLMs

GPT-4o 差点没及格!首个多任务长视频评测基准,它有亿点难

难度大升级的多任务长视频理解评测基准 MLVU 来了!由智源联合北邮、北大和浙大等多所高校推出。究竟有多难呢?最终排名第一的 GPT-4o 单选正确率还不足 65%。而且研究发现,大部分模型的性能都会随着视频时长增加显著下降。研究进一步证明,提升上下文窗口,提升图像理解能力,以及使用更强大的 LLM Backbone 对长视频理解的性能具有显著的提升作用。目前相关论文及数据集已公开,具体细节下面一起看看吧~MLVU 的构建过程当前流行的 Video Benchmark 主要针对短视频设计,大部分视频的长度都在 1

苹果介绍 Ferret-UI 多模态大语言模型:更充分理解手机屏幕内容

感谢苹果公司近日发布研究论文,展示了 Ferret-UI AI 系统,可以理解应用程序屏幕上的内容。以 ChatGPT 为代表的 AI 大语言模型(LLMs),其训练材料通常是文本内容。为了能够让 AI 模型能够理解图像、视频和音频等非文本内容,多模态大语言模型(MLLMs)因此孕育而生。只是现阶段 MLLMs 还无法有效理解移动应用程序,这主要有以下几个原因:1. 手机屏幕的宽高比,和大多数训练图像使用的屏幕宽高比不同。2. MLLMs 需要识别出图标和按钮,但它们相对来说都比较小。因此苹果构想了名为 Ferre
  • 1