MLLMs - AI在线

GPT-4o 差点没及格！首个多任务长视频评测基准，它有亿点难

难度大升级的多任务长视频理解评测基准 MLVU 来了！由智源联合北邮、北大和浙大等多所高校推出。究竟有多难呢？最终排名第一的 GPT-4o 单选正确率还不足 65%。而且研究发现，大部分模型的性能都会随着视频时长增加显著下降。研究进一步证明，提升上下文窗口，提升图像理解能力，以及使用更强大的 LLM Backbone 对长视频理解的性能具有显著的提升作用。目前相关论文及数据集已公开，具体细节下面一起看看吧~MLVU 的构建过程当前流行的 Video Benchmark 主要针对短视频设计，大部分视频的长度都在 1

苹果介绍 Ferret-UI 多模态大语言模型：更充分理解手机屏幕内容

感谢苹果公司近日发布研究论文，展示了 Ferret-UI AI 系统，可以理解应用程序屏幕上的内容。以 ChatGPT 为代表的 AI 大语言模型（LLMs），其训练材料通常是文本内容。为了能够让 AI 模型能够理解图像、视频和音频等非文本内容，多模态大语言模型（MLLMs）因此孕育而生。只是现阶段 MLLMs 还无法有效理解移动应用程序，这主要有以下几个原因：1. 手机屏幕的宽高比，和大多数训练图像使用的屏幕宽高比不同。2. MLLMs 需要识别出图标和按钮，但它们相对来说都比较小。因此苹果构想了名为 Ferre