苹果介绍 Ferret-UI 多模态大谈话模型:更充分懂得手机屏幕实质

感谢苹果公司近日发布研究论文,展示了 Ferret-UI AI 系统,可以懂得应用程序屏幕上的实质。以 ChatGPT 为代表的 AI 大谈话模型(LLMs),其训练材料通常是文本实质。为了能够让 AI 模型能够懂得图象、视频和音频等非文本实质,多模态大谈话模型(MLLMs)因此孕育而生。只是现阶段 MLLMs 还无法有效懂得移动应用程序,这主要有以下几个原因:1. 手机屏幕的宽高比,和大多数训练图象使用的屏幕宽高比不同。2. MLLMs 需要辨认出图标和按钮,但它们相对来说都比较小。因此苹果构想了名为 Ferre

感谢苹果公司近日发布研究论文,展示了 Ferret-UI AI 系统,可以懂得应用程序屏幕上的实质。

苹果介绍 Ferret-UI 多模态大谈话模型:更充分懂得手机屏幕实质

以 ChatGPT 为代表的 AI 大谈话模型(LLMs),其训练材料通常是文本实质。为了能够让 AI 模型能够懂得图象、视频和音频等非文本实质,多模态大谈话模型(MLLMs)因此孕育而生。

只是现阶段 MLLMs 还无法有效懂得移动应用程序,这主要有以下几个原因:

1. 手机屏幕的宽高比,和大多数训练图象使用的屏幕宽高比不同。

2. MLLMs 需要辨认出图标和按钮,但它们相对来说都比较小。

因此苹果构想了名为 Ferret-UI 的 MLLM 系统解决了这些问题:

与自然图象相比,用户界面屏幕的长宽比通常更长,包含的关注对象(如图标、文本)也更小,因此我们在 Ferret 的基础上加入了 “任意分辨率”,以放大细节并利用加强的视觉功效。

我们精心收集了大量初级用户界面使命的训练样本,如图标辨认、查找文本和小部件列表。这些样本的格式都是按照带有区域注释的指令来设计的,以便于精确引用和接地。

为了加强模型的推理能力,我们进一步编制了高级使命数据集,包括详细描述、感知 / 交互对话和功效推理。

苹果在论文中表示相比较现有的 GPT-4V,以及其它 MLLMs 模型,Ferret-UI AI 模型更为优秀。

苹果介绍 Ferret-UI 多模态大谈话模型:更充分懂得手机屏幕实质

苹果介绍 Ferret-UI 多模态大谈话模型:更充分懂得手机屏幕实质

苹果介绍 Ferret-UI 多模态大谈话模型:更充分懂得手机屏幕实质

苹果介绍 Ferret-UI 多模态大谈话模型:更充分懂得手机屏幕实质

苹果介绍 Ferret-UI 多模态大谈话模型:更充分懂得手机屏幕实质

IT之家附上参考地址

Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs

给TA打赏
共{{data.count}}人
人已打赏
AI

融合视觉能力,OpenAI 向开发人员供应 GPT-4 Turbo with Vision

2024-4-10 6:55:27

AI

ChatGPT 初次公开出现在电视剧音乐创作人员名单中

2024-4-10 8:56:22

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索