苹果介绍 Ferret-UI 多模态大谈话模型：更充分懂得手机屏幕实质

AI
4月10日
编辑

故渊

感谢苹果公司近日发布研究论文，展示了 Ferret-UI AI 系统，可以懂得应用程序屏幕上的实质。以 ChatGPT 为代表的 AI 大谈话模型（LLMs），其训练材料通常是文本实质。为了能够让 AI 模型能够懂得图象、视频和音频等非文本实质，多模态大谈话模型（MLLMs）因此孕育而生。只是现阶段 MLLMs 还无法有效懂得移动应用程序，这主要有以下几个原因：1. 手机屏幕的宽高比，和大多数训练图象使用的屏幕宽高比不同。2. MLLMs 需要辨认出图标和按钮，但它们相对来说都比较小。因此苹果构想了名为 Ferre

感谢苹果公司近日发布研究论文，展示了 Ferret-UI AI 系统，可以懂得应用程序屏幕上的实质。

苹果介绍 Ferret-UI 多模态大谈话模型：更充分懂得手机屏幕实质

以 ChatGPT 为代表的 AI 大谈话模型（LLMs），其训练材料通常是文本实质。为了能够让 AI 模型能够懂得图象、视频和音频等非文本实质，多模态大谈话模型（MLLMs）因此孕育而生。

只是现阶段 MLLMs 还无法有效懂得移动应用程序，这主要有以下几个原因：

1. 手机屏幕的宽高比，和大多数训练图象使用的屏幕宽高比不同。

2. MLLMs 需要辨认出图标和按钮，但它们相对来说都比较小。

因此苹果构想了名为 Ferret-UI 的 MLLM 系统解决了这些问题：

与自然图象相比，用户界面屏幕的长宽比通常更长，包含的关注对象（如图标、文本）也更小，因此我们在 Ferret 的基础上加入了 “任意分辨率”，以放大细节并利用加强的视觉功效。

我们精心收集了大量初级用户界面使命的训练样本，如图标辨认、查找文本和小部件列表。这些样本的格式都是按照带有区域注释的指令来设计的，以便于精确引用和接地。

为了加强模型的推理能力，我们进一步编制了高级使命数据集，包括详细描述、感知 / 交互对话和功效推理。

苹果在论文中表示相比较现有的 GPT-4V，以及其它 MLLMs 模型，Ferret-UI AI 模型更为优秀。

苹果介绍 Ferret-UI 多模态大谈话模型：更充分懂得手机屏幕实质

苹果介绍 Ferret-UI 多模态大谈话模型：更充分懂得手机屏幕实质

苹果介绍 Ferret-UI 多模态大谈话模型：更充分懂得手机屏幕实质

苹果介绍 Ferret-UI 多模态大谈话模型：更充分懂得手机屏幕实质

苹果介绍 Ferret-UI 多模态大谈话模型：更充分懂得手机屏幕实质

IT之家附上参考地址

Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs

给TA打赏

共{{data.count}}人

人已打赏

AI Ferret MLLMs UI 模型

融合视觉能力，OpenAI 向开发人员供应 GPT-4 Turbo with Vision

2024-4-10 6:55:27

ChatGPT 初次公开出现在电视剧音乐创作人员名单中

2024-4-10 8:56:22

0 条回复 A文章作者 M管理员

更换删除

暂无讨论，说说你的看法吧

TOP1

推理模型 DeepSeek-R1-Lite 预览版上线，号称媲美 OpenAI o1-preview
11月20日
TOP2

AI自动操作VS Code，自然语言搞定各种配置，来自阿里通义智能计算实验室 | 开源
11月20日
TOP3

九大成像模式一键解析，生物医学图像AI再迎突破！微软、UW等BiomedParse登Nature子刊
11月20日
SU 哈佛亚马逊最新研究：量化能让大模型“恢复记忆”，删掉的隐私版权内容全回来了
11月16日
微软在东京开设其日本首个研发中心，专注于将机器人技术与 AI 相结合
11月18日
AI 助力脑瘤手术：10 秒内精准识别残留肿瘤
11月14日
闲鱼注册用户突破 6 亿，AI 技术已应用于闲置交易全链路
11月18日
钉钉AI重磅更新：深入业务场景，上线工单等场景AI助理
11月13日

❯

个人中心

今日签到

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

我的优惠劵

_￥_优惠劵
使用时效：无法使用
使用时效：
之前
使用时效：永久有效

优惠劵ID：
×
限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]
所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×
删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部