人工智能的发展速度可能超乎你的想象。自GPT-4将多模态技术引入公众视野以来,多模态大模型进入快速发展阶段,逐渐从单纯的模型研发转向垂直领域的探索和应用,与各行各业深度融合。在界面交互领域,谷歌、苹果等国际科技巨头纷纷投入UI多模态大模型研发,这被视为手机AI革命的必经之路。
在此背景下,国内首个UI大模型横空出世。8月17日,在IXDC2024国际体验设计大会上,AI时代设计工具Motiff妙多推出了其自主研发的UI多模态大模型——Motiff妙多大模型。这是全球首个由UI设计工具企业研发的大模型,标志着中国UI设计力量在全球舞台上的崛起。
(IXDC大会现场,Motiff妙多副总裁介绍国内首个UI大模型——Motiff妙多大模型)
Motiff妙多大模型具备出色的UI理解能力和执行开放式指令的能力。在五个行业公认的UI能力基准测试集中,Motiff妙多大模型的各项指标均超过了GPT-4o和苹果的Ferret UI,同时在Screen2Words(界面描述与推断)和Widget Captioning(部件描述)两大指标上也超越了谷歌的ScreenAI,其中Widget Captioning指标高达161.77,刷新SoTA。与Ferret UI、ScreenAI等现有解决方案相比,Motiff妙多大模型能灵活地根据上下文理解界面元素,达到“设计专家”水平,最接近人类对UI界面的理解和表述结果。
(权威UI指标横评中,Motiff妙多大模型所有指标均超过GPT-4o和Ferret UI)
最懂UI的大模型、表述高度接近人类,未来界面交互革命的基石
在IXDC大会上,Motiff妙多副总裁张昊然详细介绍了Motiff妙多大模型,它具备理解用户界面和交互导览两大能力,有望引领界面交互革命。“人类的创造从认知和理解开始,AI 时代的 UI 创作也将从大模型充分理解用户界面开始。”张昊然说。
Motiff妙多大模型在理解用户界面方面表现卓越,堪比“设计专家”。它不仅能识别界面中所有的图片、图标、文字和40多种细粒度UI组件,还能精确标注界面上不同元素的区域坐标。此外,它还能够回答与用户界面相关的各种问题,并根据界面信息进行功能推断、详细描述界面内容。
相较于GPT-4o、Ferret UI和ScreenAI等大模型,Motiff妙多大模型还在界面分析能力上具有显著优势。例如,在APP Store应用界面中,Motiff妙多大模型能以UI设计视角将页面分为顶部导航栏、应用信息模块等多个模块,并详细分析每个模块的功能和布局,这有助于提供设计建议、自动生成UI设计原型等。Motiff妙多在界面分析能力上处于行业领先水平,是最懂UI设计的多模态大模型。
(Motiff妙多大模型能回答各种各样有关UI界面的问题)
Motiff妙多大模型在理解和表述能力上也最接近人类。此前的解决方案(如 Ferret UI 和 ScreenAI)难以根据上下文理解图标的含义,Motiff妙多大模型通过人工标注等方式收集了大量高质量的 UI 领域数据,能理解并指出同一图标在不同界面中的多种含义,显著提升了描述的准确度和情境相关性。
(图1数据由谷歌ScreenAI生成,将心形图标错误地理解为“心”而不是“收藏”;图2、3、4数据由Motiff妙多大模型生成,能结合界面信息准确描述图标含义。)
Motiff妙多大模型还具备交互导览能力,可以根据用户需求提示操作步骤,并在获得许可后替代用户完成相关操作。这为未来的界面交互革命奠定了基础。未来,用户无需手动点击屏幕,只需语音或图像输入即可操作设备,Siri等手机助手可能成为所有App的新入口,真正的智能手机和电脑将由此诞生,软件应用新范式和界面交互新时代也将随之开启。
此外,Motiff妙多大模型也成功将错误率控制在个位数内。业内观点认为,错误率的大幅下降标志着AI从辅助工具向独立完成工作的“技术奇点”迈进。目前,大模型面临的核心问题之一是较高的错误率,如GPT-4在多个指标上有30%至40%的错误率,在UI领域错误率甚至超过70%。相比之下,Motiff妙多大模型将错误率降低到15%以下,个别指标错误率仅为7%。
为何AI应用企业能自主研发出全球领先的大模型?张昊然在大会上称,这源于对“产品做得更好”的持续追求。“Motiff妙多作为AI产品引领者,致力于从应用场景出发突破技术瓶颈,不断提升对AI能力的要求。”他说。
Motiff妙多能在UI领域“打败”GPT-4o、苹果Ferret UI等国际领先大模型,也得益于其长期的技术积累。Motiff妙多自2021年成立以来一直专注于界面交互与设计,其母公司猿辅导集团2014年就成立了专注于AI技术前沿探索的AI Lab,2018年猿辅导集团在知名机器阅读比赛MSMARCO中就位列全球第一,当时的机器阅读理解能力已经超越了百度和微软。
AI提效+生成打造设计师最佳助手, 优化软件开发工作流
毫无疑问, Motiff妙多大模型的发布标志着界面设计领域迎来GPT时刻。UI 设计需要对视觉元素的精确处理和对用户交互逻辑的深度理解,Motiff妙多大模型显著提升了设计工具的效率和生成能力。
在Motiff妙多的AI生成UI功能中,用户只需输入一段指令,不到30秒,Motiff妙多就能生成两版设计稿。根据近期30多位行业人士的盲评,Motiff妙多生成的两版设计稿均优于之前领先的AI生成UI工具Galileo AI。该功能发布后迅速成为市场上的领先者,这一优势直接源于Motiff妙多大模型的UI专业能力。据悉,AI生成UI功能已于8月17日对全球用户开放,只需注册Motiff妙多账号即可免费体验。
(输入同样的提示词“生成类似hulu的视频流主页”,Motiff妙多生成效果的准确性、丰富度强于Galileo AI。)
此外,AI设计系统功能中的组件识别准确性也得到了显著提升。在大模型的支持下,设计师仅需花费几分钟就能完成过去至少几周才能完成的工作。AI复制功能对设计稿中的图片和文案识别准确率达到97%以上。
“Motiff 妙多将计划面向中大型企业开放大模型能力,和客户共同打造 AI 时代新的界面生产关系。”张昊然在会上指出,Motiff妙多大模型有助于优化软件开发工作流,有效缩短现有的界面生产流程。
Motiff妙多此前已在界面设计行业开创了多个“第一”,不仅首创多个AI功能,也是国内首个自研图形渲染引擎的界面设计软件,并且是全球唯一在单画布100万图层下仍可流畅编辑的高性能产品。Motiff在海外社交媒体上被誉为“AI版Figma”,在提高生产力超百倍的同时,价格比Figma低80%以上,并登上知名产品发布平台Product Hunt 7月最受欢迎产品日榜和周榜第一。
(海外社交平台出现大量比较Motiff妙多和Figma的帖子,Motiff妙多被认为是设计师都需要了解的AI工具。)