GUI

微软开源 OmniParser 纯视觉 GUI 智能体:让 GPT-4V 秒懂屏幕截图,可操控手机 / 电脑

科技媒体 marktechpost 于 10 月 24 日发布博文,报道称微软公司宣布开源 OmniParser,是一款解析和识别屏幕上可交互图标的 AI 工具。 项目背景传统的自动化方法通常依赖于解析 HTML 或视图层次结构,从而限制了其在非网络环境中的适用性。 而包括 GPT-4V 在内的现有的视觉语言模型(VLMs),并不擅长解读复杂 GUI 元素,导致动作定位不准确。

让机器学习设计手机GUI,这合理么?

研究背景:图形用户界面(Graphical UserInterface,简称 GUI,又称图形用户接口),为用户和计算机桌面程序,手机类移动端软件,和在线网站提供了可视化的交互方式。设计优秀的GUI颜值在线且简洁易用,吸引大量忠实用户。但即便对经验丰富的GUI设计者,新App与GUI的创作过程也是非常困难且耗费时间的,例如交互流畅、通用、简洁、美观、风格连贯等与设计相关的规则和标准是设计者们需要遵循的。而且为了紧跟时代潮流,不断从其他的资源(如Dribbble)寻找最新最热的设计来获取灵感也为设计者们带来了额外巨大
  • 1