自主操作电脑的多模态 Agent 升级,智谱 GLM-PC 开放体验

北京智谱华章科技有限公司今日发文宣布,旗下智谱 GLM-PC 开放体验,宣城“自主操作电脑的多模态 Agent 再升级”。
感谢北京智谱华章科技有限公司今日发文宣布,旗下智谱 GLM-PC 开放体验,宣称“自主操作电脑的多模态 Agent 再升级”。

图片

据介绍,GLM-PC 是基于智谱多模态大模型 CogAgent,全球首个面向公众、回车即用的电脑智能体(agent)。它能像人类一样「观察」和「操作」计算机,协助用户完成各类电脑任务。GLM-PC v1.0 于 2024 年 11 月 29 日发布并开放内测,目前最新推出「深度思考」模式、增加专用于做逻辑推理和代码生成的功能、并提供了对 Windows 系统的支持。

AI在线从智谱官方获悉,GLM-PC 具备如下能力:

代码生成与逻辑执行

  • 规划:支持综合分析目标以及可用资源,生成执行路线图,并将大型任务自动分解为可管理的子任务,以构建出清晰的执行路径。

  • 循环执行:规划阶段结束后,支持启动代码生成模块,执行逻辑循环,逐步推进任务完成。该循环机制确保了任务的精确执行与高度自动化,从而实现从输入到输出的完整闭环,无需人工干预

  • 长思考能力:支持实时调整、反思修正和自我纠错,持续优化解决方案。具体表现为:流程因外部因素中断时,可重构逻辑路径;遇到信息缺失时,可主动与用户进行交互,通过提问来完善任务执行方案

图像与 GUI 认知

  • GUI 图像理解:准确识别图形界面元素(如按钮、图标、布局等),并理解其功能与交互逻辑

  • 用户行为认知:结合对用户界面的学习及历史操作信息的理解,为用户提供当前界面的智能推荐操作

  • 图像语义解析:对复杂图像进行深入语义分析,提取关键信息如文字、标识符及数据可视化图表中的趋势和指标

  • 多模态信息融合:融合图像与文字信息,形成全面感知结果。例如,在用户界面中同时识别按钮位置与文字标签,助力「左脑」制定精准操作计划

相关资讯

生成更可控:智谱清影 AI 生视频工具获 2.0 更新,支持画面主体进行大幅度运动

北京智谱华章科技有限公司今日发文宣布,旗下清影 AI 生视频工具获 2.0 更新,并全量上线,宣称“生成更可控”,支持画面主体进行大幅度运动。

智谱 GLM-PC 电脑智能体大模型开放体验:可自主操作电脑,回车即用

智谱今日宣布“全球首个”面向公众、回车即用的电脑智能体GLM-PC开放体验,其能够像人类一样“观察”“操作”计算机,协助用户完成各类电脑任务。

AI现场发了2万红包,打开了大模型Act时代

我们需要的是「真正解放双手的智能体」。 最近一段时间,大模型领域正在经历智能体(AI Agent)引发的革命。 Anthropic 推出的升级版 Claude 3.5 Sonnet,一经推出即引爆了 AI 圈。