自主操作电脑的多模态 Agent 升级,智谱 GLM-PC 开放体验

北京智谱华章科技有限公司今日发文宣布,旗下智谱 GLM-PC 开放体验,宣城“自主操作电脑的多模态 Agent 再升级”。
感谢北京智谱华章科技有限公司今日发文宣布,旗下智谱 GLM-PC 开放体验,宣称“自主操作电脑的多模态 Agent 再升级”。

图片

据介绍,GLM-PC 是基于智谱多模态大模型 CogAgent,全球首个面向公众、回车即用的电脑智能体(agent)。它能像人类一样「观察」和「操作」计算机,协助用户完成各类电脑任务。GLM-PC v1.0 于 2024 年 11 月 29 日发布并开放内测,目前最新推出「深度思考」模式、增加专用于做逻辑推理和代码生成的功能、并提供了对 Windows 系统的支持。

AI在线从智谱官方获悉,GLM-PC 具备如下能力:

代码生成与逻辑执行

  • 规划:支持综合分析目标以及可用资源,生成执行路线图,并将大型任务自动分解为可管理的子任务,以构建出清晰的执行路径。

  • 循环执行:规划阶段结束后,支持启动代码生成模块,执行逻辑循环,逐步推进任务完成。该循环机制确保了任务的精确执行与高度自动化,从而实现从输入到输出的完整闭环,无需人工干预

  • 长思考能力:支持实时调整、反思修正和自我纠错,持续优化解决方案。具体表现为:流程因外部因素中断时,可重构逻辑路径;遇到信息缺失时,可主动与用户进行交互,通过提问来完善任务执行方案

图像与 GUI 认知

  • GUI 图像理解:准确识别图形界面元素(如按钮、图标、布局等),并理解其功能与交互逻辑

  • 用户行为认知:结合对用户界面的学习及历史操作信息的理解,为用户提供当前界面的智能推荐操作

  • 图像语义解析:对复杂图像进行深入语义分析,提取关键信息如文字、标识符及数据可视化图表中的趋势和指标

  • 多模态信息融合:融合图像与文字信息,形成全面感知结果。例如,在用户界面中同时识别按钮位置与文字标签,助力「左脑」制定精准操作计划

相关资讯

生成更可控:智谱清影 AI 生视频工具获 2.0 更新,支持画面主体进行大幅度运动

北京智谱华章科技有限公司今日发文宣布,旗下清影 AI 生视频工具获 2.0 更新,并全量上线,宣称“生成更可控”,支持画面主体进行大幅度运动。

智谱AI宣布完成新一笔金额超10亿元战略融资

近日,国内领先的人工智能企业智谱宣布完成了一笔金额超过10亿元人民币的战略融资。 此次融资由杭州城投产业基金、上城资本等多家投资机构共同参与,为智谱的进一步发展和技术创新注入了强劲动力。 据悉,这笔融资将主要用于推动国产基座GLM大模型的技术创新和生态发展。

智谱华章完成超10亿元融资 计划开源新一代大模型

近日,北京智谱华章科技有限公司宣布其最新一轮战略融资金额超过10亿元人民币。 这轮融资的参与方包括杭州城投产业基金和上城资本等,显示了市场对智谱的强大信心与支持。 作为国内最早开源大模型的 AI 公司之一,智谱的目标是在2025年成为其开源发展的关键年份。