智谱大秀肌肉!CogAgent 2.0让大模型接管一切!GLM-PC首创隐形屏幕,人类监工AI不远了

编辑 | 伊风智谱 Agent OpenDay,手机上的自动驾驶正式升级为全家桶! AutoGLM、AutoGLM-Web、GLM-PC,分别在手机、浏览器和电脑端可用! 这下终于全员能体验一把 AI 助手「会操作」的魅力了。

编辑 | 伊风

智谱 Agent OpenDay,手机上的自动驾驶正式升级为全家桶!

AutoGLM、AutoGLM-Web、GLM-PC,分别在手机、浏览器和电脑端可用!

这下终于全员能体验一把 AI 助手「会操作」的魅力了。此前推出的 AutoGLM 因为苹果生态的限制,只有安卓版,让许多用户都没能走到申请内测的那一步。

现在最快能上手的就是已经上线的 Web插件了,无需申请内测!

智谱大秀肌肉!CogAgent 2.0让大模型接管一切!GLM-PC首创隐形屏幕,人类监工AI不远了图片

智谱大秀肌肉!CogAgent 2.0让大模型接管一切!GLM-PC首创隐形屏幕,人类监工AI不远了图片

在演示 demo 里,智谱大秀肌肉,展现了一把 AutoGLM 从小红书搜索火锅食材,到小象超市下单的共 53 步的操作。(这么想想一个简单的食材采买,其实也是非常繁琐的事。)

智谱大秀肌肉!CogAgent 2.0让大模型接管一切!GLM-PC首创隐形屏幕,人类监工AI不远了图片

智谱大秀肌肉!CogAgent 2.0让大模型接管一切!GLM-PC首创隐形屏幕,人类监工AI不远了图片

更多AutoGLM、GLM-PC的神奇操作,可以看看官方放出的视频,让人直呼魔法。

1.GLM-PC ,第一个提出了隐形屏幕

CogAgent 如何学会操作设备的呢?

技术负责人潘立航解释,目前主要有三大类学习方案。

先是被动模仿,让 AI 观察我们人类是如何使用计算机的,让 AI 了解各种操作。

第二步是交互学习,在这一步中,人类做导师,AI 在指导下操作计算机。

第三步则是主动探索,计算机能自己琢磨研究,完成提升。

智谱大秀肌肉!CogAgent 2.0让大模型接管一切!GLM-PC首创隐形屏幕,人类监工AI不远了图片

不过,AI 目前的操作还有很多限制,完成任务的效率也相对较慢。

例如,Claude 3.5,他在操作电脑进行编程时,就被研究人员发现 AI 竟然偷偷摸鱼,浏览器了黄石公园的照片。

智谱大秀肌肉!CogAgent 2.0让大模型接管一切!GLM-PC首创隐形屏幕,人类监工AI不远了图片

而且,在 AI 接管电脑的时候,人类就不能并行做事了。这就使得 AI 用电脑的效率很低。

在这次发布会里,GLM-PC 提出了隐形屏幕,让人眼前一亮!

也就是说,未来人和 AI 能同时使用一台电脑工作,AI 不再抢占屏幕和键盘鼠标。当然了,我们还可以继续监工 AI,把它的屏幕放在小窗,随时查看,但又互不干扰。

潘立航说,GLM-PC 有计划让 AI 分身,创造多个隐形屏幕,一个打工人,就是一支队伍。

隐形屏幕预计明年 Q1 推出,看来 2025 年的 AI圈也会非常精彩。

智谱大秀肌肉!CogAgent 2.0让大模型接管一切!GLM-PC首创隐形屏幕,人类监工AI不远了图片

2.上手实测:教 AI 比自己做累多了

AutoGLM 很酷,但就像我们用的一系列 AI 功能一样,离完成品还有非常远的路要走。

看到消息,我迫不及待的体验了一把,下载即用的浏览器插件,AutoGLM-Web。

谷歌浏览器插件地址:

https://chromewebstore.google.com/detail/%E6%99%BA%E8%B0%B1%E6%B8%85%E8%A8%80%EF%BC%9Achatglm-autoglm-%E5%B7%A5%E4%BD%9C%E5%AD%A6%E4%B9%A0/mnpdbmgpebfihcndnpgdaihnkmloclkd

首先,目前在插件中,AutoGLM 支持的网站比较有限。

智谱大秀肌肉!CogAgent 2.0让大模型接管一切!GLM-PC首创隐形屏幕,人类监工AI不远了图片

更重要的是,AutoGLM 的意图识别还不够“智能”,需要写更详细地prompt来指导 AI,而它的响应也需要等待。

实测开始,我在百度主页看到一个羽绒服的热搜,因为标题在卖关子,就让 AI 帮我看看是个啥事。

智谱大秀肌肉!CogAgent 2.0让大模型接管一切!GLM-PC首创隐形屏幕,人类监工AI不远了图片

使用 AutoGLM 帮我查看,在优化 prompt 后,AI 成功点开了相应的热搜,但却没能进一步点开搜索结果就进行了总结。

视频经过二倍速处理。

智谱大秀肌肉!CogAgent 2.0让大模型接管一切!GLM-PC首创隐形屏幕,人类监工AI不远了

由于没有点击搜索结果(可能因为搜索结果不在支持网站的范围,另外,第一条结果是个视频,对于 AI 来说理解视频也具备困难),总之,AutoGLM 的总结和新闻主要信息中的「假羽绒以次充好」「旧羽绒服翻新」有所出入。

智谱大秀肌肉!CogAgent 2.0让大模型接管一切!GLM-PC首创隐形屏幕,人类监工AI不远了图片

在隐形屏幕出现后,我或许会尝试将更多的任务外包给 AutoGLM。

这些 demo 更像对不久的未来的一种预言。我们能体会到 demo 中 AI 助手的神奇与实用,产品的设计面向了实打实的生活场景,可以预见这些 AI 功能将在未来给我们节省大量的时间和精力——可能不是现在。

相关资讯

预测蛋白质共调控和功能,哈佛&MIT训练含19层transformer的基因组语言模型

编辑 | 萝卜皮破译基因及其基因组背景之间的关系,是理解和设计生物系统的基础。机器学习在从大量蛋白质序列数据集中学习序列-结构-功能范式背后的潜在关系方面表现出潜力。哈佛大学和麻省理工学院(MIT)的研究人员在数百万个宏基因组框架上训练基因组语言模型(gLM),从而分析基因之间潜在的功能和调控关系。gLM 能够学习「上下文」化的蛋白质嵌入,捕获基因组上下文以及蛋白质序列本身,并编码具有生物学意义和功能相关的信息(例如酶功能、分类学)。该研究以「Genomic language model predicts prot

智谱 AI 宣布全模型矩阵降价:GLM-4-Flash 模型降至 0.06 元 / 百万 Tokens

在今天举行的智谱 AI Open Day 上,智谱 AI 宣布全模型矩阵降价。IT之家附降价情况如下:GLM-4-Air、GLM-3-Turbo 现价 0.6 元 / 百万 TokensEmbedding-2 现价 0.3 元 / 百万 TokensGLM-4-Flash 现价 0.06 元 / 百万 Tokens在今天的活动中,智谱还宣布开源 GLM-4-9B 系列模型,其包含基座模型、视觉模型,以及不同上下文长度的 Chat 模型。GLM-4-9B-Chat 可提供多轮对话、网页浏览、代码执行、自定义工具调用等

阿里云、智谱多家国产大模型公司宣布提供 OpenAI API 服务替代方案

感谢昨天陆续有 API 开发者在社交媒体上表示,他们收到了来自 OpenAI 的“警告信”,信中表示将采取额外措施停止其不支持的地区的 API 使用,IT之家此前已进行详细报道。此后,多家国产大模型公司宣布为开发者提供 OpenAI API 服务的替代方案,包括智谱、阿里云、百度智能云等。智谱:推出 OpenAI API 用户“特别搬家计划”,帮助用户切换至国产大模型。其 GLM 大模型号称全面对标 OpenAI 产品体系,且全链路技术自研、安全可控。为开发者提供:1.5 亿 Token(5000 万 GLM-4