AI在线 AI在线

刚刚,智谱发布秒杀DeepSeekR1的“沉思”,基座模型Z1吐字速度高达200token/s,价格只有R1的1/30,下月开源

作者: 云昭
2025-03-31 12:28
编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)3月31日上午消息,智谱在 2025 中关村论坛上发布最新 Agent 产品:AutoGLM 沉思。 作为首个集深度研究能力和操作能力于一体的 Agent,AutoGLM 沉思能一边进行复杂思考,一边执行操作。 像人类一样打开并浏览网页,完成从数据检索、分析到生成报告。

编辑 | 云昭

出品 | 51CTO技术栈(微信号:blog51cto)

3月31日上午消息,智谱在 2025 中关村论坛上发布最新 Agent 产品:AutoGLM 沉思。作为首个集深度研究能力和操作能力于一体的 Agent,AutoGLM 沉思能一边进行复杂思考,一边执行操作。像人类一样打开并浏览网页,完成从数据检索、分析到生成报告。

“沉思”背后的全栈自研

智谱CEO张鹏在发布会上,公布了沉思智能体背后的两大核心能力:全栈自研模型GLM-Z1-Air和大模型智能体技术框架AuoGLM。

前者为“沉思”提供了强大推理能力的基座模型,而后者则是智谱一直积累打磨的智能体技术框架。

ps:AutoGLM沉思背后是智谱 GLM 全栈自研大模型,包括推理模型GLM-Z1-Air和基座模型GLM-4-Air0414(4月正式开源)。而自研智能体技术框架AutoGLM成为AutoGLM沉思的手脚。

推理基座模型,32B,200token/s,秒杀满血版R1

先来看看智谱最强的推理基座模型GLM-Z1-Air。

图片图片

智谱CEO张鹏表示,推理模型GLM-Z1-Air不仅性能比肩DeepSeek-R1,在速度提升最高8倍的同时价格仅需DeepSeek-R1的1/30;可以在消费级显卡上进行运行。性能和成本取到了良好的平衡。在AME等一系列基准测试的评估中,Z1-Air表现了强大的数理方面的推理能力,这位更多复杂任务的解决提供了坚实的基座模型的支持。推理速度方面,极速版的 GLM-Z1-Air最高的生成速度可以达到每秒200个 token。

一句话:这款模型只有32 B的参数量,能力却比肩更大参数量的国内外一流的主流的模型。

此外,智谱将更新上线 GLM4-FLASH,并推出了对应推理版本,完全免费。

Agent 也有 Scaling Law

智谱张鹏表示:大模型不止预训练和后训练、推理阶段存在 scaling law,“我们在研究当中发现 agent本身也存在的类似的 scaling law。”对于 agent通过扩展训练时的 inference compute,我们观察到 agent的性能出现了更强的提升。

图片图片

这一agent scaling law背后是我们的自主在线课程强化学习算法框架。通过设计由易到难的任务序列,逐步引导模型从简单场景向复杂场景过渡。这种方法模拟模拟了人类学习的过程(由易到难),通过动态调整任务的难度,帮助模型积累基础能力之后再去挑战更高难度的任务,有效的避免了直接用复杂问题的数据进行训练时候的造成的训练不稳定的现象。

图片图片

在 agent scaling law的基础之上,智谱还进一步发现了 agent存在的能力涌现。比如在训练过程当中,团队没有给到任何的样本或者数据教AutoGLM。

Auto GLM沉思版能够自己规划出一个路径去顺利地访问过巨潮资讯网这样的一个很特殊的网站,然而当发送指令帮用户收集昨天关于具身智能的相关研报。Auto GLM的动手能力:目前在行业内也是处于领先,包括浏览器的使用,手机和电脑在内的工具使用能力全面的处于领先地位。

在斯坦福大模型中心 AI指数2024当中智能体代表基准的 agent bench这样的一个评测集上,AutoGLM系列模型在多个环境上取得超过此前 sota表现的效果。

在 Phone use基准 Android lab和Android word上, Auto GLM phone任务的成功率方面,相对过往SOTA提升了超过20%。

图片图片

在Web use的评测基准上, Auto GM web也全面超越了像GPT-4o和Claude3.5、 sonnet等。

在 GUI智能体方面, Co-Agent结合了视觉能力之后,在 GUI agent多个榜单上取得了 so的效果。

Co-Agent的模型参数仅仅只有9 B。但是它的性能超越了包括 claude computer use等一众更大规模同类的模型的性能。

一个好消息是,智谱将于4月14日开源推理模型GLM-Z1-Air和基座模型GLM-4-Air0414,并于近期陆续上线bigmodel.cn。

One More Thing:智谱的国内国际朋友圈

智谱这两年除了研究新品,还在忙啥?张鹏在最后给我们解开了迷惑。

张鹏表示,2025年将会是 agent的应用的爆发的元年。智谱也将深度参与并且引领这一浪潮,为更多的应用合作伙伴提供基座模型的能力。我们在大力发展基座模型的同时,也会积极的帮助我们的生态合作伙伴更好的来使用 Agentic GLM的能力,包括:搭建标准化的 mass平台和智能体平台,打造基于行业、地域和场景的 agent应用。

在行业生态方面,智谱坚持和行业合作伙伴共创,用自己在大模型研发上的积累帮助行业伙伴来,合力做出成功的大模型应用。目前,智谱已经携手金融、教育、医疗、政务、企业服务等各个领域的合作伙伴,共同推进 Agentic LLM的应用落地。

另外,关注智谱的朋友都知道,智谱在G端方面发展非常成功,包括北京、杭州、上海、成都、珠海在内的地方政府均有合作及支持。比如智谱和珠海的龙头企业华发集团联手,联合搭建首个城市级的 GLM大模型空间,智谱+珠海华发空间将智谱一系列的语言多模态端测的模型部署到智能设备上。

张鹏解释道,在城市生态方面,自主、安全、低幻觉的 GLM大模型依然是城市在选择大模型的首选。智谱与当地的龙头企业合作,推动地方大模型应用生态的建设和落地。

作为一家朝向AGI的公司,除了以上这些生态方面的共建,智谱已经跟东欧十国和“一带一路”沿线国建立了前瞻的合作。会上,张鹏宣布了与这些国建建立主权AI自主大模型国际共建联盟,可以说智谱不仅技术底蕴十足,就连生态的肌肉也十分强悍。

图片图片

相关标签:

相关资讯

阶跃星辰再拿多模态榜首,全方位升级发布六款模型

作者|朱可轩编辑|陈彩娴春节将近,各家厂商似乎都在争取休假前的最后一博,此时步入 2025 年也才半月有余,大模型玩家们已然卷上了新高度。 先是 OpenAI 打响了开年第一“枪”,ChatGPT 上线了新功能“Tasks”,主打提升了任务执行能力,之后国内一众厂商也先后发布了自家成果——月之暗面发布了全新的多模态图片理解模型 moonshot-v1-vision-preview;MiniMax 开源了基础语言模型 MiniMax-Text-01 和视觉多模态模型 MiniMax-VL-01;生数科技上新了视频大模型 Vidu 2.0;接着,智谱 AI 推出了端到端多模态大模型 GLM-Realtime;面壁智能带来了端侧多模态模型 MiniCPM-o 2.6;DeepSeek 开源了 DeepSeek-R1 推理模型......刚开年,模型更新便多到让人眼花缭乱,当中也不难发现,多模态、推理和端侧依旧是今年各家寻求突破的重点方向。 不得不提的是,在这一各厂商密集上新的“黄金节点”,AI 科技评论关注到,阶跃星辰一周内竟一口气批量更新了 6 款模型,全方位涵盖语言、语音、推理、图片理解、视频生成等多类别。
1/22/2025 5:02:00 PM
朱可轩

七彩虹推出 “虹光 AI” 助手接入全速版 DeepSeek

七彩虹科技正式宣布,其全新的 “虹光 AI” 智能模型助手已全面接入满血版 DeepSeek R1模型。 这一升级使得七彩虹的笔记本产品在性能和推理效率上得到了显著提升。 此次更新的 “虹光 AI” 助手,基于当前热门的 Transformer 架构,并采用了 MLA 与 Deep Seek MoE 技术,显著降低了内存占用,减少了缓存需求,从而提升了整体的推理效率。
2/8/2025 5:57:00 PM
AI在线

阿里云 Qwen2.5-1M 开源发布:100万上下文长度模型登场

继 DeepSeek R1之后,阿里云通义千问团队刚刚宣布推出其最新的开源模型 Qwen2.5-1M,再次引发业界关注。 此次发布的 Qwen2.5-1M 系列包含两个开源模型:Qwen2.5-7B-Instruct-1M 和 Qwen2.5-14B-Instruct-1M。 这是通义千问首次推出能够原生支持百万Token上下文长度的模型,并在推理速度上实现了显著提升。
1/27/2025 11:08:00 AM
AI在线