最壕DeepSeek玩家8台Mac跑R1,10万+元凑496GB显存才能跑4bit量化版

DeepSeek-R1,正在接受全球网友真金白银的检验。 花30秒用manim代码制作解释勾股定理的动画,一次完成无错误。 为了玩上这样的模型,有人花上10多万元,组7台M4 Pro Mac mini 1台M4 Max Macbook Pro的家用超算。

DeepSeek-R1,正在接受全球网友真金白银的检验。

花30秒用manim代码制作解释勾股定理的动画,一次完成无错误。

图片

为了玩上这样的模型,有人花上10多万元,组7台M4 Pro Mac mini+1台M4 Max Macbook Pro的家用超算。

图片

总计496G显存(64*7+48),才能跑起个4bit量化版,但属实算得上“家用AGI”配置了。

图片

另一个极端是选择R1数据蒸馏版Qwen 1.5B小模型,小到浏览器就能跑,每秒能输出60个tokens。

图片

与此同时,各种榜单也在抓紧测试,纷纷跑出了结果。

R1横扫各大榜单

首先是LiveBench,与LiveCodeBench一样,题目是随时间更新的,所以相对受认可。

R1的表现在o1-preview到o1之间,其中只有数据一项超过o1。

图片

不过再带上成本成本约1/30这个条件看,又是不一样的感觉,给老哥整无语了。

唯一的抱怨是上下文窗口太短。

图片

o1系列一战成名的ARC-AGI,测试结果分为公开数据和私有数据两部分。

DeepSeek R1在私有数据上解决了15.8%的问题,与DeepSeek-V3相比翻倍还多。

公开数据上更是解决了20.5%的问题,与DeepSeek-V3相比上涨约46%。

图片

总的来看,DeepSeek-R1表现与o1-preview相近,但稍低。

图片

但同样,带上几毛钱就能解决一道题,o1系列至少要10块钱这个背景来看,又是不一样的感觉。

图片

考验任务规划能力的PlanBench,同样的剧本再次上演。

图片

在开发者Xeophon自己的个人测试上,甚至超过了o1-preview。

图片

同一个测试上,R1数据蒸馏的Qwen 32B,与DeepSeek-V3,GPT-4o和Gemini Flash处于同一水平。

图片

最后,还有人从中看到新的创业机会。

谁来构建一个平台,能轻松地在DeepSeek R1上进行OpenAI风格的强化微调。

至少在短期内,是一个巨大的机会。

R1在正确数据和微调方法下,可能在特定任务上大幅提升。

图片

相关资讯

Kimi硬刚多模态满血版o1,首曝训练细节!强化学习scaling新范式诞生

还记得吗,AI大神Karpathy曾说过,「英文是最热门的编程语言」。 两年后的现在,这个规则彻底要被颠覆了。 从今天起,中文很有可能成为全球最热门的编程语言!

DeepSeek新模型霸榜,代码能力与OpenAI o1相当且确认开源,网友:今年编程只剩Tab键

DeepSeek版o1,有消息了。 还未正式发布,已在代码基准测试LiveCodeBench霸榜前三,表现与OpenAI o1的中档推理设置相当。 注意了,这不是在DeepSeek官方App已经能试玩的DeepSeek-R1-Lite-Preview(轻量预览版)。

截胡OpenAI!清华复旦等抢先开源智能体框架Eko,一句话打造「虚拟员工」

OpenAI的首席执行官Sam Altman最近宣布,2025年将推出「虚拟员工计划」,代号Operator,AI智能体能够自主执行任务,如写代码、预订旅行等,成为企业中的「数字同事」。 抢在OpenAI发布Operator之前,清华、复旦和斯坦福的研究者联合提出了名为Eko的 Agent开发框架,开发者可以通过简洁的代码和自然语言,快速构建可用于生产的「虚拟员工」。 AI智能体能够接管用户的电脑和浏览器,代替人类完成各种任务,为工作流程提供自动化支持。