王炸！DeepSeek-V3-0324悄然发布，免费商用，消费级电脑也能跑！

2025-03-25 08:53

DeepSeek 悄然发布了其最新的大型语言模型 DeepSeek-V3-0324，在人工智能行业内引发了强烈反响。这款容量高达641GB 的模型悄然出现在 AI 模型库 Hugging Face 上，几乎没有任何事先宣传，延续了该公司低调但极具影响力的发布风格。性能飞跃，媲美 Claude Sonnet3.5DeepSeek-V3的发布之所以引人注目，不仅在于其强大的功能，更在于其部署方式和许可协议。

DeepSeek 悄然发布了其最新的大型语言模型 DeepSeek-V3-0324，在人工智能行业内引发了强烈反响。这款 容量高达641GB 的模型悄然出现在 AI 模型库 Hugging Face 上，几乎没有任何事先宣传，延续了该公司低调但极具影响力的发布风格。

性能飞跃，媲美 Claude Sonnet3.5

DeepSeek-V3的发布之所以引人注目，不仅在于其强大的功能，更在于其部署方式和许可协议。早期测试者报告称，新模型在各项指标上都取得了巨大的进步。

AI 研究员 Xeophon 在 X 平台上表示，DeepSeek V3在其内部测试中“所有测试的所有指标都有了巨大飞跃”，并声称其现在是“最好的非推理模型，取代了 Sonnet3.5”。如果这一说法得到更广泛的验证，DeepSeek 的新模型将超越 Anthropic 备受尊敬的商业 AI 系统 Claude Sonnet3.5。

开源商用，惠及大众:打破付费壁垒

与需要订阅才能使用的 Sonnet 不同，DeepSeek-V3-0324的模型权重是完全免费的，任何人都可以下载和使用。

更重要的是，该模型采用了 MIT 许可证，这意味着它可以 自由地用于商业用途。这种开放的姿态与西方 AI 公司通常将模型置于付费墙之后的做法形成了鲜明对比。

MoE 架构与两大突破

DeepSeek V3-0324的突破性架构实现了无与伦比的效率。该模型采用了 混合专家（MoE）架构，从根本上改变了大型语言模型的运行方式。与传统模型在每个任务中都激活所有参数不同，DeepSeek 的方法 在特定任务中仅激活其6850亿参数中的约370亿个。这种选择性激活代表了模型效率的巨大转变，使其在大幅降低计算需求的同时，实现了与更大的完全激活模型相当的性能。

此外，该模型还融入了两项额外的突破性技术:多头潜在注意力（MLA） 和 多令牌预测（MTP）。MLA 增强了模型在长文本中保持上下文的能力，而 MTP 则可以 每步生成多个令牌，而不是通常的一次生成一个。这些创新共同 将输出速度提高了近80%。

硬件友好，本地运行:消费级设备也能驾驭

开发者工具创建者 Simon Willison 在一篇博客文章中指出，一个 4位量化版本将存储占用减少到352GB，这使得在高端消费级硬件（如配备 M3Ultra 芯片的 Mac Studio）上运行成为可能。

AI 研究员 Awni Hannun 在社交媒体上写道:“新的 DeepSeek-V3-0324在配备 mlx-lm 的512GB M3Ultra 上以 >20个 tokens/秒的速度运行!”。尽管9499美元的 Mac Studio 可能超出了“消费级硬件”的定义，但 在本地运行如此庞大的模型 与通常需要数据中心级 AI 基础设施的最新 AI 形成了鲜明对比。

Mac Studio 在推理过程中的功耗不到200瓦，而传统的 AI 基础设施通常依赖于消耗数千瓦功率的多个 Nvidia GPU。

风格转变，更重技术

早期用户报告称，新模型的沟通风格发生了明显的变化。之前的 DeepSeek 模型因其对话式的、类似人类的语调而受到赞扬，而 “V3-0324” 则呈现出 更正式、更注重技术的风格。

一些用户在 Reddit 上表达了这种变化，认为新版本听起来“不那么像人类”，失去了以前版本“像人类一样的语调”。这种转变可能反映了 DeepSeek 工程师的有意识设计选择，旨在将模型重新定位为更专业的和技术性的应用。

DeepSeek 的发布策略体现了中国和西方公司在 AI 商业理念上的根本差异。美国领导者如 OpenAI 和 Anthropic 将其模型置于付费墙之后，而中国 AI 公司则越来越倾向于采用宽松的开源许可。

这种开放性正在迅速改变中国的 AI 生态系统，使得初创公司、研究人员和开发者能够在先进的 AI 技术基础上进行创新，而无需大量的资本支出。包括百度、阿里巴巴和腾讯在内的中国科技巨头也纷纷推出或计划推出开源 AI 模型。在获取尖端 Nvidia 芯片受限的情况下，中国公司更加重视效率和优化，这反而成为了一种潜在的竞争优势。

DeepSeek-V3-0324的发布也被认为是其下一代推理模型 DeepSeek-R2的基础。

考虑到 Nvidia 首席执行官黄仁勋最近指出 DeepSeek 的 R1模型“比非推理 AI 消耗多100倍的计算量”，DeepSeek 在资源受限的情况下实现如此性能令人瞩目。

如果 DeepSeek-R2遵循 R1的发展轨迹，它可能会对 OpenAI 传闻即将发布的 GPT-5构成直接挑战。DeepSeek 这种开放、资源高效的战略与 OpenAI 封闭、资金雄厚的战略代表了人工智能未来的两种竞争愿景.

目前，用户可以通过 Hugging Face 下载完整的模型权重，也可以通过 OpenRouter 等平台体验 DeepSeek-V3-0324的 API 接口。DeepSeek 自己的聊天界面也可能已更新至新版本。DeepSeek 的开放战略正在重新定义全球 AI 格局，预示着一个更开放、更普及的 AI 创新时代的到来。

项目：https://top.aibase.com/tool/deepseek-v3-0324

自有歪果仁为DeepSeek「辩经」：揭穿围绕DeepSeek的谣言

围绕 DeepSeek 的谣言实在太多了。面对 DeepSeek R1 这个似乎「一夜之间」出现的先进大模型，全世界已经陷入了没日没夜的大讨论。从它的模型能力是否真的先进，到是不是真的只用了 550W 进行训练，再到神秘的研究团队，每个角度都是话题。

2/5/2025 2:37:00 PM

机器之心

爆肝48小时！学会这8招，让DeepSeek变得超好用！

更多相关介绍：. 重磅好文！ 8个章节带你全方位了解DeepSeek这两天，DeepSeek-R1 火的飞起，在中日美三个 Appstore 榜上登顶。

2/8/2025 12:04:55 AM

解决师Blue

程序员购买OGOpenAI.com域名转向DeepSeek

最近，一名软件工程师以 “不到一顿 Chipotle 餐的价格” 购买了 OGOpenAI.com 域名，并将其重定向至中国人工智能实验室 DeepSeek 的网站。该实验室在开源 AI 领域崭露头角，吸引了广泛的关注。据软件工程师阿纳奈・阿罗拉（Ananay Arora）向《TechCrunch》透露，他的初衷是为了支持 DeepSeek，因为该实验室最近推出了一款名为 DeepSeek-R1的开放版本模型，声称在某些基准测试中表现优于 OpenAI 的 o1。

1/23/2025 4:32:00 PM

AI在线

资讯热榜

Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 OpenAI 发布“智能体构建实战指南”实用性文档（附文档资源） ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片从浏览到交互：DroidRun凭借自我修复机制，打造智能手机自动化标杆 OpenAI发布34页智能体实践指南：从网络搜索到代码编写别再只玩ChatGPT了！OpenAI悄悄发布《构建 Agent 实战指南》手把手教你打造智能体

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达人形机器人 Transformer 百度 AI视频苹果深度学习模态字节跳动 xAI 驾驶文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成视觉科技亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型

顶部

王炸！DeepSeek-V3-0324悄然发布 ，免费商用，消费级电脑也能跑！

相关资讯

自有歪果仁为DeepSeek「辩经」：揭穿围绕DeepSeek的谣言

爆肝48小时！学会这8招，让DeepSeek变得超好用！

程序员购买OGOpenAI.com域名转向DeepSeek

王炸！DeepSeek-V3-0324悄然发布，免费商用，消费级电脑也能跑！