v3
更新版DeepSeek-V3官方报告出炉!模型参数685B!数学、代码性能击败GPT-4.5
出品 | 51CTO技术栈(微信号:blog51cto)刚刚,DeepSeek放出了更新模型的官方报告,并发推文:🚀 DeepSeek-V3-0324 现已推出! 🔹推理能力大幅提升🔹更强的前端开发技能🔹更智能的工具使用能力✅对于非复杂推理任务,我们建议使用 V3 — 只需关闭“DeepThink”🔌 API 使用保持不变📜模型现在根据 MIT 许可证发布,就像 DeepSeek-R1 一样! 报告细节已经可以在HF上进行查看:💫模型参数:685B✨更新版V3的几项改进:1.推理能力基准测试表现显著提升: 2.前端 Web 开发- 提高代码的可执行性 - 生成更美观的网页和游戏前端 3.中文写作能力 风格和内容质量提升 - 符合 R1 写作风格 - 中长篇写作质量更优 4.功能增强 - 多轮交互改写能力提升 - 翻译质量和书信写作优化 5.中文搜索能力- 报告分析请求的输出更加详细 6.函数调用改进- 函数调用准确率提升,修复了 V3 版本中的相关问题 在推文下,海外网友纷纷在评论区“催更”DeepSeek-R2!相信不久的将来,DeepSeek就会给我们想要的惊喜吧!
3/26/2025 7:14:33 AM
DeepSeek开源周第六天:极致推理优化系统,提高GPU计算效率
在人工智能(AI)技术快速发展的今天,DeepSeek 团队推出了其全新的 DeepSeek-V3/R1推理系统。 这一系统旨在通过更高的吞吐量和更低的延迟,推动 AGI(通用人工智能)的高效发展。 为了实现这一目标,DeepSeek 采用了跨节点专家并行(Expert Parallelism,EP)技术,显著提高了 GPU 的计算效率,并在降低延迟的同时,扩展了批处理规模。
3/3/2025 9:45:00 AM
AI在线
DeepSeek揭秘:AI推理系统背后的545%惊人利润率
DeepSeek在知乎开设官方账号,发布了《DeepSeek-V3/R1推理系统概览》技术文章,首次详细披露其模型推理系统的优化细节和成本利润率信息,标志着备受关注的"DeepSeek开源周"正式结束。 文章介绍了DeepSeek-V3/R1推理系统的两大优化目标:"更大的吞吐,更低的延迟"。 为实现这些目标,DeepSeek采用了大规模跨节点专家并行(EP)技术,尽管这增加了系统复杂性。
3/2/2025 10:26:00 AM
AI在线
DeepSeek+CodeWave实战,打通组织内落地DeepSeek的最后一公里
内容概要1、采购智能体应用效果演示2、DeepSeek大模型特征介绍3、DeepSeek和CodeWave如何产生化学反应4、0基础开发更智能采购管理系统智能体应用效果演示:开源 DeepSeek LLM 7B 和 67B 的 Base 和 Chat 模型2024年2月:开源 DeepSeek Coder 系列模型2024年2月:开源 DeepSeek Math 模型2024年3月:开源 DeepSeek-VL 系列模型2024年5月:开源 DeepSeek-V2 系列模型2024年7月:开源 DeepSeek-Coder-V2 系列模型2024年12月:开源 DeepSeek-V3 系列模型2025年1月:开源推理模型 DeepSeek-R1DeepSeek-V3和DeepSeek-R1差异图片技术特性差异:V3强调训练效率,能以较低GPU资源实现高性能;R1采用"强化学习优先"策略,先培养推理能力再优化语言流畅度核心能力及应用场景差异:V3通用型语言模型,擅长自然语言生成和多领域任务(如写作、多语言处理);R1专注于逻辑推理领域,强化数学解题、代码生成等复杂推理能力。 部署使用差异:API调用时,V3对应名称`deepseek-chat`,R1为`deepseek-reasoner`DeepSeek和CodeWave化学反应为什么需要整合DS到CodeWave主要有以下原因:打造个性化UI开发独立AI应用或已有应用智能化私域流量运营图片DeepSeek、Coze、CodeWave作用与关系CodeWave:通用应用开发平台,可以集成coze、dify、DeepSeek等开发通用AI应用,运行在私域上Coze、Dify:大语言应用开发平台,工作流编排,智能体应用开发,运行在公域上DeepSeek、豆包:大语言模型,是底层AI能力提供者 0基础教你开发更智能的采购管理系统准备工作注册CodeWave: Key:“采购管理系统”创建项目:图片在项目中引入DeepSeek连接器导入连接器:第一步,集成中心 - 导入连接器图片第二步,资产市场搜索DeepSeek连接器并导入:图片第三步,点击添加,在弹框中填入DeepSeek平台获得的API_Key:图片图片这样就导入完毕了!
2/20/2025 8:45:41 AM
前端杨村长
腾讯云上线DeepSeek全系API接口并打通联网搜索
腾讯云宣布完成对深度求索(DeepSeek)大模型的深度整合——正式上线DeepSeek-R1和V3原版模型的API接口,并创新性接入自研大模型知识引擎,同步开放联网搜索能力。 凭借腾讯云在推理并发和生成速率等方面的优化,用户可以获得更加稳定、安全、低门槛的使用体验。 开发者只需在云上简单三步即可实现API接口调用,并通过大模型知识引擎提供的文档解析、拆分、embedding、多轮改写等能力,灵活构建专属的AI服务。
2/8/2025 2:09:00 PM
AI在线
DeepSeek的V3,爆火了
编辑 | 言征出品 | 51CTO技术栈(微信号:blog51cto)上周四,12月26日那个晚上非常不平凡,一件大事注定要被AI界写进里程碑。 一夜之间,全球开源界最强模型不再是Llama了,而是中国开源界的新星DeepSeek最新研发的前言模型V3,甚至可以比肩世界顶尖的闭源模型。 根据DeeSeek披露的基准测试分数,简单来讲,八个字:开源最强,闭源比肩。
12/30/2024 8:32:36 PM
言征
OpenAI 升级 Whisper 语音转录 AI 模型,不牺牲质量速度快 8 倍
OpenAI 在 10 月 1 日举办的 DevDay 活动日中,宣布推出了 Whisper large-v3-turbo 语音转录模型,共有 8.09 亿参数,在质量几乎没有下降的情况下,速度比 large-v3 快 8 倍。Whisper large-v3-turbo 语音转录模型是 large-v3 的优化版本,并且只有 4 层解码器层(Decoder Layers),作为对比 large-v3 共有 32 层。Whisper large-v3-turbo 语音转录模型共有 8.09 亿参数,比 7.69 亿
10/3/2024 11:44:37 AM
故渊
- 1
资讯热榜
上海AI实验室开源InternVL3系列多模态大型语言模型
Haisnap横空出世,小白用户也能轻松打造AI应用
全日程揭晓!ICLR 2025论文分享会我们北京见
5分钟直出46页论文!谷歌Deep Research完爆OpenAI,最强Gemini 2.5加持
「交交」媲美GPT-4o!上海交大推出口语对话情感大模型,首个纯学术界自研!
kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking,多项基准超越 GPT-4o
ChatGPT重大更新,能翻出所有历史对话,网友被AI聊破防了
击败DeepSeek-R1!豆包新推理模型仅用前者参数量1/3!还将开源两个基准,瞄准通用推理能力!
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
DeepSeek
AI绘画
数据
机器人
谷歌
模型
大模型
Midjourney
智能
用户
学习
开源
GPT
微软
Meta
AI创作
图像
技术
论文
Stable Diffusion
马斯克
Gemini
算法
蛋白质
生成式
芯片
代码
英伟达
神经网络
腾讯
计算
研究
Sora
AI for Science
3D
AI设计
Anthropic
机器学习
GPU
开发者
场景
华为
预测
伟达
Transformer
百度
深度学习
苹果
模态
AI视频
驾驶
文本
人形机器人
xAI
搜索
大语言模型
Copilot
字节跳动
神器推荐
LLaMA
具身智能
Claude
算力
安全
应用
视频生成
科技
视觉
亚马逊
干货合集
2024
AGI
特斯拉
DeepMind
训练