架构

CVPR满分论文 | 英伟达开源双目深度估计大模型FoundationStereo

本文介绍了 FoundationStereo，一种用于立体深度估计的基础模型，旨在实现强大的零样本泛化能力。通过构建大规模（100 万立体图像对）合成训练数据集，结合自动自筛选流程去除模糊样本，并设计了网络架构组件（如侧调谐特征主干和远程上下文推理）来增强可扩展性和准确性。这些创新显著提升了模型在不同领域的鲁棒性和精度，为零样本立体深度估计设立了新标准。

4/7/2025 9:45:00 AM

机器之心

DeepSeek 悄然发布 DeepSeek-V3–0324：远超预期的重大升级

DeepSeek 近期悄然发布的 DeepSeek-V3–0324，在 AI 社区和行业内引发了广泛关注。这一版本是 DeepSeek V3 （DeepSeek-V3 深度剖析：下一代 AI 模型的全面解读）模型的重要升级，其带来的一系列技术革新和性能提升远超众人预期，为开发者和企业带来了新的机遇与可能。一、DeepSeek-V3–0324 的技术突破（一）Multi-head Latent Attention（MLA）和增强的 DeepSeekMoE 架构DeepSeek-V3–0324 引入了 Multi-head Latent Attention（MLA）和增强版的 DeepSeekMoE 架构，这些创新技术为模型性能的提升奠定了坚实基础。

3/28/2025 4:30:00 AM

大模型之路

爆火Block Diffusion引发LLM架构变革？自回归+扩散模型完美结合

扩散模型被广泛应用于生成图像和视频，并且在生成离散数据（如文本或生物序列）任务上的效果也越来越好，与自回归模型相比，扩散模型有望加速「生成过程」并提高模型输出的「可控性」。然而，离散扩散模型目前仍然有三个局限性：在聊天系统等应用中，模型需要生成任意长度的输出序列（例如，对用户问题的回答），但大多数现有的扩散架构只能生成固定长度的向量；离散扩散在生成过程中使用双向上下文，因此无法利用键值缓存（KV caching）复用之前的计算，使得推理效率较低。从困惑度等标准指标来看，离散扩散模型的质量仍落后于自回归方法，也进一步限制了其应用范围。

3/25/2025 9:04:12 AM

新智元

DeepSeek 开源 V3/R1 架构设计思路，原来 545% 的利润率，它也只是被逼无奈？

开源周的最后一天，DeepSeek分享了DeepSeek-V3/R1的架构设计思路，让大家能够更系统更全面的了解其推理系统的设计过程，以及更深刻的理解之前开源的6个项目。 DeepSeek-V3/R1推理系统的核心目标是什么？通过软件架构的优化，达到：更高的吞吐量；更低的延时；为什么DeepSeek要走这一条路？

3/20/2025 9:00:00 AM

架构师之路

65岁陈立武点爆英特尔三把火！裁员砍中层，AI制造，争夺世界代工厂王座

随着华人大佬执掌英特尔之后，一场大刀阔斧的改革呼之欲出。路透独家报道称，新任CEO陈立武计划全面改革「制造和AI」业务，试图带领英特尔重回时代巅峰。在上周的全员大会上，他直言不讳地告诉全员工，「公司需要做出艰难的决定」。

3/18/2025 1:11:15 PM

新智元

DeepSeek 3FS 架构分析和思考（上篇）

2025 年 2 月28 日，DeepSeek 在其开源周最后一天压轴发布了自研的并行文件系统 Fire-Flyer File System，简称 3FS。该系统支撑了 DeepSeek V3&R1 模型训练、推理的全流程，在数据预处理、数据集加载、CheckPoint、KVCache 等场景发挥了重要作用。项目一经发布，就获得了存储领域的广泛关注。

3/13/2025 1:51:46 PM

火山引擎存储团队

Phi-4-multimodal：图、文、音频统一的多模态大模型架构、训练方法、数据细节

Phi-4-Multimodal 是一种参数高效的多模态模型，通过 LoRA 适配器和模式特定路由器实现文本、视觉和语音/音频的无缝集成。训练过程包括多阶段优化，确保在不同模式和任务上的性能，数据来源多样，覆盖高质量合成数据。它的设计体现了小型语言模型在多模态任务上的潜力。

3/10/2025 2:00:00 AM

余俊晖

DeepSeek的MLA架构：大模型迁移的新突破

在人工智能领域，DeepSeek-R1的推出引发了广泛关注，这一创新代表了 AI 产业的颠覆性进展。其多头潜在注意力网络（Multi-head Latent Attention，MLA）架构，借助低秩压缩技术显著降低了训练与推理的成本，甚至仅为同等性能大模型的十分之一。这一成果由复旦大学 NLP 实验室的博士后纪焘及其团队共同完成，目标是让任意预训练的大语言模型能够快速迁移到 MLA 架构，而无需重新从头开始训练。

3/7/2025 10:52:00 AM

AI在线

LLM 大语言模型定义以及关键技术术语认知

大语言模型定义LLM（Large Language Models）是基于 Transformer 架构(可以理解为不同寻常的大脑)的深度神经网络，通过海量文本数据训练获得语言理解和生成能力。其核心特征包括：参数规模达数十亿级别（GPT-3 175B参数）知识储备惊人，可以理解为脑细胞数量是普通人的千亿倍（1750亿参数），相当于把整个图书馆的书都装进大脑自回归生成机制（逐词预测）说话方式像接龙,当它写作文时，就像我们玩词语接龙：先写"今天"，然后根据"今天"想"天气"，接着根据"今天天气"想"晴朗"，逐字逐句生成内容。注意力机制实现长程依赖建模特别会抓重点就像我们读小说时，会自动记住关键人物关系（比如注意到"陈平安喜欢宁姚"），它能自动捕捉文字间的深层联系。

3/4/2025 1:00:00 AM

山河已无恙

DeepSeek-R1秘籍轻松迁移，最低只需原始数据0.3%

DeepSeek-R1背后关键——多头潜在注意力机制（MLA），现在也能轻松移植到其他模型了！而且只需原始数据的0.3%~0.6%。这项研究由复旦大学、华东师范大学、上海AI Lab等联合提出，复旦教授邱锡鹏（Moss大模型项目负责人）也在作者名单之列。

2/25/2025 10:03:20 AM

量子位

“源神”DeepSeek！突破H800性能上限，FlashMLA重磅开源，算力成本还能降

DeepSeek开源周第一天，降本大法公开——FlashMLA，直接突破H800计算上限。网友：这怎么可能？？

2/24/2025 11:31:33 AM

解决 NLP 任务的 Transformer 为什么可以应用于计算机视觉？

几乎所有的自然语言处理任务，从语言建模和masked词预测到翻译和问答，在2017年Transformer架构首次亮相后都经历了革命性的变化。 Transformer在计算机视觉任务中也表现出色，只用了2-3年的时间。在这篇文章中，我们探索了两种基础架构，它们使Transformer能够闯入计算机视觉的世界。

2/24/2025 8:20:00 AM

二旺

使用共享神经网络扩展机器学习模型

译者 | 崔皓审校 | 重楼随着机器学习模型的复杂性和规模不断增长，任何企业或者组织在部署、扩展模型上都面临着巨大的挑战。迫在眉睫的挑战是如何在内存限制与模型规模之间取得平衡，并保持高性能和成本效益。本文探讨了一种创新的架构解决方案，通过将共享神经编码器与专门的预测头结合的混合方法来应对这些挑战。

2/24/2025 8:00:00 AM

崔皓

「开源类脑芯片」二代发布！支持反向传播突触学习规则和并行神经元计算

神经形态计算的研究主要基于脉冲神经网络（SNN）模型，这是一种生物启发的计算范式，旨在模拟大脑的信息处理机制。具体而言，该领域的目标是通过融合神经生物学和计算神经科学的理论知识，构建能够实现类人智能的计算系统。为了解决传统计算架构在处理大量数据时面临的效率瓶颈和高功耗问题，研究者们提出了基于人脑神经元结构的神经形态芯片，以显著提升计算效率和能效比。

2/20/2025 1:48:24 PM

新智元

一文读懂DeepSeek-V3 技术报告

2023年7月17日，DeepSeek正式成立，由幻方量化提供资金支持。梁文锋凭借其在金融和AI领域的深厚背景，带领团队开始探索生成式AI技术。同年11月2日，DeepSeek推出首款开源模型DeepSeek Coder，支持多种编程语言的代码生成、调试和数据分析任务，为AI领域的应用奠定了基础，直到 2024 年 12 月，DeepSeek-V3的发布引发了行业震动和社会广泛关注，在他们的最新技术报告《DeepSeek-V3技术报告》中，团队详细介绍了其最新成果——DeepSeek-V3模型。

2/12/2025 8:30:18 AM

FlerkenS

AI 赋能！Spring Boot 封装智能模块，轻松实现自动化

在当今数字化时代，人工智能（AI）正以前所未有的速度深入各个行业，成为提升企业竞争力和优化用户体验的重要驱动力。无论是智能客服、自动文本生成，还是数据分析和预测，AI 的应用场景正变得越来越广泛。对于开发者而言，如何高效地将 AI 技术集成到业务系统中，是一个至关重要的问题。

2/8/2025 8:16:16 AM

路条编程

EvalPlanner：基于“计划-执行”双阶段的大语言模型评估框架

大语言模型(LLM)评估系统在生成思维链(Chain-of-Thought, CoT)序列时，需要系统地捕捉评估过程中的推理步骤。但是由于缺乏人工标注的CoT训练数据，以及预定义评估提示在复杂任务中的局限性，构建高质量的LLM评估模型面临重大挑战。另外手动调整评估指令的方法在面对多样化和复杂任务时表现出明显的局限性。

2/7/2025 4:07:39 PM

SACHIN KUMAR

CVPR 2024 Spotlight | 解锁图像编辑新境界, 北大、腾讯提出DiffEditor，让精细编辑更简单！

本文经AIGC Studio公众号授权转载，转载请联系出处。在图像生成领域，大型文本到图像（T2I）扩散模型近年来取得了革命性的突破。然而，将这些强大的生成能力转化为精细的图像编辑任务，仍面临诸多挑战。

1/21/2025 10:45:00 AM

AIGC Studio

资讯热榜

企业级模型推理部署工具vllm使用指南 - 部署最新deepseek-v3-0324模型上海AI实验室开源InternVL3系列多模态大型语言模型全能且实用！实战测评谷歌最新模型Gemini 2.5 Pro 大模型部署工具 Ollama 使用指南：技巧与问题解决全攻略 50组多风格提示词，全面测评Midjourney V7生图效果！ Deepseek 突破 AI 训练烧钱魔咒：1.2 万美元 1/525 成本 MT-Bench 跑分媲美 GPT-4o 斯坦福2025 AI指数出炉！中美AI对决差距仅剩0.3%，DeepSeek领衔 5分钟直出46页论文！谷歌Deep Research完爆OpenAI，最强Gemini 2.5加持

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D AI设计 Anthropic 机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习模态苹果 AI视频驾驶文本搜索 xAI 人形机器人 Copilot 大语言模型神器推荐 LLaMA 字节跳动具身智能 Claude 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 架构