架构

MiniMax开源4M超长上下文新模型！性能比肩DeepSeek-v3、GPT-4o

开源模型上下文窗口卷到超长，达400万token！刚刚，“大模型六小强”之一MiniMax开源最新模型——MiniMax-01系列，包含两个模型：基础语言模型MiniMax-Text-01、视觉多模态模型MiniMax-VL-01。 MiniMax-01首次大规模扩展了新型Lightning Attention架构，替代了传统Transformer架构，使模型能够高效处理4M token上下文。

1/15/2025 12:27:11 PM

量子位

OpenAI Agent来了！大小事务自动帮你搞定，带推送提醒的那种，今日可开玩

开年第一剑，OpenAI Agent闪亮登场！ ChatGPT新功能「Tasks」，让AI有了执行力，可以替你完成各种任务。无论是一次性提醒还是重复执行的动作，告诉ChatGPT你需要什么以及何时需要，它会自动帮你处理。

1/15/2025 8:32:33 AM

谷歌新架构终结Transformer，长序列处理王者诞生？清华姚班校友新作

Transformer后继者终于现身！ 2017年，Attention Is All You Need首次引入注意力机制，成为现代LLM诞生标志。虽然Transformer依然大行其道，但其架构的缺陷却饱受诟病，尤其是无法扩展更长上下文。

1/14/2025 5:23:08 PM

新智元

一文带你入门 MCP（模型上下文协议）

什么是 MCP？ MCP（Model Context Protocol，模型上下文协议）是由 Anthropic 推出的一种开放标准，旨在统一大型语言模型（LLM）与外部数据源和工具之间的通信协议。 MCP 的主要目的在于解决当前 AI 模型因数据孤岛限制而无法充分发挥潜力的难题，MCP 使得 AI 应用能够安全地访问和操作本地及远程数据，为 AI 应用提供了连接万物的接口。

1/8/2025 11:10:46 AM

cr7258

毕业一年了，一直在从事大模型推理相关的工作。工作中最常拿来比较的LLM推理框架就是vLLM，最近抽出时间详细的研究了一下vLLM的架构，希望能对vLLM有一个更详细和全面的认识。架构总览vLLM python 工程目录如图标出的文件是vLLM python侧的工程目录中核心的组件，按照层次间的依赖关系，可以大致拆解为如下结构：LLM 类为顶层用户应用， LLM 类控制 LLM Engine类负责总管推理全流程，LLM Engine中包含 Scheduler 类和 Worker类。

1/6/2025 11:10:00 AM

CalebDu

线性化注意力综述：突破Softmax二次复杂度瓶颈的高效计算方案

大型语言模型在各个领域都展现出了卓越的性能，但其核心组件之一——softmax注意力机制在计算资源消耗方面存在显著局限性。本文将深入探讨如何通过替代方案实现线性时间复杂度，从而突破这一计算瓶颈。注意力机制基础理论本文假设读者已经熟悉ChatGPT、Claude等模型及其底层的transformer架构原理。

12/31/2024 3:34:00 PM

Shitanshu Bhushan

万字独家爆光，首揭o1 pro架构！惊人反转，Claude 3.5 Opus没失败？

大模型Scaling Law终结，前段时间曾被吵得沸沸扬扬。面对诸多的质疑，硅谷巨头们用行动给出了截然不同的答案。谷歌祭出最强下一代新模型Gemini 2.0 Flash，并带着多个智能体一同亮相；OpenAI「满血版」o1和o1 pro mode向所有人证明了模型的能力还远没有触及到天花板。

12/16/2024 9:00:00 AM

新智元

一文读懂 GPU 资源动态调度

Hello folks，我是 Luga，今天我们来聊一下人工智能应用场景 - 构建高效、灵活的计算架构的 GPU 资源动态调度。众所周知，随着人工智能、深度学习以及高性能计算(HPC)的快速发展，GPU (Graphics Processing . Unit)已经成为现代计算体系中的核心计算资源之一。

12/16/2024 7:41:35 AM

架构驿站

1-bit大模型还能再突破！新一代BitNet架构启用4位激活值

量化到1 bit的LLM还能再突破？这次，他们对激活值下手了！近日，BitNet系列的原班人马推出了新一代架构：BitNet a4.8，为1 bit大模型启用了4位激活值：图片论文地址：，激活值量化通常是比较难办的。

12/6/2024 7:17:07 AM

新智元

Hymba：结合注意力头和SSM头的创新型语言模型方案

近年来，大语言模型(LLM)在各个领域取得了显著成效。但现有的Transformer架构存在计算复杂度高、内存消耗大等问题。而状态空间模型(SSM)如Mamba虽然具有常数复杂度和优化的硬件性能，但在记忆回溯任务上表现较弱。

12/5/2024 4:19:14 PM

佚名

重磅开源！Kimi把自家底层推理架构都开源了，开源贡献阵容相当豪华：清华、阿里、华为、AISoft、面壁智能

就在昨天，Kimi宣布要把自家底层的大模型推理架构Mooncake开源出来！有媒体称该架构正是承载了月之暗面Kimi线上80%以上流量的正在用的底层架构。小编立马求证了一番，的确Github上有提到：Mooncake 正在服务Kimi平台。

11/29/2024 1:54:13 PM

一夜小模型王座易主！英伟达发布超强小模型，新混合架构威力超Transformer，性能、速率、缓存全面超越Llama3.2！

编辑｜言征小模型王座一夜易主了！冷不防，英伟达就丢出了一个新混合架构，以后不再只是Transformer的天下了。日前，NVIDIA刚刚发布了Hymba-1.5B-Base，这是一个将Transformer注意力机制与状态空间模型（SSM）集成的小型语言模型。

11/25/2024 8:54:41 AM

言征

Transformer为什么一定要添加一个Positional Encoding模块？

之前老喜欢死记硬背transformer的网络架构，虽然内容并不复杂，但是发现这个transformer模块中的positional encoding在死记硬背的情况之下很容易被忽略。为了更好地理解为什么transformer一定需要有一个positional encoding，简单推了一下公式先说结论：没有Positional Encoding的transformer架构具有置换等变性。证明如下：1.

11/20/2024 10:30:00 AM

Sirius

架构赋能 AI：知识工程推动下的软件架构数字化

TL;DR：我们试验了将 AI 应用到基于 Protobuf 的微服务架构中，基于 ArchGuard 治理平台、Shire AI 助手、Team AI 三个工具中，构建了一套完整的 AI4SE 原型，在需求、设计、开发、测试和运维等阶段，这里是我们的思考和实践。过去几个月里，我们在各大技术大会上频繁看到生成式 AI 的应用，很多研发组织都在尝试将其引入开发的各个环节。然而，随着 AI 技术的深入应用，不少组织也发现了基础知识工程方面的种种挑战。

11/4/2024 9:05:04 AM

Phodal

英伟达新 nGPT 架构撬动 AI 未来：超球面学习提效，训练模型时间可缩短至 1/20

科技媒体 dataconomy 昨日（10 月 21 日）发布博文，报道称英伟达在训练 AI 模型方面取得重大突破，发布了最新的 Normalized Transformer（nGPT）新架构，保持模型的稳定性和准确性的前提下，可以将训练 AI 时间缩短至 1/4 或者 1/20。nGPT 架构提升效率的秘诀在于“超球面学习”（Hyperspherical learning）这个概念。传统的变换器模型通常缺乏一致的几何框架，而 nGPT 通过将嵌入、注意力矩阵和隐藏状态等关键组件映射到超球面表面，确保模型各层在训练过程中保持平衡。

10/22/2024 9:46:42 AM

故渊

AI 架构 Transformer 再进化：谷歌新方法突破长文本处理，注意力模块内存需求可降至 1/47

科技媒体 marktechpost 昨日（10 月 8 日）发布博文，报道称谷歌公司推出了选择性注意力（Selective Attention）方法，可以提高 Transformer 架构模型的性能。Transformer 架构简介Transformer 是一种革命性的神经网络架构，由谷歌在 2017 年提出，主要用于处理序列数据，特别是在自然语言处理（NLP）领域。Transformer 的核心是自注意力机制，允许模型在处理输入序列时捕捉词与词之间的关系，让模型能够关注输入序列中的所有部分，而不仅仅是局部信息。T

10/9/2024 10:44:18 AM

故渊

30 秒让照片动起来，首个国产纯自研视频大模型 Vidu 上线

感谢首个国产纯自研视频大模型 Vidu 上线，目前向用户开放了文生视频、图生视频两大核心功能，提供 4 秒和 8 秒两种时长选择，分辨率最高为 1080P。用户无需申请，使用邮箱注册即可体验。 AI在线附 Vidu 官网：www.vidu.studioVidu 模型于今年 4 月在 2024 中关村论坛首次亮相，由清华大学与生数科技联合发布，其核心技术 U-ViT 架构由团队在 2022 年 9 月提出，早于 Sora 采用的 DiT 架构，是全球首个 Diffusion 与 Transformer 融合的架构。▲

8/1/2024 4:44:43 PM

沛霖（实习）

华为云 CEO 张平安：中国的 AI 应追求在行业领域构筑大模型的全球领先地位

感谢2024 世界人工智能大会今日在上海世博中心开幕，华为常务董事、华为云 CEO 张平安表示，中国的 AI 发展离不开算力基础设施的创新，并且要敢于开放行业场景，让 AI 在行业应用上领先。张平安提出，中国的 AI 发展道路，追求的应该是在行业领域构筑大模型的全球领先地位。如果各行各业都积极拥抱 AI，积极地开放行业的业务场景，中国很有机会在 2B 领域构筑起全球的领先优势。以钢铁行业为例，目前盘古大模型已经在宝钢的一条热轧生产线上线，预测钢板精度提高 5%，每年有望多生产 2 万吨钢板，增收 9000 多万元。

7/4/2024 4:55:21 PM