架构

CVPR 2024 Spotlight | 解锁图像编辑新境界, 北大、腾讯提出DiffEditor,让精细编辑更简单!

本文经AIGC Studio公众号授权转载,转载请联系出处。 在图像生成领域,大型文本到图像(T2I)扩散模型近年来取得了革命性的突破。 然而,将这些强大的生成能力转化为精细的图像编辑任务,仍面临诸多挑战。

MiniMax开源4M超长上下文新模型!性能比肩DeepSeek-v3、GPT-4o

开源模型上下文窗口卷到超长,达400万token! 刚刚,“大模型六小强”之一MiniMax开源最新模型——MiniMax-01系列,包含两个模型:基础语言模型MiniMax-Text-01、视觉多模态模型MiniMax-VL-01。 MiniMax-01首次大规模扩展了新型Lightning Attention架构,替代了传统Transformer架构,使模型能够高效处理4M token上下文。

OpenAI Agent来了!大小事务自动帮你搞定,带推送提醒的那种,今日可开玩

开年第一剑,OpenAI Agent闪亮登场! ChatGPT新功能「Tasks」,让AI有了执行力,可以替你完成各种任务。 无论是一次性提醒还是重复执行的动作,告诉ChatGPT你需要什么以及何时需要,它会自动帮你处理。

谷歌新架构终结Transformer,长序列处理王者诞生?清华姚班校友新作

Transformer后继者终于现身! 2017年,Attention Is All You Need首次引入注意力机制,成为现代LLM诞生标志。 虽然Transformer依然大行其道,但其架构的缺陷却饱受诟病,尤其是无法扩展更长上下文。

一文带你入门 MCP(模型上下文协议)

什么是 MCP? MCP(Model Context Protocol,模型上下文协议) 是由 Anthropic 推出的一种开放标准,旨在统一大型语言模型(LLM)与外部数据源和工具之间的通信协议。 MCP 的主要目的在于解决当前 AI 模型因数据孤岛限制而无法充分发挥潜力的难题,MCP 使得 AI 应用能够安全地访问和操作本地及远程数据,为 AI 应用提供了连接万物的接口。

vLLM架构到底是个啥?一文全面认知视觉大语言模型~

毕业一年了,一直在从事大模型推理相关的工作。 工作中最常拿来比较的LLM推理框架就是vLLM,最近抽出时间详细的研究了一下vLLM的架构,希望能对vLLM有一个更详细和全面的认识。 架构总览vLLM python 工程目录如图标出的文件是vLLM python侧的工程目录中核心的组件,按照层次间的依赖关系,可以大致拆解为如下结构:LLM 类为顶层用户应用, LLM 类控制 LLM Engine类 负责总管推理全流程,LLM Engine中包含 Scheduler 类和 Worker类。

线性化注意力综述:突破Softmax二次复杂度瓶颈的高效计算方案

大型语言模型在各个领域都展现出了卓越的性能,但其核心组件之一——softmax注意力机制在计算资源消耗方面存在显著局限性。 本文将深入探讨如何通过替代方案实现线性时间复杂度,从而突破这一计算瓶颈。 注意力机制基础理论本文假设读者已经熟悉ChatGPT、Claude等模型及其底层的transformer架构原理。

万字独家爆光,首揭o1 pro架构!惊人反转,Claude 3.5 Opus没失败?

大模型Scaling Law终结,前段时间曾被吵得沸沸扬扬。 面对诸多的质疑,硅谷巨头们用行动给出了截然不同的答案。 谷歌祭出最强下一代新模型Gemini 2.0 Flash,并带着多个智能体一同亮相;OpenAI「满血版」o1和o1 pro mode向所有人证明了模型的能力还远没有触及到天花板。

一文读懂 GPU 资源动态调度

Hello folks,我是 Luga,今天我们来聊一下人工智能应用场景 - 构建高效、灵活的计算架构的 GPU 资源动态调度。 众所周知,随着人工智能、深度学习以及高性能计算(HPC)的快速发展,GPU (Graphics Processing . Unit)已经成为现代计算体系中的核心计算资源之一。

1-bit大模型还能再突破!新一代BitNet架构启用4位激活值

量化到1 bit的LLM还能再突破? 这次,他们对激活值下手了! 近日,BitNet系列的原班人马推出了新一代架构:BitNet a4.8,为1 bit大模型启用了4位激活值:图片论文地址:,激活值量化通常是比较难办的。

Hymba:结合注意力头和SSM头的创新型语言模型方案

近年来,大语言模型(LLM)在各个领域取得了显著成效。 但现有的Transformer架构存在计算复杂度高、内存消耗大等问题。 而状态空间模型(SSM)如Mamba虽然具有常数复杂度和优化的硬件性能,但在记忆回溯任务上表现较弱。

重磅开源!Kimi把自家底层推理架构都开源了,开源贡献阵容相当豪华:清华、阿里、华为、AISoft、面壁智能

就在昨天,Kimi宣布要把自家底层的大模型推理架构Mooncake开源出来! 有媒体称该架构正是承载了月之暗面Kimi线上80%以上流量的正在用的底层架构。 小编立马求证了一番,的确Github上有提到:Mooncake 正在服务Kimi平台。

一夜小模型王座易主!英伟达发布超强小模型,新混合架构威力超Transformer,性能、速率、缓存全面超越Llama3.2!

编辑 |言征小模型王座一夜易主了! 冷不防,英伟达就丢出了一个新混合架构,以后不再只是Transformer的天下了。 日前,NVIDIA刚刚发布了Hymba-1.5B-Base,这是一个将Transformer注意力机制与状态空间模型(SSM)集成的小型语言模型。

Transformer为什么一定要添加一个Positional Encoding模块?

之前老喜欢死记硬背transformer的网络架构,虽然内容并不复杂,但是发现这个transformer模块中的positional encoding在死记硬背的情况之下很容易被忽略。 为了更好地理解为什么transformer一定需要有一个positional encoding,简单推了一下公式先说结论:没有Positional Encoding的transformer架构具有置换等变性。 证明如下:1.

架构赋能 AI:知识工程推动下的软件架构数字化

TL;DR:我们试验了将 AI 应用到基于 Protobuf 的微服务架构中,基于 ArchGuard 治理平台、Shire AI 助手、Team AI 三个工具中,构建了一套完整的 AI4SE 原型,在需求、设计、开发、测试和运维等阶段,这里是我们的思考和实践。 过去几个月里,我们在各大技术大会上频繁看到生成式 AI 的应用,很多研发组织都在尝试将其引入开发的各个环节。 然而,随着 AI 技术的深入应用,不少组织也发现了基础知识工程方面的种种挑战。

英伟达新 nGPT 架构撬动 AI 未来:超球面学习提效,训练模型时间可缩短至 1/20

科技媒体 dataconomy 昨日(10 月 21 日)发布博文,报道称英伟达在训练 AI 模型方面取得重大突破,发布了最新的 Normalized Transformer(nGPT)新架构,保持模型的稳定性和准确性的前提下,可以将训练 AI 时间缩短至 1/4 或者 1/20。nGPT 架构提升效率的秘诀在于“超球面学习”(Hyperspherical learning)这个概念。传统的变换器模型通常缺乏一致的几何框架,而 nGPT 通过将嵌入、注意力矩阵和隐藏状态等关键组件映射到超球面表面,确保模型各层在训练过程中保持平衡。

AI 架构 Transformer 再进化:谷歌新方法突破长文本处理,注意力模块内存需求可降至 1/47

科技媒体 marktechpost 昨日(10 月 8 日)发布博文,报道称谷歌公司推出了选择性注意力(Selective Attention)方法,可以提高 Transformer 架构模型的性能。Transformer 架构简介Transformer 是一种革命性的神经网络架构,由谷歌在 2017 年提出,主要用于处理序列数据,特别是在自然语言处理(NLP)领域。Transformer 的核心是自注意力机制,允许模型在处理输入序列时捕捉词与词之间的关系,让模型能够关注输入序列中的所有部分,而不仅仅是局部信息。T

30 秒让照片动起来,首个国产纯自研视频大模型 Vidu 上线

感谢首个国产纯自研视频大模型 Vidu 上线,目前向用户开放了文生视频、图生视频两大核心功能,提供 4 秒和 8 秒两种时长选择,分辨率最高为 1080P。用户无需申请,使用邮箱注册即可体验。 AI在线附 Vidu 官网:www.vidu.studioVidu 模型于今年 4 月在 2024 中关村论坛首次亮相,由清华大学与生数科技联合发布,其核心技术 U-ViT 架构由团队在 2022 年 9 月提出,早于 Sora 采用的 DiT 架构,是全球首个 Diffusion 与 Transformer 融合的架构。▲