大模型

多模态模型结构与训练总结

01、模型结构一般的多模态模型架构包含5个部分，分别是：模态编码器、输入映射器、大模型骨干、输出映射器以及模态生成器。模态编码器（Modality Encoder, ME）将多种模态输入编码成特征表示，公式如下X表示模态，表示各种预训练好的编码器。目前模态主要分为：视觉模态、语音模态、3D点云模态，其中视觉模态主要包括图像和视频，对于视频，视频通常被均匀采样成5帧图像，然后进行与图像相同的预处理。

4/7/2025 12:00:00 AM

Goldma

仅需10万不到，DeepSeek R1 671B大模型本地部署实战指南

最近帮一个朋友部署本地的671b版本的deepseek r1，需求是要完全本地部署，但是又不想花太高的成本，没有并发要求，我一想，用ktransformers框架来部署完全合适。关于机器配置，在挑挑拣拣评比之后，设备选择如下，最终选择的是其中的服务器配置。这套设备下来总成本不到10万，相比如动辄几百万的满血版deepseek R1或者花个五六十万买个deepseek 70b的一体机要值当的多，且不说70b并不是真正的deepseek r1，效果还不如32b的QWQ，就光说一体机的升级也是个麻烦事，买了机器基本就和模型绑定了，以后新模型出来后想升级就难了。

4/3/2025 3:57:48 PM

贝塔街的万事屋

机器学习|从0开发大模型之复现DeepSeek的aha moment

前面一篇文章介绍了《从0开发大模型之DeepSeek的GRPO》，并且实现了一个简单版本的 GRPO 代码，不过从工程领域来看，并没有复现DeepSeek-R1，于是最近申请了48G的显存，结合一些开源的方案复现aha monent，并给出完整的代码和工具链。 1、什么是 aha monent DeepSeek-R1 论文中提到，模型让作者「见证了强化学习的力量和美感」，在DeepSeek-R1-Zero的中间版本，「顿悟时刻」来了：模型学会了以人类的语气进行反思。 aha monent 2、使用什么的基座模型和训练数据由于显卡只有48G，可以用基座模型Qwen2.5，模型大小：0.5B，1.5B，3B训练数据有很多：（可以直接在huggingface上找到） a.AI-MO/NuminaMath-TIR：包括72K行的数学问题，解决方案和答案，是从 NuminaMath-CoT 数据集提炼出来的 b.

4/3/2025 3:46:53 PM

周末程序猿

机器学习|从0开发大模型之DeepSeek的GRPO

DeepSeek-R1的发布为国产大模型争光了（太强了），不过 GRPO 算法源自 DeepSeekMath 7B 模型，该模型在 MATH 基准测试中取得了优异成绩，论文发表于2024年2月份：，以下是该论文的摘要原文：复制翻译如下：复制对比数据1、什么是GRPOGRPO 是一种在线学习算法，核心思想是通过组内相对奖励来估计基线，从而避免使用额外的价值函数模型。通过在训练期间使用受训模型自身生成的数据来迭代改进，GRPO 旨在最大化生成补全的优势，同时确保模型保持接近参考策略，下图是论文中的算法流程图：GRPOGRPO 是 PPO (Proximal Policy Optimization，近端策略优化，是一种强化学习算法，由OpenAI于2017年提出，旨在解决策略梯度方法中的训练不稳定问题) 的变体，主要区别是：GRPO 省略 value function modelGRPO 奖励计算，改成了一个 q 生成多个 r，然后 reward 打分GRPO算法流程：采样一组输出并计算每个输出的奖励对组内奖励进行归一化处理使用归一化后的奖励计算优势函数通过最大化目标函数更新策略模型迭代训练，逐步优化策略模型论文中的伪代码2、奖励设计huggingface 库提供 GRPOTrainer 可以直接使用 GRPO 训练，参数包括定义奖励模型和函数。 2.1 奖励模型复制这里的 reward_funcs 参数可以传入奖励模型。

4/3/2025 3:40:41 PM

周末程序猿

Dify+大模型：重构企业基因的“数智引擎”——解锁AI工业化落地新范式

当AI开发进入“流水线时代”2025年，全球企业AI应用开发呈现“冰火两重天”：一边是OpenAI、DeepSeek等大模型参数突破百万亿级，另一边却是78%的企业困在“PPT智能”阶段——AI应用开发周期长、场景碎片化、数据孤岛难破。 Dify与大模型的结合，正在打破这一僵局。它不仅是工具，更是企业AI能力工业化的流水线，让大模型从“技术狂欢”走向“价值落地”。

4/3/2025 1:07:50 PM

推推君

为什么AI需要向量数据库？

大模型火遍全球，DeepSeek、OpenAI、谷歌、百度、抖音等科技巨头争相发布自家产品。多数人会想当然认为，大模型越大越强大，参数量越多就越聪明。现实呢？

4/3/2025 11:04:40 AM

大模型RL不止数学代码！7B奖励模型搞定医学法律经济全学科，不用思维链也能做题

一个7B奖励模型搞定全学科，大模型强化学习不止数学和代码。 o1/r1的强化学习很强，但主要探索了数学和代码领域，因为这两个领域的数据结构化程度高，奖励函数/奖励模型比较好设计。那么，想提升大模型在其他学科领域的能力该怎么办？

4/3/2025 9:23:08 AM

量子位

AI算法 | 训练数据的数量、质量及语言分布等因素对中文大模型性能的影响

已有LLM研究探索了训练数据对模型性能的影响，但这些研究大多集中在英文模型上，对于中文模型的研究相对较少。今天来看一篇来自贝壳的研究团队在2023年的一篇工作——《Towards Better Instruction Following Language Models for Chinese: Investigating the Impact of Training Data and Evaluation》。这篇工作的核心目标是提升中文指令跟随语言模型的性能。

4/3/2025 7:00:00 AM

Goldma

万卡集群真实部署，已节省数百万 GPU 小时！MoE 通信优化技术 COMET 开源

当前，MoE 架构是业界拓展模型规模的重要方向，然而，其在分布式训练中存在的大量通信开销，仍严重制约了训练效率和成本。为攻克这一瓶颈，豆包大模型团队提出了一个全新的通信优化系统 COMET，通过更精准、细粒度的计算-通信重叠技术，在大规模 MoE 模型上可达到单层 1.96 倍加速，端到端平均 1.71 倍效率提升，且在不同并行策略、输入规模及硬件环境下均表现稳定。目前，COMET 已实际应用于万卡级生产集群，助力 MoE 模型高效训练，并已累计节省了数百万 GPU 小时资源。

4/3/2025 12:00:00 AM

豆包大模型团队

超实用！Prompt程序员使用指南，大模型各角色代码实战案例

提示词（Prompt）是输入给大模型（LLM）的文本指令，用于明确地告诉大模型你想要解决的问题或完成的任务，也是大语言模型理解用户需求并生成准确答案的基础。因此 prompt 使用的好坏，直接决定了大模型生成结果的质量（是否符合预期）。图片Prompt 基本使用为了让大模型生成更符合预期的结果，我们在使用 Prompt 时，可以使用以下模版。

4/3/2025 12:00:00 AM

磊哥

人工智能应用就是大模型能力+场景，基于大模型构建应用，首先要了解大模型的能力圈

在关于大模型应用方面，虽然也了解和应用过其中的一些技术；但经过这段时间的实践和思考发现，对大模型应用的认识还很浅显，因此在此记录一下自己的思考。大模型应用的思考大模型作为人工智能应用的底座技术，所有应用场景和技术都是构建在大模型之上；但很多时候我们都搞错了一件事，那就是我们没有搞清楚大模型能力和其它技术的关联和区别。因此，在这里我们要搞清楚一个概念，那就是大模型能力；所谓大模型的能力，就是模型开发人员怎么把模型做的更好更强，其中设计到模型的设计，训练等；具体有神经网络架构，模型蒸馏等等。

4/2/2025 8:40:00 AM

DFires

大模型应用的能力分级

对大模型应用的能力分级就像给学生打分一样，能让我们更清楚它的本事有多大。能力分级能帮我们设定目标，知道AI现在能干什么，未来还要学什么。有了统一的分级方式，大家就能公平比较不同AI的水平，推动技术进步。

4/2/2025 1:25:00 AM

曹洪伟

关于大模型智能体意图识别不准确问题：function call 的缺陷

最近在研究大模型智能体也就是Agent的过程中，遇到了一个很严重的问题，直接影响到Agent的质量和效果；那就是意图识别不准确，也可以说是Agent的幻觉问题。其产生的原因就在于大模型有时无法准确识别出用户意图，无法准确调用相应的函数。意图识别不准确现在大模型技术在应用方面，主要有两大方向；其一就是大模型的创作能力，简单来说就是内容生成方面，如生成图片，文字，视频，也包括RAG等。

4/1/2025 12:10:00 PM

DFires

AI算法 | 如何训练自己的大模型？

1、第一阶段：二次预训练模型选择与转换在开始训练之前，需要选择一个合适的基础模型。本文以LLaMA-7B为例，简单介绍下。为了方便后续的操作，将LLaMA-7B模型转换为Hugging Face格式。

4/1/2025 9:54:09 AM

Goldma

阿里云与南京大学联合启动人工智能人才培养合作计划

南京大学与阿里云正式宣布启动一项人工智能人才培养合作计划，旨在共同培养适应未来技术变革、具备跨学科思维的 AI 创新人才。该合作充分利用了阿里云在云计算和人工智能领域的技术优势，以及南京大学在相关学科的深厚底蕴。根据协议，南京大学与阿里云将共同设计一系列前瞻性和应用性的人工智能通识课程，同时研发跨学科融合的大模型应用实践课程。

3/31/2025 2:51:00 PM

AI在线

面壁智能 CEO 李大海：汽车比手机更适合端侧模型落地

李大海指出，因为汽车这个场景，用户的手天然就会在方向盘上，用户更需要用语音去跟座舱交互，同时座舱也有更多的传感器能够去感知环境。相比之下，手机反而没有这样的条件，所以，汽车反而是端侧模型落地更好的产品。（新浪科技）

3/30/2025 4:14:33 PM

阿里通义千问 QwenQ-32B 上线中科院科研项目大规模接入

近日，阿里巴巴宣布其最新的开源大模型 —— 通义千问 QwenQ-32B，已在多个中科院科研项目中得到广泛应用。这一创新标志着人工智能在科研领域的进一步深入，尤其是在气候变化和水资源管理方面的潜力。中国科学院国家天文台、青藏高原研究所和南海海洋研究所等单位，均已开始利用 QwenQ-32B 进行科研项目。

3/27/2025 5:56:00 PM

AI在线

必看！SpringAI轻松构建MCP Client-Server架构

MCP 这个概念相信大家已经听了无数次了，但不同人会有不同的解释，你可能也是听得云里雾里的。不过没关系，今天这篇内容会通过 Spring AI 给你实现一个 MCP 的 Client 和 Server 架构，让你彻底搞懂 MCP 的概念，以及学会 MCP 的开发技能。什么是MCP？

3/27/2025 11:34:11 AM

磊哥

资讯热榜

企业级模型推理部署工具vllm使用指南 - 部署最新deepseek-v3-0324模型全能且实用！实战测评谷歌最新模型Gemini 2.5 Pro 大模型部署工具 Ollama 使用指南：技巧与问题解决全攻略基于 DeepSeek GRPO 的 1.5B Rust 代码生成模型训练实战 DeepSeek R1 vs OpenAI O3 vs Gemini 2 Pro—谁最适合做客服主管的AI 模态编码器|CLIP详细解读 50组多风格提示词，全面测评Midjourney V7生图效果！斯坦福2025 AI指数出炉！中美AI对决差距仅剩0.3%，DeepSeek领衔

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习 GPT 开源微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D AI设计 Anthropic 机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习模态苹果 AI视频驾驶文本搜索 xAI 人形机器人 Copilot 神器推荐 LLaMA 大语言模型具身智能字节跳动 Claude 算力安全应用视频生成科技视觉干货合集亚马逊 2024 AGI 特斯拉 DeepMind 架构

大模型

多模态模型结构与训练总结

仅需10万不到，DeepSeek R1 671B大模型本地部署实战指南

机器学习|从0开发大模型之复现DeepSeek的aha moment

机器学习|从0开发大模型之DeepSeek的GRPO

Dify+大模型：重构企业基因的“数智引擎”——解锁AI工业化落地新范式

为什么AI需要向量数据库？

大模型RL不止数学代码！7B奖励模型搞定医学法律经济全学科， 不用思维链也能做题

AI算法 | 训练数据的数量、质量及语言分布等因素对中文大模型性能的影响

万卡集群真实部署，已节省数百万 GPU 小时！MoE 通信优化技术 COMET 开源

超实用！Prompt程序员使用指南，大模型各角色代码实战案例

人工智能应用就是大模型能力+场景，基于大模型构建应用，首先要了解大模型的能力圈

大模型应用的能力分级

关于大模型智能体意图识别不准确问题：function call 的缺陷

AI算法 | 如何训练自己的大模型？

阿里云与南京大学联合启动人工智能人才培养合作计划

面壁智能 CEO 李大海：汽车比手机更适合端侧模型落地

阿里通义千问 QwenQ-32B 上线 中科院科研项目大规模接入

必看！SpringAI轻松构建MCP Client-Server架构

大模型RL不止数学代码！7B奖励模型搞定医学法律经济全学科，不用思维链也能做题

阿里通义千问 QwenQ-32B 上线中科院科研项目大规模接入