北京大学

北大团队提出全新框架LIFT 将长上下文知识注入模型参数

北京大学张牧涵团队提出了一种全新的框架——Long Input Fine-Tuning （LIFT），通过将长输入文本训练进模型参数中，使任意短上下文窗口模型获得长文本处理能力。这一方法颠覆了传统的长文本处理思路，不再专注于无限扩充上下文窗口，而是将长文本知识内化到模型参数中，类似于人类将工作记忆转化为长期记忆的过程。目前大模型处理长文本面临两大主要挑战:传统注意力机制的平方复杂度导致处理长文本时计算和内存开销巨大模型难以理解散落在长文本各处的长程依赖关系现有的解决方案如RAG和长上下文适配各有局限:RAG依赖准确的检索，容易引入噪声导致幻觉长上下文适配的推理复杂度高，上下文窗口仍然有限LIFT的技术创新LIFT框架包含三个关键组件:动态高效的长输入训练通过分段的语言建模将长文本切分为有重叠的片段避免因过长上下文造成的推理复杂度提升和长程依赖丢失训练复杂度对长文本长度呈线性增长平衡模型能力的门控记忆适配器设计专门的Gated Memory Adapter架构动态平衡原始模型的In-Context Learning能力和对长输入的记忆理解允许模型根据查询自动调节使用多少LIFT记忆的内容辅助任务训练通过预训练LLM基于长文本自动生成问答类辅助任务补偿模型在切段训练中可能损失的能力帮助模型学会应用长文本中的信息回答问题实验结果LIFT在多个长上下文基准测试上取得显著提升:LooGLE长依赖问答:Llama38B的正确率从15.44%提升至29.97% LooGLE短依赖问答:Gemma29B的正确率从37.37%提升至50.33% LongBench多项子任务:Llama3通过LIFT在5个子任务中的4个有明显提升消融实验表明，Gated Memory架构相比使用PiSSA微调的原模型，在LooGLE ShortQA数据集上的GPT-4score提升了5.48%。

3/17/2025 3:59:00 PM

AI在线

北京大学联合华为发布全栈开源 DeepSeek 推理方案

据介绍，该方案基于北大自研 SCOW 算力平台系统、鹤思调度系统，并整合 DeepSeek、openEuler、MindSpore 与 vLLM / RAY 等社区开源组件，实现华为昇腾上的 DeepSeek 高效推理，并支持大规模算力集群训推一体化部署。所有开发者均可获取源码并根据需求二次开发，性能接近闭源方案。

3/10/2025 7:19:34 AM

归泷（实习）

字节跳动与北京大学成立豆包大模型联合实验室

联合实验室的科研将基于字节跳动豆包大模型展开。来自高校和企业的科研人员将在实验室内，重点围绕大模型的训练、推理等开展科研工作。

12/13/2024 12:59:55 PM

汪淼

量化617,462种人类微蛋白必需性，北大LLM蛋白质综合预测与分析，登Nature子刊

编辑 | 萝卜皮人类必需蛋白（HEP）对于个体的生存和发育必不可少。然而，鉴定 HEP 的实验方法通常成本高昂、耗时费力。此外，现有的计算方法仅在细胞系水平上预测 HEP，但 HEP 在活体人类、细胞系和动物模型中有所不同。

12/9/2024 11:55:00 AM

ScienceAI

字节&北大Nature子刊新成果：自旋本征态的高效精确求解

编辑 | ScienceAI近些年来 AI for Science 在众多领域取得重大成功。其中，基于神经网络的量子变分蒙特卡洛方法 (NNVMC) 在量子化学领域展现出强大潜力，备受关注。最近字节跳动研究部门 ByteDance Research 和北京大学团队在 NNVMC 框架中融入物理对称性，实现了量子激发态的高效精确求解。

12/6/2024 2:50:00 PM

ScienceAI

Nature子刊，北大陈语谦团队提出多模态单细胞数据整合和插补的深度学习方法

编辑 | ScienceAI今天为大家介绍的是来自北京大学信息工程学院、化学生物学与生物技术学院省部共建肿瘤化学基因组学国家重点实验室、鹏城国家实验室合聘研究员和 AI4S 平台中心主任陈语谦教授团队发表在《Nature Communications》的论文。该团队开发了一种新型的多模态整合方法，能够实现多模态单细胞数据的整合与插补，这一成果可以促进多模态单细胞数据的分析。文章链接：。

10/21/2024 3:00:00 PM

ScienceAI

我想给她完整的一生：“全球首个通用智能人”北大小女孩“通通”亮相

9 月 1 日，中央广播电视总台大型公益节目 2024 年《开学第一课》播出，北京大学智能学院、人工智能研究院院长、计算机视觉专家、人工智能专家朱松纯教授携全球首个通用智能人 —— 小女孩（Little Girl）“通通”亮相节目现场。据北京大学介绍，这位名叫“通通”的小女孩拥有三四岁的心智，是一个有“心”的人工智能。她所做的事情不受人为控制，而是由自己“心”里的价值所驱动。在随机的场景中，“通通”会自主地捡起地上的玩具放进收纳盒中，拿起抹布擦去地上的污渍，搬起板凳清洗抹布。通过一系列的行为可以发现，“干净”是她的

9/13/2024 10:47:13 AM

汪淼

改变LoRA的初始化方式，北大新方法PiSSA显著提升微调效果

随着大模型的参数量日益增长，微调整个模型的开销逐渐变得难以接受。为此，北京大学的研究团队提出了一种名为 PiSSA 的参数高效微调方法，在主流数据集上都超过了目前广泛使用的 LoRA 的微调效果。论文: PiSSA: Principal Singular Values and Singular Vectors Adaptation of Large Language Models论文链接: : 1 所示，PiSSA (图 1c) 在模型架构上和 LoRA [1] 完全一致 (图 1b)，只是初始化 Adapter

4/12/2024 7:40:00 PM

机器之心

让大模型自主探索开放世界，北大&智源提出训练框架LLaMA-Rider

大语言模型因其强大而通用的语言生成、理解能力，展现出了成为通用智能体的潜力。与此同时，在开放式的环境中探索、学习则是通用智能体的重要能力之一。因此，大语言模型如何适配开放世界是一个重要的研究问题。北京大学和北京智源人工智能研究院的团队针对这个问题提出了 LLaMA-Rider，该方法赋予了大模型在开放世界中探索任务、收集数据、学习策略的能力，助力智能体在《我的世界》（Minecraft）中自主探索获取知识并学习解决各种任务，提升智能体自主能力和通用性。

11/7/2023 2:41:00 PM

机器之心

资讯热榜

企业级模型推理部署工具vllm使用指南 - 部署最新deepseek-v3-0324模型上海AI实验室开源InternVL3系列多模态大型语言模型 50组多风格提示词，全面测评Midjourney V7生图效果！全日程揭晓！ICLR 2025论文分享会我们北京见斯坦福2025 AI指数出炉！中美AI对决差距仅剩0.3%，DeepSeek领衔 5分钟直出46页论文！谷歌Deep Research完爆OpenAI，最强Gemini 2.5加持击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！ ChatGPT重大更新，能翻出所有历史对话，网友被AI聊破防了

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D AI设计 Anthropic 机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习苹果模态 AI视频驾驶文本 xAI 搜索人形机器人大语言模型 Copilot 神器推荐 LLaMA 字节跳动具身智能 Claude 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练