北京大学
北大团队提出全新框架LIFT 将长上下文知识注入模型参数
北京大学张牧涵团队提出了一种全新的框架——Long Input Fine-Tuning (LIFT),通过将长输入文本训练进模型参数中,使任意短上下文窗口模型获得长文本处理能力。 这一方法颠覆了传统的长文本处理思路,不再专注于无限扩充上下文窗口,而是将长文本知识内化到模型参数中,类似于人类将工作记忆转化为长期记忆的过程。 目前大模型处理长文本面临两大主要挑战:传统注意力机制的平方复杂度导致处理长文本时计算和内存开销巨大 模型难以理解散落在长文本各处的长程依赖关系现有的解决方案如RAG和长上下文适配各有局限:RAG依赖准确的检索,容易引入噪声导致幻觉 长上下文适配的推理复杂度高,上下文窗口仍然有限LIFT的技术创新LIFT框架包含三个关键组件:动态高效的长输入训练通过分段的语言建模将长文本切分为有重叠的片段 避免因过长上下文造成的推理复杂度提升和长程依赖丢失 训练复杂度对长文本长度呈线性增长 平衡模型能力的门控记忆适配器设计专门的Gated Memory Adapter架构 动态平衡原始模型的In-Context Learning能力和对长输入的记忆理解 允许模型根据查询自动调节使用多少LIFT记忆的内容辅助任务训练通过预训练LLM基于长文本自动生成问答类辅助任务 补偿模型在切段训练中可能损失的能力 帮助模型学会应用长文本中的信息回答问题实验结果LIFT在多个长上下文基准测试上取得显著提升:LooGLE长依赖问答:Llama38B的正确率从15.44%提升至29.97% LooGLE短依赖问答:Gemma29B的正确率从37.37%提升至50.33% LongBench多项子任务:Llama3通过LIFT在5个子任务中的4个有明显提升消融实验表明,Gated Memory架构相比使用PiSSA微调的原模型,在LooGLE ShortQA数据集上的GPT-4score提升了5.48%。
3/17/2025 3:59:00 PM
AI在线
北京大学联合华为发布全栈开源 DeepSeek 推理方案
据介绍,该方案基于北大自研 SCOW 算力平台系统、鹤思调度系统,并整合 DeepSeek、openEuler、MindSpore 与 vLLM / RAY 等社区开源组件,实现华为昇腾上的 DeepSeek 高效推理,并支持大规模算力集群训推一体化部署。所有开发者均可获取源码并根据需求二次开发,性能接近闭源方案。
3/10/2025 7:19:34 AM
归泷(实习)
字节跳动与北京大学成立豆包大模型联合实验室
联合实验室的科研将基于字节跳动豆包大模型展开。来自高校和企业的科研人员将在实验室内,重点围绕大模型的训练、推理等开展科研工作。
12/13/2024 12:59:55 PM
汪淼
量化617,462种人类微蛋白必需性,北大LLM蛋白质综合预测与分析,登Nature子刊
编辑 | 萝卜皮人类必需蛋白(HEP)对于个体的生存和发育必不可少。 然而,鉴定 HEP 的实验方法通常成本高昂、耗时费力。 此外,现有的计算方法仅在细胞系水平上预测 HEP,但 HEP 在活体人类、细胞系和动物模型中有所不同。
12/9/2024 11:55:00 AM
ScienceAI
字节&北大Nature子刊新成果:自旋本征态的高效精确求解
编辑 | ScienceAI近些年来 AI for Science 在众多领域取得重大成功。 其中,基于神经网络的量子变分蒙特卡洛方法 (NNVMC) 在量子化学领域展现出强大潜力,备受关注。 最近字节跳动研究部门 ByteDance Research 和北京大学团队在 NNVMC 框架中融入物理对称性,实现了量子激发态的高效精确求解。
12/6/2024 2:50:00 PM
ScienceAI
Nature子刊,北大陈语谦团队提出多模态单细胞数据整合和插补的深度学习方法
编辑 | ScienceAI今天为大家介绍的是来自北京大学信息工程学院、化学生物学与生物技术学院省部共建肿瘤化学基因组学国家重点实验室、鹏城国家实验室合聘研究员和 AI4S 平台中心主任陈语谦教授团队发表在《Nature Communications》的论文。该团队开发了一种新型的多模态整合方法,能够实现多模态单细胞数据的整合与插补,这一成果可以促进多模态单细胞数据的分析。文章链接:。
10/21/2024 3:00:00 PM
ScienceAI
我想给她完整的一生:“全球首个通用智能人”北大小女孩“通通”亮相
9 月 1 日,中央广播电视总台大型公益节目 2024 年《开学第一课》播出,北京大学智能学院、人工智能研究院院长、计算机视觉专家、人工智能专家朱松纯教授携全球首个通用智能人 —— 小女孩(Little Girl)“通通”亮相节目现场。据北京大学介绍,这位名叫“通通”的小女孩拥有三四岁的心智,是一个有“心”的人工智能。她所做的事情不受人为控制,而是由自己“心”里的价值所驱动。在随机的场景中,“通通”会自主地捡起地上的玩具放进收纳盒中,拿起抹布擦去地上的污渍,搬起板凳清洗抹布。通过一系列的行为可以发现,“干净”是她的
9/13/2024 10:47:13 AM
汪淼
改变LoRA的初始化方式,北大新方法PiSSA显著提升微调效果
随着大模型的参数量日益增长,微调整个模型的开销逐渐变得难以接受。为此,北京大学的研究团队提出了一种名为 PiSSA 的参数高效微调方法,在主流数据集上都超过了目前广泛使用的 LoRA 的微调效果。论文: PiSSA: Principal Singular Values and Singular Vectors Adaptation of Large Language Models论文链接: : 1 所示,PiSSA (图 1c) 在模型架构上和 LoRA [1] 完全一致 (图 1b),只是初始化 Adapter
4/12/2024 7:40:00 PM
机器之心
让大模型自主探索开放世界,北大&智源提出训练框架LLaMA-Rider
大语言模型因其强大而通用的语言生成、理解能力,展现出了成为通用智能体的潜力。与此同时,在开放式的环境中探索、学习则是通用智能体的重要能力之一。因此,大语言模型如何适配开放世界是一个重要的研究问题。北京大学和北京智源人工智能研究院的团队针对这个问题提出了 LLaMA-Rider,该方法赋予了大模型在开放世界中探索任务、收集数据、学习策略的能力,助力智能体在《我的世界》(Minecraft)中自主探索获取知识并学习解决各种任务,提升智能体自主能力和通用性。
11/7/2023 2:41:00 PM
机器之心
- 1
资讯热榜
企业级模型推理部署工具vllm使用指南 - 部署最新deepseek-v3-0324模型
上海AI实验室开源InternVL3系列多模态大型语言模型
50组多风格提示词,全面测评Midjourney V7生图效果!
全日程揭晓!ICLR 2025论文分享会我们北京见
斯坦福2025 AI指数出炉!中美AI对决差距仅剩0.3%,DeepSeek领衔
5分钟直出46页论文!谷歌Deep Research完爆OpenAI,最强Gemini 2.5加持
击败DeepSeek-R1!豆包新推理模型仅用前者参数量1/3!还将开源两个基准,瞄准通用推理能力!
ChatGPT重大更新,能翻出所有历史对话,网友被AI聊破防了
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
DeepSeek
AI绘画
数据
机器人
谷歌
模型
大模型
Midjourney
智能
用户
学习
开源
GPT
微软
Meta
AI创作
图像
技术
论文
Stable Diffusion
马斯克
Gemini
算法
蛋白质
生成式
芯片
代码
英伟达
神经网络
腾讯
计算
研究
Sora
AI for Science
3D
AI设计
Anthropic
机器学习
GPU
开发者
场景
华为
预测
伟达
Transformer
百度
深度学习
苹果
模态
AI视频
驾驶
文本
xAI
搜索
人形机器人
大语言模型
Copilot
神器推荐
LLaMA
字节跳动
具身智能
Claude
算力
安全
应用
视频生成
科技
视觉
亚马逊
干货合集
2024
AGI
特斯拉
DeepMind
训练