AI21 Labs发布Jamba 1.6，打破长文本处理极限、支持多种语言

2025-03-09 11:06

AI21Labs 近日发布了其最新的 Jamba1.6系列大型语言模型，这款模型被称为当前市场上最强大、最高效的长文本处理模型。与传统的 Transformer 模型相比，Jamba 模型在处理长上下文时展现出了更高的速度和质量，其推理速度比同类模型快了2.5倍，标志着一种新的技术突破。 Jamba1.6系列包括 Jamba Mini（12亿参数）和 Jamba Large(94亿参数)，并且专门针对商业应用进行了优化，具备函数调用、结构化输出(如 JSON)和基于现实的生成能力。

AI21Labs 近日发布了其最新的 Jamba1.6系列大型语言模型，这款模型被称为当前市场上最强大、最高效的长文本处理模型。与传统的 Transformer 模型相比，Jamba 模型在处理长上下文时展现出了更高的速度和质量，其推理速度比同类模型快了2.5倍，标志着一种新的技术突破。

Jamba1.6系列包括 Jamba Mini（12亿参数）和 Jamba Large(94亿参数)，并且专门针对商业应用进行了优化，具备函数调用、结构化输出(如 JSON)和基于现实的生成能力。这些模型的应用范围广泛，从企业级的智能助手到学术研究，均能发挥重要作用。

这款模型采用了名为 Jamba Open Model License 的开源许可协议，允许用户在遵循相关条款的前提下进行研究和商业使用。此外，Jamba1.6系列的知识截止日期为2024年3月5日，支持多种语言，包括英语、西班牙语、法语、葡萄牙语、意大利语、荷兰语、德语、阿拉伯语和希伯来语，确保其适应全球用户的需求。

在性能评测方面，Jamba Large1.6在多个基准测试中均表现优异。在 Arena Hard、CRAG 和 FinanceBench 等标准测试中，其分数均超过同类竞争对手，显示出其卓越的语言理解和生成能力。特别是在处理长文本方面，Jamba 模型的表现尤为突出。

为确保高效的推理，使用 Jamba 模型的用户需先安装相关的 Python 库，并且需要 CUDA 设备以支持模型的运行。用户可以通过 vLLM 或 transformers 框架来运行该模型。在大规模 GPU 的支持下，Jamba Large1.6可以处理长达256K 的上下文，这在之前的模型中是无法实现的。

模型：https://huggingface.co/ai21labs/AI21-Jamba-Large-1.6

划重点:
🌟 Jamba1.6模型在长文本处理上速度更快、质量更高，支持多种语言。
🚀 开源许可协议允许研究和商业使用，促进技术共享。
💡 在多项基准测试中表现优异，超越同类竞争产品。

北大团队提出全新框架LIFT 将长上下文知识注入模型参数

北京大学张牧涵团队提出了一种全新的框架——Long Input Fine-Tuning （LIFT），通过将长输入文本训练进模型参数中，使任意短上下文窗口模型获得长文本处理能力。这一方法颠覆了传统的长文本处理思路，不再专注于无限扩充上下文窗口，而是将长文本知识内化到模型参数中，类似于人类将工作记忆转化为长期记忆的过程。目前大模型处理长文本面临两大主要挑战:传统注意力机制的平方复杂度导致处理长文本时计算和内存开销巨大模型难以理解散落在长文本各处的长程依赖关系现有的解决方案如RAG和长上下文适配各有局限:RAG依赖准确的检索，容易引入噪声导致幻觉长上下文适配的推理复杂度高，上下文窗口仍然有限LIFT的技术创新LIFT框架包含三个关键组件:动态高效的长输入训练通过分段的语言建模将长文本切分为有重叠的片段避免因过长上下文造成的推理复杂度提升和长程依赖丢失训练复杂度对长文本长度呈线性增长平衡模型能力的门控记忆适配器设计专门的Gated Memory Adapter架构动态平衡原始模型的In-Context Learning能力和对长输入的记忆理解允许模型根据查询自动调节使用多少LIFT记忆的内容辅助任务训练通过预训练LLM基于长文本自动生成问答类辅助任务补偿模型在切段训练中可能损失的能力帮助模型学会应用长文本中的信息回答问题实验结果LIFT在多个长上下文基准测试上取得显著提升:LooGLE长依赖问答:Llama38B的正确率从15.44%提升至29.97% LooGLE短依赖问答:Gemma29B的正确率从37.37%提升至50.33% LongBench多项子任务:Llama3通过LIFT在5个子任务中的4个有明显提升消融实验表明，Gated Memory架构相比使用PiSSA微调的原模型，在LooGLE ShortQA数据集上的GPT-4score提升了5.48%。

3/17/2025 3:59:00 PM

AI在线

Meta首席AI科学家预测五年内将出现新的AI架构范式，开启 “机器人十年”

在日前的达沃斯 “技术辩论” 会上，Meta 的首席 AI 科学家 Yann LeCun 对未来五年的人工智能发展做出了激动人心的预测。他认为，现有的人工智能系统将在未来3到5年内面临巨大的变革，将出现一种 “新的 AI 架构范式”，超越当今普遍使用的生成式 AI 和大型语言模型（LLM）的能力。 LeCun 指出，当前的 LLM 虽然在语言处理上表现良好，但在真正智能的行为上却存在显著局限性。

1/24/2025 9:43:00 AM

AI在线

Sakana AI 的 Transformer² 模型突破 LLM 限制，实现动态推理

Sakana AI 是一家专注于自然启发算法的人工智能研究实验室，近日推出了一种名为 Transformer² （Transformer-squared）的创新自适应语言模型。该模型无需昂贵的微调，即可在推理过程中动态学习并适应新任务，这标志着大型语言模型 (LLM) 技术发展的重要一步。 Transformer² 的核心创新在于其独特的两步动态权重调整机制。

1/24/2025 10:48:00 AM

AI在线

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ Haisnap横空出世，小白用户也能轻松打造AI应用 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 本地部署DeepSeek+DiFy平台构建智能体应用韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人驾驶 xAI 文本搜索字节跳动大语言模型 Copilot Claude 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

顶部

AI21 Labs发布Jamba 1.6，打破长文本处理极限、支持多种语言

相关资讯

北大团队提出全新框架LIFT 将长上下文知识注入模型参数

Meta首席AI科学家预测五年内将出现新的AI架构范式，开启 “机器人十年”

Sakana AI 的 Transformer² 模型突破 LLM 限制，实现动态推理