AI21 Labs发布Jamba 1.6,打破长文本处理极限、支持多种语言

AI21Labs 近日发布了其最新的 Jamba1.6系列大型语言模型,这款模型被称为当前市场上最强大、最高效的长文本处理模型。 与传统的 Transformer 模型相比,Jamba 模型在处理长上下文时展现出了更高的速度和质量,其推理速度比同类模型快了2.5倍,标志着一种新的技术突破。 Jamba1.6系列包括 Jamba Mini(12亿参数)和 Jamba Large(94亿参数),并且专门针对商业应用进行了优化,具备函数调用、结构化输出(如 JSON)和基于现实的生成能力。

AI21Labs 近日发布了其最新的 Jamba1.6系列大型语言模型,这款模型被称为当前市场上最强大、最高效的长文本处理模型。与传统的 Transformer 模型相比,Jamba 模型在处理长上下文时展现出了更高的速度和质量,其推理速度比同类模型快了2.5倍,标志着一种新的技术突破。

Jamba1.6系列包括 Jamba Mini(12亿参数)和 Jamba Large(94亿参数),并且专门针对商业应用进行了优化,具备函数调用、结构化输出(如 JSON)和基于现实的生成能力。这些模型的应用范围广泛,从企业级的智能助手到学术研究,均能发挥重要作用。

这款模型采用了名为 Jamba Open Model License 的开源许可协议,允许用户在遵循相关条款的前提下进行研究和商业使用。此外,Jamba1.6系列的知识截止日期为2024年3月5日,支持多种语言,包括英语、西班牙语、法语、葡萄牙语、意大利语、荷兰语、德语、阿拉伯语和希伯来语,确保其适应全球用户的需求。

在性能评测方面,Jamba Large1.6在多个基准测试中均表现优异。在 Arena Hard、CRAG 和 FinanceBench 等标准测试中,其分数均超过同类竞争对手,显示出其卓越的语言理解和生成能力。特别是在处理长文本方面,Jamba 模型的表现尤为突出。

为确保高效的推理,使用 Jamba 模型的用户需先安装相关的 Python 库,并且需要 CUDA 设备以支持模型的运行。用户可以通过 vLLM 或 transformers 框架来运行该模型。在大规模 GPU 的支持下,Jamba Large1.6可以处理长达256K 的上下文,这在之前的模型中是无法实现的。

模型:https://huggingface.co/ai21labs/AI21-Jamba-Large-1.6

划重点:

🌟 Jamba1.6模型在长文本处理上速度更快、质量更高,支持多种语言。  

🚀 开源许可协议允许研究和商业使用,促进技术共享。  

💡 在多项基准测试中表现优异,超越同类竞争产品。  

相关资讯

Meta首席AI科学家预测五年内将出现新的AI架构范式,开启 “机器人十年”

在日前的达沃斯 “技术辩论” 会上,Meta 的首席 AI 科学家 Yann LeCun 对未来五年的人工智能发展做出了激动人心的预测。 他认为,现有的人工智能系统将在未来3到5年内面临巨大的变革,将出现一种 “新的 AI 架构范式”,超越当今普遍使用的生成式 AI 和大型语言模型(LLM)的能力。 LeCun 指出,当前的 LLM 虽然在语言处理上表现良好,但在真正智能的行为上却存在显著局限性。

Sakana AI 的 Transformer² 模型突破 LLM 限制,实现动态推理

Sakana AI 是一家专注于自然启发算法的人工智能研究实验室,近日推出了一种名为 Transformer² (Transformer-squared) 的创新自适应语言模型。 该模型无需昂贵的微调,即可在推理过程中动态学习并适应新任务,这标志着大型语言模型 (LLM) 技术发展的重要一步。 Transformer² 的核心创新在于其独特的两步动态权重调整机制。

​字节跳动推出 PaSa:基于大语言模型的智能学术论文搜索代理

在学术研究领域,文献检索是一项复杂且重要的信息获取任务。 研究人员需要能够处理复杂的、专业知识领域的检索能力,以满足细致的研究需求。 然而,现有的学术搜索平台,如谷歌学术,往往难以应对这些复杂的研究查询。