NOLIMA - AI在线

研究警告AI语言模型极限:超8K上下文性能腰斩，概念推理成难关

慕尼黑大学、慕尼黑机器学习中心与Adobe Research近日联合发布的研究显示，包括GPT-4o、Gemini1.5Pro和Llama-3.3-70B在内的12款顶尖AI语言模型，在长文本概念推理任务中面临显著性能衰减。尽管这些模型均支持至少128，000个标记的上下文处理，但其深层逻辑关联能力仍存在根本性局限。研究团队开发的NOLIMA（无文字匹配）基准测试系统，通过刻意规避关键词重复的设计，揭示AI模型在概念联结上的脆弱性。