NOLIMA
研究警告AI语言模型极限:超8K上下文性能腰斩,概念推理成难关
慕尼黑大学、慕尼黑机器学习中心与Adobe Research近日联合发布的研究显示,包括GPT-4o、Gemini1.5Pro和Llama-3.3-70B在内的12款顶尖AI语言模型,在长文本概念推理任务中面临显著性能衰减。 尽管这些模型均支持至少128,000个标记的上下文处理,但其深层逻辑关联能力仍存在根本性局限。 研究团队开发的NOLIMA(无文字匹配)基准测试系统,通过刻意规避关键词重复的设计,揭示AI模型在概念联结上的脆弱性。
2/13/2025 9:53:00 AM
AI在线
- 1
资讯热榜
浙大满血版 DeepSeek 上线免费使用:无惧系统繁忙,全国 829 所 CARSI 联盟高校开放共享
DeepSeek 系列模型详解之 DeepSeek Math
DeepSeek 等秒变操控电脑 AI 智能体,微软开源工具 OmniParser V2.0 发布
DeepSeek 团队新作:把代码变成思维链,大模型推理各种能力全面提升
清华大学开源项目突破大模型算力瓶颈:RTX 4090 单卡实现 DeepSeek-R1 满血运行
DeepSeek 推出 NSA 技术:加速长上下文训练与推理
阿里通义万相宣布即将开源视频生成模型WanX 2.1
刚刚,DeepSeek揭秘R1官方同款部署设置,温度=0.6!OpenAI推理指南同时上线
标签云
人工智能
AIGC
OpenAI
AI绘画
ChatGPT
数据
机器人
DeepSeek
谷歌
AI
Midjourney
智能
大模型
学习
GPT
用户
AI创作
微软
开源
图像
Meta
技术
论文
Stable Diffusion
算法
马斯克
生成式
模型
蛋白质
芯片
Gemini
计算
神经网络
代码
研究
AI设计
腾讯
Sora
3D
GPU
开发者
英伟达
场景
机器学习
伟达
预测
华为
模态
Transformer
AI for Science
文本
驾驶
深度学习
百度
AI视频
神器推荐
苹果
搜索
LLaMA
算力
干货合集
Anthropic
视频生成
科技
2024
Copilot
应用
安全
特斯拉
具身智能
AI应用场景
xAI
写作
机器
字节跳动
人形机器人
AGI
DeepMind
视觉
API