NeurIPS 2024 | 可信大模型新挑战:噪声思维链提示下的鲁棒推理,准确率直降40%
当前,大语言模型(Large Language Model, LLM)借助上下文学习(In-context Learning)和思维链提示(Chain of Thoughts Prompting),在许多复杂推理任务上展现出了强大的能力。 然而,现有研究表明,LLM 在应对噪声输入时存在明显不足:当输入的问题包含无关内容,或者遭到轻微修改时,模型极容易受到干扰,进而偏离正确的推理方向。 如图 1 …- 974
- 0
集成500+多模态现实任务!全新MEGA-Bench评测套件:CoT对开源模型反而有害?
随着人工智能技术的进步,多模态大模型正逐渐应用于多个领域,极大地提升了机器在视觉、文本等多种信息模式下的理解和生成能力。 这些模型不仅用于对话、图片标注、视频分析等较常见的任务,还被广泛应用在复杂场景中,如程序编写、医疗影像诊断、自动驾驶、虚拟助手中的多模态交互,甚至用于游戏策略分析与操作应用程序。 然而,全面、系统地评测多模态大模型的能力需要投入大量的资源。- 970
- 0
通义千问开源Qwen2-Math,成为最先进的数学专项模型
8月9日消息,阿里通义团队开源新一代数学模型Qwen2-Math,包含1.5B、7B、72B三个参数的基础模型和指令微调模型。Qwen2-Math基于通义千问开源大语言模型Qwen2研发,旗舰模型 Qwen2-Math-72B-Instruct在权威测评集MATH上的得分超越GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro、Llama-3.1-405B等,以84%的准…- 7
- 0
中文多模态大模型 SuperCLUE-V 基准 8 月榜单发布,腾讯混元居首
感谢据腾讯科技今日报道,中文多模态大模型 SuperCLUE-V 基准 8 月榜单发布,腾讯混元大模型位居国内大模型首位(71.95 分)。腾讯科技方面宣称,该模型准确识别图像元素并生成自然语言描述,全方位理解并洞察细节。此次测评覆盖了 12 个国内外高代表性的多模态理解大模型,腾讯混元模型在多模态基础能力和应用能力中获得 71.95 的分数。AI在线查询得知,8 月榜单中涵盖国内外最具代表性的 …- 14
- 0
SuperCLUE 中文大模型基准测评2024上半年报告
SuperCLUE 发布了《中文大模型基准测评2024上半年报告》,在AI大模型发展的巨大浪潮中,通过多维度综合性测评,对国内外大模型发展现状进行观察与思考。- 3
- 0
最新华文大模型测评出炉,腾讯混元居卓越领导者象限
5月6日 记者获悉,海内权势巨子的大模型评测机构SuperCLUE最新发布了《华文大模型基准测评2024年度4月陈说》。其中,腾讯混元大模型位列海内大模型第一梯队,在基础和场景运用上均处于领先位置,位于卓越领导者象限。SuperCLUE是海内权势巨子的通用大模型综合性测评基准,其前身是知名的第三方华文语言理解测评基准CLUE(The Chinese Language Understanding E…- 5
- 0
最新华文大模型测评:百川智能 Baichuan 3 国际第一
感谢IT之家从百川大模型官方公众号获悉,今日国际大模型评测机构 SuperCLUE 发布了《华文大模型基准测评 2024 年度 4 月陈述》,陈述选取国际外具有代表性的 32 个大模型 4 月份的版本,通过多维度综合性测评,对国际外大模型发展现状进行观察与思考。陈述显示,百川智能的 Baichuan 3 在国际大模型中排名第一,智谱 GLM-4、通义千问 2.1、文心一言 4.0、Moonshot…- 49
- 0
为通用人工智能提速,蚂蚁图较量争论连续四次突破权势巨子测评世界纪录
近日,国内联系关系数据基准委员会(Linked Data Benchmark Council,以下简称LDBC)发布了图数据基准测评“LDBC SNB-BI”最新结果。由蚂蚁集团自研的流式图较量争论引擎TuGraph Analytics在30TB领域的数据集上成功完成了基准尝试,数据领域和性能突破了此前美国某图数据库厂商的公开纪录,关键指标中的并发吞吐量提高至2.84倍,盘问才能提高至1.86倍。…- 10
- 0
测评
❯
个人中心
今日签到
搜索
扫码打开当前页
返回顶部
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
- ¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!