测评

NeurIPS 2024 | 可信大模型新挑战：噪声思维链提示下的鲁棒推理，准确率直降40%
当前，大语言模型（Large Language Model, LLM）借助上下文学习（In-context Learning）和思维链提示（Chain of Thoughts Prompting），在许多复杂推理任务上展现出了强大的能力。然而，现有研究表明，LLM 在应对噪声输入时存在明显不足：当输入的问题包含无关内容，或者遭到轻微修改时，模型极容易受到干扰，进而偏离正确的推理方向。如图 1 …
理论
- 974
- 0
机器之心12月12日
集成500+多模态现实任务！全新MEGA-Bench评测套件：CoT对开源模型反而有害？
随着人工智能技术的进步，多模态大模型正逐渐应用于多个领域，极大地提升了机器在视觉、文本等多种信息模式下的理解和生成能力。这些模型不仅用于对话、图片标注、视频分析等较常见的任务，还被广泛应用在复杂场景中，如程序编写、医疗影像诊断、自动驾驶、虚拟助手中的多模态交互，甚至用于游戏策略分析与操作应用程序。然而，全面、系统地评测多模态大模型的能力需要投入大量的资源。
理论
- 970
- 0
新智元11月15日
通义千问开源Qwen2-Math，成为最先进的数学专项模型
8月9日消息，阿里通义团队开源新一代数学模型Qwen2-Math，包含1.5B、7B、72B三个参数的基础模型和指令微调模型。Qwen2-Math基于通义千问开源大语言模型Qwen2研发，旗舰模型 Qwen2-Math-72B-Instruct在权威测评集MATH上的得分超越GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro、Llama-3.1-405B等，以84%的准…
应用
- 7
- 0
新闻助手8月9日
中文多模态大模型 SuperCLUE-V 基准 8 月榜单发布，腾讯混元居首
感谢据腾讯科技今日报道，中文多模态大模型 SuperCLUE-V 基准 8 月榜单发布，腾讯混元大模型位居国内大模型首位（71.95 分）。腾讯科技方面宣称，该模型准确识别图像元素并生成自然语言描述，全方位理解并洞察细节。此次测评覆盖了 12 个国内外高代表性的多模态理解大模型，腾讯混元模型在多模态基础能力和应用能力中获得 71.95 的分数。AI在线查询得知，8 月榜单中涵盖国内外最具代表性的 …
应用
- 14
- 0
清源8月5日
SuperCLUE 中文大模型基准测评2024上半年报告
SuperCLUE 发布了《中文大模型基准测评2024上半年报告》，在AI大模型发展的巨大浪潮中，通过多维度综合性测评，对国内外大模型发展现状进行观察与思考。
AI榜单
- 3
- 0
admin7月10日
最新华文大模型测评出炉，腾讯混元居卓越领导者象限
5月6日记者获悉，海内权势巨子的大模型评测机构SuperCLUE最新发布了《华文大模型基准测评2024年度4月陈说》。其中，腾讯混元大模型位列海内大模型第一梯队，在基础和场景运用上均处于领先位置，位于卓越领导者象限。SuperCLUE是海内权势巨子的通用大模型综合性测评基准，其前身是知名的第三方华文语言理解测评基准CLUE（The Chinese Language Understanding E…
应用
- 5
- 0
新闻助手5月6日
最新华文大模型测评：百川智能 Baichuan 3 国际第一
感谢IT之家从百川大模型官方公众号获悉，今日国际大模型评测机构 SuperCLUE 发布了《华文大模型基准测评 2024 年度 4 月陈述》，陈述选取国际外具有代表性的 32 个大模型 4 月份的版本，通过多维度综合性测评，对国际外大模型发展现状进行观察与思考。陈述显示，百川智能的 Baichuan 3 在国际大模型中排名第一，智谱 GLM-4、通义千问 2.1、文心一言 4.0、Moonshot…
AI
- 49
- 0
远洋4月30日
为通用人工智能提速，蚂蚁图较量争论连续四次突破权势巨子测评世界纪录
近日，国内联系关系数据基准委员会（Linked Data Benchmark Council，以下简称LDBC）发布了图数据基准测评“LDBC SNB-BI”最新结果。由蚂蚁集团自研的流式图较量争论引擎TuGraph Analytics在30TB领域的数据集上成功完成了基准尝试，数据领域和性能突破了此前美国某图数据库厂商的公开纪录，关键指标中的并发吞吐量提高至2.84倍，盘问才能提高至1.86倍。…
应用
- 10
- 0
新闻助手23年12月12日