测评
17款大模型PK八款棋牌游戏,o3-mini胜出,DeepSeek R1输在中间步骤
AI社区掀起用大模型玩游戏之风! 例如国外知名博主让DeepSeek和Chatgpt下国际象棋的视频在Youtube上就获得百万播放,ARC Prize组织最近也发布了一个贪吃蛇LLM评测基准SnakeBench。 针对这一场景,来自港大、剑桥和北大的研究人员发布了一个更全面、客观可信的LLM评测基准:GameBoT。
3/31/2025 8:00:00 AM
量子位
DeepSeek-V3-0324 发布:更智能的编码体验,加速码农编码效率!
DeepSeek V3 迎来了全新版本的更新;消息一经发布,众多专业人士纷纷对其进行测评,结果令人惊叹不已。 尽管官方将此次升级定义为小版本更新,但在实际的编码能力测试中,其表现丝毫不逊色于大版本的 DeepSeek V4。 在此,我为大家提供一个专业的测评网址:。
3/28/2025 2:00:00 AM
探索跳跃式思维链:DeepSeek创造力垫底,Qwen系列接近人类顶尖水平
AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
2/28/2025 6:10:00 PM
机器之心
OpenAI首个智能体Operator大测评,你也能拥有24小时私人管家!
演唱会抢票终于不用自己蹲守了,公司订餐也可以直接「无脑托管」,这就是OpenAI今天发布的Operator。 顾名思义,Operator就是能帮你端到端处理任务的AI智能体。 比较有趣的是,OpenAI针对Operator新开了一个网页operator.chatgpt.com,而不是像之前发布的功能都直接统一内置在ChatGPT中。
1/24/2025 3:09:43 PM
新智元
揭秘大模型强推理能力幕后功臣“缺陷”,过程级奖励模型新基准来了
截止目前,o1 等强推理模型的出现证明了 PRMs(过程级奖励模型)的有效性。 (“幕后功臣” PRMs 负责评估推理过程中的每一步是否正确和有效,从而引导 LLMs 的学习方向。 )但关键问题来了:我们如何准确评估 PRMs 本身的性能?
1/16/2025 8:40:00 AM
量子位
NeurIPS 2024 | 可信大模型新挑战:噪声思维链提示下的鲁棒推理,准确率直降40%
当前,大语言模型(Large Language Model, LLM)借助上下文学习(In-context Learning)和思维链提示(Chain of Thoughts Prompting),在许多复杂推理任务上展现出了强大的能力。 然而,现有研究表明,LLM 在应对噪声输入时存在明显不足:当输入的问题包含无关内容,或者遭到轻微修改时,模型极容易受到干扰,进而偏离正确的推理方向。 如图 1 左所示,Q1 中的「We know 6 6=12 and 3 7=10 in base 10」 是关于 base-9 计算的噪声信息,该信息容易误导模型输出错误的结果。
12/12/2024 5:30:00 PM
机器之心
集成500+多模态现实任务!全新MEGA-Bench评测套件:CoT对开源模型反而有害?
随着人工智能技术的进步,多模态大模型正逐渐应用于多个领域,极大地提升了机器在视觉、文本等多种信息模式下的理解和生成能力。 这些模型不仅用于对话、图片标注、视频分析等较常见的任务,还被广泛应用在复杂场景中,如程序编写、医疗影像诊断、自动驾驶、虚拟助手中的多模态交互,甚至用于游戏策略分析与操作应用程序。 然而,全面、系统地评测多模态大模型的能力需要投入大量的资源。
11/15/2024 3:38:00 PM
新智元
通义千问开源Qwen2-Math,成为最先进的数学专项模型
8月9日消息,阿里通义团队开源新一代数学模型Qwen2-Math,包含1.5B、7B、72B三个参数的基础模型和指令微调模型。Qwen2-Math基于通义千问开源大语言模型Qwen2研发,旗舰模型 Qwen2-Math-72B-Instruct在权威测评集MATH上的得分超越GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro、Llama-3.1-405B等,以84%的准确率处理了代数、几何、计数与概率、数论等多种数学问题,成为最先进的数学专项模型。注:在MATH基准测评中,通义千问数学模
8/9/2024 3:42:00 PM
新闻助手
中文多模态大模型 SuperCLUE-V 基准 8 月榜单发布,腾讯混元居首
感谢据腾讯科技今日报道,中文多模态大模型 SuperCLUE-V 基准 8 月榜单发布,腾讯混元大模型位居国内大模型首位(71.95 分)。腾讯科技方面宣称,该模型准确识别图像元素并生成自然语言描述,全方位理解并洞察细节。此次测评覆盖了 12 个国内外高代表性的多模态理解大模型,腾讯混元模型在多模态基础能力和应用能力中获得 71.95 的分数。AI在线查询得知,8 月榜单中涵盖国内外最具代表性的 12 个多模态理解大模型。腾讯混元大模型在总榜上位居第二,仅次于 GPT-4o。GPT-4o 取得 74.36 分,领跑
8/5/2024 8:19:22 AM
清源
SuperCLUE 中文大模型基准测评2024上半年报告
SuperCLUE 发布了《中文大模型基准测评2024上半年报告》,在AI大模型发展的巨大浪潮中,通过多维度综合性测评,对国内外大模型发展现状进行观察与思考。
7/10/2024 2:45:32 PM
最新中文大模型测评出炉,腾讯混元居卓越领导者象限
5月6日 记者获悉,国内权威的大模型评测机构SuperCLUE最新发布了《中文大模型基准测评2024年度4月报告》。其中,腾讯混元大模型位列国内大模型第一梯队,在基础和场景应用上均处于领先位置,位于卓越领导者象限。SuperCLUE是国内权威的通用大模型综合性测评基准,其前身是知名的第三方中文语言理解测评基准CLUE(The Chinese Language Understanding Evaluation)。SuperCLUE基于通用大模型在学术、产业与用户侧的广泛应用,构建了多层次、多维度的综合性测评基准,由十
5/6/2024 4:59:00 PM
新闻助手
最新中文大模型测评:百川智能 Baichuan 3 国内第一
感谢IT之家从百川大模型官方公众号获悉,今日国内大模型评测机构 SuperCLUE 发布了《中文大模型基准测评 2024 年度 4 月报告》,报告选取国内外具有代表性的 32 个大模型 4 月份的版本,通过多维度综合性测评,对国内外大模型发展现状进行观察与思考。报告显示,百川智能的 Baichuan 3 在国内大模型中排名第一,智谱 GLM-4、通义千问 2.1、文心一言 4.0、Moonshot (Kimi) 等大模型位列其后。从全球范围来看,国外同行的 GPT-4、Claude3 得分更胜一筹。SuperCLU
4/30/2024 7:43:20 PM
远洋
为通用人工智能提速,蚂蚁图计算连续四次打破权威测评世界纪录
近日,国际关联数据基准委员会(Linked Data Benchmark Council,以下简称LDBC)发布了图数据基准测评“LDBC SNB-BI”最新结果。由蚂蚁集团自研的流式图计算引擎TuGraph Analytics在30TB规模的数据集上成功完成了基准测试,数据规模和性能打破了此前美国某图数据库厂商的公开纪录,关键指标中的并发吞吐量提升至2.84倍,查询能力提升至1.86倍。 LDBC官方公布蚂蚁LDBC SNB-BI测评新纪录在本次测评中,测试产品需要快速导入和分析30TB 规模的数据,处理多达72
12/12/2023 10:47:00 AM
新闻助手
- 1
资讯热榜
上海AI实验室开源InternVL3系列多模态大型语言模型
Haisnap横空出世,小白用户也能轻松打造AI应用
「交交」媲美GPT-4o!上海交大推出口语对话情感大模型,首个纯学术界自研!
kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking,多项基准超越 GPT-4o
韩国初创公司 RLWRLD 获 1480 万美元融资,致力于机器人基础模型开发
击败DeepSeek-R1!豆包新推理模型仅用前者参数量1/3!还将开源两个基准,瞄准通用推理能力!
谷歌 Gemini AI 新功能 Circle Screen 曝光:圈选截屏特定区域,实现精准搜索
ChatGPT重大更新,能翻出所有历史对话,网友被AI聊破防了
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
DeepSeek
AI绘画
数据
机器人
谷歌
模型
大模型
Midjourney
智能
用户
学习
开源
GPT
微软
Meta
AI创作
图像
技术
论文
Stable Diffusion
马斯克
Gemini
算法
蛋白质
生成式
芯片
代码
英伟达
神经网络
腾讯
计算
研究
Sora
AI for Science
3D
Anthropic
AI设计
机器学习
GPU
开发者
场景
华为
预测
伟达
Transformer
百度
深度学习
苹果
AI视频
模态
人形机器人
驾驶
xAI
文本
搜索
字节跳动
大语言模型
Copilot
Claude
具身智能
神器推荐
LLaMA
算力
安全
应用
视频生成
科技
视觉
亚马逊
干货合集
2024
AGI
特斯拉
DeepMind
训练