旗舰基础模型

国产推理大模型决战2025考研数学，看看谁第一个上岸？

随着上个月 2025 研究生考试的结束，最新的考研数学真题成为大语言模型尤其是推理模型的「试炼场」，将考验它们的深度思考能力。业内曾有着这样一种共识：大语言模型在文字水平上的表现令人印象深刻，但说到数学就不甚令人满意了。去年一度火出圈的「9.9 与 9.11」比大小的问题，包括 GPT-4o 在内的很多大模型都翻车了，直到深度推理模型出现后才从根本上改善了这一状况。