AI在线 AI在线

LLM360

3710亿数学tokens,全面开放!史上最大高质量开源数学预训练数据集MegaMath发布

在大模型迈向推理时代的当下,数学推理能力已成为衡量语言模型智能上限的关键指标。 近日,LLM360 推出了 MegaMath:全球目前最大的开源数学推理预训练数据集,共计 3710 亿(371B)tokens,覆盖网页、代码和高质量合成数据三大领域。 报告标题:MegaMath: Pushing the Limits of Open Math Corpora技术报告:: 代码: DeepSeek-Math Corpus(120B)的开源数据集,更代表从「只靠网页」到「面向推理」的重大跨越。
4/13/2025 3:05:00 PM
机器之心

全方位、无死角的开源,邢波团队LLM360让大模型实现真正的透明

我们需要更全面和深入地共享。开源模型正展现着它们蓬勃的生命力,不仅数量激增,性能更是愈发优秀。图灵奖获得者 Yann LeCun 也发出了这样的感叹:「开源人工智能模型正走在超越专有模型的路上。」专有模型在技术性能和创新能力上展现了非凡的力量,但是它们不开源的性质成为 LLM 发展的阻碍。一些开源模型虽然为从业者和研究者提供了多样化的选择,但大多数只公开了最终的模型权重或推理代码,越来越多的技术报告将其范围限制在顶层设计和表面统计之内。这种闭源的策略不仅限制了开源模型的发展,而且还在很大程度上阻碍了整个 LLM 研
12/13/2023 1:32:00 PM
机器之心
  • 1