再加一把火、造福全人类,Hugging Face 号召打造完全开源版 DeepSeek R1 大模型

Hugging Face 称这项工作非常重要,因为 DeepSeek R1 非常高效,可以作为创新的基础模型。它也可以被研究人员、科学家和企业用作促进创新和突破的负担得起的模型。

自从 DeepSeek 发布了与 OpenAI o1 竞争的开源推理模型 R1 以来,已经过去了大约一周,引发全球关注。

现在,AI 大模型社区 Hugging Face 宣布了 Open-R1 项目,计划填补 DeepSeek R1 未开源的部分组件,为这个全球热潮“再加一把火”。

再加一把火、造福全人类,Hugging Face 号召打造完全开源版 DeepSeek R1 大模型

根据 Hugging Face 的说法,虽然 DeepSeek 使用的权重是已知的,但用于训练模型的数据集和代码是未知的。通过 Open-R1,Hugging Face 希望填补这些空白

Hugging Face 称这项工作非常重要,因为 DeepSeek R1 非常高效,可以作为创新的基础模型。它也可以被研究人员、科学家和企业用作促进创新和突破的负担得起的模型。

Hugging Face 表示,它计划建立的合成数据集将不仅关注数学,还将探索其他领域,为科学等其他领域提供帮助。

AI在线附 Open-R1 项目地址如下:

https://github.com/huggingface/open-r1

相关资讯

DeepSeek R1 Preview 模型亮相,代码能力与 OpenAI o1 相当且确认开源

还未正式发布,已在代码基准测试 LiveCodeBench 霸榜前三,表现与 OpenAI o1 的中档推理设置相当。

DeepSeek-R1 成 Hugging Face 最受欢迎大模型,力压近 150 万个“对手”

Clement Delangue今日凌晨发文宣布:DeepSeek-R1在Hugging Face上获得了超过10000个赞,成为该平台近150万个模型之中最受欢迎的大模型,“太令人震惊了!”

阿里云 Qwen2.5-1M 开源发布:100万上下文长度模型登场

继 DeepSeek R1之后,阿里云通义千问团队刚刚宣布推出其最新的开源模型 Qwen2.5-1M,再次引发业界关注。 此次发布的 Qwen2.5-1M 系列包含两个开源模型:Qwen2.5-7B-Instruct-1M 和 Qwen2.5-14B-Instruct-1M。 这是通义千问首次推出能够原生支持百万Token上下文长度的模型,并在推理速度上实现了显著提升。