在 WWDC24 之前,苹果在 Hugging Face 平台上颁布了一个“具有开源训练和推理框架的高效谈话模型”,名为 OpenELM。
当然,这是一项开源谈话模型,其源码及预训练的模型权重和训练配方可在苹果 Github 库中获取。
IT之家将官方简介翻译如下:
大型谈话模型的可重复性和透明性对于推进封闭研讨、确保结果的可信度以及调查数据和模型偏差以及潜在风险至关重要。为此,我们颁布了 OpenELM,一个最先进的开源谈话模型。
OpenELM 使用分层缩放策略,可以有效地分配 Transformer 模型每一层的参数,从而提高准确率。例如,在参数量约为 10 亿的情况下,OpenELM 与 OLMo 相比准确率提升了 2.36%,同时所需的预训练 tokens 数量仅有原来的 50%。
与以往只提供模型权重和推理代码并在私有数据集上进行预训练的做法不同,我们颁布的版本包含了在公开数据集上训练和评估谈话模型的完整框架,包括训练日志、多个检查点和预训练配置。
我们还颁布了将模型转换为 MLX 库的代码,以便在苹果设备上进行推理和微调。此次全面颁布旨在增强和巩固封闭研讨社区,为未来的封闭研讨工作铺平道路。
参考资料:
《[2404.14619] OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework》