苹果发布 OpenELM,基于开源训练和推理框架的高效语言模型

在 WWDC24 之前,苹果在 Hugging Face 平台上发布了一个“具有开源训练和推理框架的高效语言模型”,名为 OpenELM。当然,这是一项开源语言模型,其源码及预训练的模型权重和训练配方可在苹果 Github 库中获取。IT之家将官方简介翻译如下:大型语言模型的可重复性和透明性对于推进开放研究、确保结果的可信度以及调查数据和模型偏差以及潜在风险至关重要。为此,我们发布了 OpenELM,一个最先进的开源语言模型。OpenELM 使用分层缩放策略,可以有效地分配 Transformer 模型每一层的参数

在 WWDC24 之前,苹果在 Hugging Face 平台上发布了一个“具有开源训练和推理框架的高效语言模型”,名为 OpenELM。

苹果发布 OpenELM,基于开源训练和推理框架的高效语言模型

当然,这是一项开源语言模型,其源码及预训练的模型权重和训练配方可在苹果 Github 库中获取。

苹果发布 OpenELM,基于开源训练和推理框架的高效语言模型

IT之家将官方简介翻译如下:

大型语言模型的可重复性和透明性对于推进开放研究、确保结果的可信度以及调查数据和模型偏差以及潜在风险至关重要。为此,我们发布了 OpenELM,一个最先进的开源语言模型。

OpenELM 使用分层缩放策略,可以有效地分配 Transformer 模型每一层的参数,从而提高准确率。例如,在参数量约为 10 亿的情况下,OpenELM 与 OLMo 相比准确率提升了 2.36%,同时所需的预训练 tokens 数量仅有原来的 50%。

苹果发布 OpenELM,基于开源训练和推理框架的高效语言模型

与以往只提供模型权重和推理代码并在私有数据集上进行预训练的做法不同,我们发布的版本包含了在公开数据集上训练和评估语言模型的完整框架,包括训练日志、多个检查点和预训练配置。

我们还发布了将模型转换为 MLX 库的代码,以便在苹果设备上进行推理和微调。此次全面发布旨在增强和巩固开放研究社区,为未来的开放研究工作铺平道路。

参考资料:

《[2404.14619] OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework》

相关资讯

苹果卷开源大模型,公开代码、权重、数据集、训练全过程,OpenELM亮相

苹果发布基于开源训练和推理框架的高效语言模型族 OpenELM。要说 ChatGPT 拉开了大模型竞赛的序幕,那么 Meta 开源 Llama 系列模型则掀起了开源领域的热潮。在这当中,苹果似乎掀起的水花不是很大。不过,苹果最新放出的论文,我们看到其在开源领域做出的贡献。近日,苹果发布了 OpenELM,共四种变体(参数量分别为 270M、450M、1.1B 和 3B),这是一系列基于公开数据集进行预训练和微调的模型。OpenELM 的核心在于逐层缩放,即 OpenELM 中的每个 Transformer 层都有不

苹果OpenAI合作,力争今年生成式AI登陆iPhone

ChatGPT,Gemini,Claude 三种大模型持证竞聘。OpenAI,Google,Anthropic 齐聚 Apple 下一代操作系统,WWDC24 上,iOS 的这块蛋糕究竟花落谁家?苹果在各国市场的 AI 领域,一直在业内寻求可靠并值得信赖的合作伙伴,以助于将各类生成式 AI 技术应用于 iPhone。例如:在中国市场,据 WSJ 报道:苹果近日宣布,为国行版 iPhone 16 系列、即将发布的 IOS18 操作系统、及 MAC 系统提供先进的 AI 功能,将与中国领先的 AI 公司百度达成战略合作

增大模型依然有用,DeepMind用2800亿参数的Gopher,测试语言系统极限

DeepMind 连发三篇论文,全面阐述大规模语言模型依然在进展之中,能力也在继续增强。近年来,国内外各大 AI 巨头的大规模语言模型(large language model,LLM)一波接着一波,如 OpenAI 的 GPT-3、智源研究院的悟道 2.0 等。大模型已然成为社区势不可挡的发展趋势。然而,当前语言模型存在着一些问题,比如逻辑推理较弱。那么,我们是否可以仅通过添加更多数据和算力的情况下改进这些问题呢?或者,我们已经达到了语言模型相关技术范式的极限?今日,DeepMind「一口气」发表了三篇论文,目的