Stability AI公布Stable Code 3B模型,没有GPU也能本地运行

Stable Code 3B 的功用优于近似巨细的代码模型,并且与 CodeLLaMA 7B 的功用相当,尽管其巨细只有 CodeLLaMA 7B 的 40%。在文生图领域大火的 Stability AI,今天宣布了其 2024 年的第一个新 AI 模型:Stable Code 3B。顾名思义,Stable Code 3B 是一个拥有 30 亿参数的模型,专注于辅助代码任务。 无需专用 GPU 即可在笔记本电脑上本地运行,同时仍可供给与 Meta 的 CodeLLaMA 7B 等大型模型具有竞争力的功用。2023

Stable Code 3B 的功用优于近似巨细的代码模型,并且与 CodeLLaMA 7B 的功用相当,尽管其巨细只有 CodeLLaMA 7B 的 40%。

在文生图领域大火的 Stability AI,今天宣布了其 2024 年的第一个新 AI 模型:Stable Code 3B。顾名思义,Stable Code 3B 是一个拥有 30 亿参数的模型,专注于辅助代码任务。 

无需专用 GPU 即可在笔记本电脑上本地运行,同时仍可供给与 Meta 的 CodeLLaMA 7B 等大型模型具有竞争力的功用。

Stability AI公布Stable Code 3B模型,没有GPU也能本地运行

2023 年底,Stability AI 便开始推动更小、更紧凑、更强大模型的发展,比如用于文本生成的 StableLM Zephyr 3B 模型。

随着 2024 年的到来,Stability AI 开年便马不停蹄的公布 2024 年第一个大型语言模型 Stable Code 3B,其实这个模型早在去年八月就公布了预览版 Stable Code Alpha 3B,此后 Stability AI 一直在稳步改进该技术。新版的 Stable Code 3B 专为代码补全而设计,具有多种附加功用。

与 CodeLLaMA 7b 相比,Stable Code 3B 巨细缩小了 60%,但在编程任务上达到了与前者相媲美的功用。

Stability AI公布Stable Code 3B模型,没有GPU也能本地运行

Stable Code 3B 在 MultiPL-E 基准上实现了 SOTA 功用(与近似巨细的模型相比),例如 Stable Code 3B 在 Python、C++、JavaScript、Java、PHP 和 Rust 编程语言上的功用优于 StarCoder。

Stability AI公布Stable Code 3B模型,没有GPU也能本地运行

研究介绍

Stable Code 3B 基于 Stable LM 3B 训练而成,而 Stable LM 3B 训练 token 数达到 4 万亿,更进一步的,Stable Code 利用了软件工程中特定的数据(包括代码)从事训练。

Stable Code 3B 供给了更多的特性,即使跨多种语言也表现良好,还兼具其他优势,比如支持 FIM(Fill in the Middle ,一种新的训练技巧)功用,还能扩大上下文巨细。基础 Stable Code 在多达 16,384 个 token 序列上从事训练,遵循与 CodeLlama 近似的方法,即采用转动嵌入(Rotary Embeddings),这种方法可以选择性的允许窜改多达 1,000,000 个转动基(rotary base),进一步将模型的上下文长度扩大到 100k 个 token。

在模型架构方面,Stable Code 3B 模型是一个纯解码器的 transformer,近似于 LLaMA 架构,并从事了以下窜改:

Stability AI公布Stable Code 3B模型,没有GPU也能本地运行

位置嵌入:转动位置嵌入应用于头嵌入维度的前 25%,以提高吞吐量;

Tokenizer:利用 GPTNeoX Tokenizer.NeoX 的窜改版本,添加特殊 token 来训练 FIM 功用,例如 < FIM_PREFIX>、<FIM_SUFFIX > 等。

训练

训练数据集

Stable Code 3B 的训练数据集由 HuggingFace Hub 上供给的开源大规模数据集过滤混合组成,包括 Falcon RefinedWeb、CommitPackFT、Github Issues、StarCoder,并进一步用数学领域的数据补充训练。

训练基础设施

硬件:Stable Code 3B 在 Stability AI 集群上利用 256 个 NVIDIA A100 40GB GPU 从事训练。

软件:Stable Code 3B 采用 gpt-neox 的分支,利用 ZeRO-1 在 2D 并行性(数据和张量并行)下从事训练,并依赖 flash-attention、SwiGLU、FlashAttention-2 的转动嵌入内核。

最后,我们看一下 Stable Code 3B 的功用表现:

Stability AI公布Stable Code 3B模型,没有GPU也能本地运行

Stability AI公布Stable Code 3B模型,没有GPU也能本地运行

关于 Stable Code 3B 更详细的技术报告会在之后公布,大家可以期待一下。

参考链接:https://stability.ai/news/stable-code-2024-llm-code-completion-release?continueFlag=ff896a31a2a10ab7986ed14bb65d25ea

给TA打赏
共{{data.count}}人
人已打赏
应用

机器人领域首个开源视觉-谈话操纵大模型,RoboFlamingo框架激发开源VLMs更大潜能

2024-1-17 14:37:00

应用

终于,NLP顶会ACL投稿不用匿名了

2024-1-17 14:46:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索