万万没想到，ChatGPT参数只有200亿？

这合理吗？谁都没有想到，ChatGPT 的核心秘密是由这种方式，被微软透露出来的。昨天晚上，很多讨论 AI 的微信群都被一篇 EMNLP 论文和其中的截图突然炸醒。微软一篇题为《CodeFusion: A Pre-trained Diffusion Model for Code Generation》的论文，在做对比的时候透露出了重要信息：ChatGPT 是个「只有」20B（200 亿）参数的模型，这件事引起了广泛关注。距 ChatGPT 发布已经快一年了，但 OpenAI 一直未透露 ChatGPT 的技术细节。

这合理吗？

谁都没有想到，ChatGPT 的核心秘密是由这种方式，被微软透露出来的。

昨天晚上，很多讨论 AI 的微信群都被一篇 EMNLP 论文和其中的截图突然炸醒。

微软一篇题为《CodeFusion: A Pre-trained Diffusion Model for Code Generation》的论文，在做对比的时候透露出了重要信息：ChatGPT 是个「只有」20B（200 亿）参数的模型，这件事引起了广泛关注。

万万没想到，ChatGPT参数只有200亿？

距 ChatGPT 发布已经快一年了，但 OpenAI 一直未透露 ChatGPT 的技术细节。由于其强大的模型性能，人们对 ChatGPT 的参数目、训练数据等信息抱有诸多疑问和猜想。

作为行业一直以来的标杆，ChatGPT 性能强大，可以解决各种各样的问题。它的前身 GPT-3 参数目就达到了 1750 亿，实用化以后的大模型居然被 OpenAI 瘦身了快 9 倍，这合理吗？

「如何看待这篇论文」的话题立刻冲上了知乎热榜。

万万没想到，ChatGPT参数只有200亿？

论文链接：https://arxiv.org/abs/2310.17680

具体来说，微软这篇论文提出了一种预训练的扩散代码生成模型 ——CodeFusion。CodeFusion 的参数目是 75M。在实验比较部分，论文的表 1 将 ChatGPT 的参数目明确标成了 20B。

众所周知，微软和 OpenAI 是合作已久的一对伙伴，并且这是一篇 EMNLP 2023 论文，因此大师推测这个数据很有能够是真实的。

然而，关于 ChatGPT 参数目的猜想，人们一直认为是一个庞大的数字，毕竟 GPT-3 的参数目就已经达到了 175B（1750 亿）。掀起大型语言模型（LLM）浪潮的 ChatGPT，难道就只有 20B 参数？

大师怎么看？

这个数据被扒出来之后，在知乎和 Twitter 已经引起了广泛讨论。毕竟，200 亿参数达到这样的成果十分惊人。再则，国内追赶出的大模型动则就是数百亿、上千亿。

那么这个数据保不保真？大师都有什么看法呢？

NLP 知名博主、新浪微博新技术研发负责人张俊林「盲猜」分析了一波，引起了大师广泛赞同：

不负责任猜想一波：GPT 4 是去年 8 月做好的，ChatGPT 估计是 OpenAI 应对 Anthropic 要推出的 Claude 专门做的，那时候 GPT 4 该当价值观还没对齐，OpenAI 不太敢放出来，所以临时做了 ChatGPT 来抢先发优势。OpenAI 在 2020 年推出 Scaling law 的文章，Deepmind 在 2022 年推出的改进版本 chinchilla law。OpenAI 做大模型肯定会遵循科学做法的，不会拍脑袋，那么就有两种能够：

能够性一：OpenAI 已经看到 Chinchilla 的论文，模型是按照龙猫法则做的，我们假设 ChatGPT 的训练数据量不低于 2.5T token 数目（为啥这样后面分析），那么按照龙猫法则倒推，一般训练数据量除以 20 就该当是最优参数目。于是我们可以推出：这种情况 ChatGPT 模型的巨细约在 120B 上下。

能够性二：OpenAI 在做 ChatGPT 的时候还没看到 Chinchilla 的论文，于是仍然按照 OpenAI 自己推导的 Scaling law 来设计训练数据量和模型巨细，推算起来训练数据量除以 12.5 上下对应模型最优参数，他们自己的 Scaling law 更倾向把模型推大。假设训练数据量是 2.5T 上下，那么这种情况 ChatGPT 的模型巨细该当在 190 到 200B 上下。

大概率第一个版本 ChatGPT 推出的时候在 200B 上下，所以刚出来的时候大师还是觉得速度慢，价格也高。3 月份 OpenAI 做过一次大晋级，价格降低为原先的十分之一。如果仅仅靠量化是不太能够紧缩这么猛的，目前的结论是大模型量化紧缩到 4 到 6bit 模型成果是能保持住不怎么下降的。

所以很能够 OpenAI 这次晋级从自己的 Scaling law 晋级到了 Chinchilla 的 Scaling law，这样模型巨细就紧缩了 120B 上下，接近一半（也有能够远小于 120B，如果按照 chinchilla law，llama 2 最大的模型该当是 100B 上下，此时算力分配最优，也就是说成本收益最合算。但是实际最大的 llama2 模型才 70B，而且更小的模型比如 7B 模型也用超大数据集。

llama1 65B 基本是符合 chinchilla law 的，llama2 最大模型已经打破 chinchilla law 开始怼数据了。就是说目前大师做大模型的趋势是尽管不是算力分配最优，但是都倾向于增加数据减小模型规模，这样尽管训练成本不合算，但是推理合算，而训练毕竟是一次性的，推理则并发高次数多，所以这么配置很明显总体是更合算的），再加上比如 4bit 量化，这样推理模型的巨细可以紧缩 4 倍，速度大约可提升 8 倍上下，如果是采取继续增加训练数据减小模型规模，再加上其它技术优化是完全有能够把推理价格打到十分之一的。

后续在 6 月份和 8 月份各自又价格下调了 25%，最终能够通过反复加数据减小规模逐渐把模型紧缩到 20B 上下。

这里解释下为何 ChatGPT 的训练数据量不太能够比 2.5T 低，LLaMA 2 的训练数据量是 2T，成果该当稍弱于 ChatGPT，所以这里假设最少 2.5T 的训练数据。目前研究结论是当模型规模固定住，只要持续增加训练数据量，模型成果就会直接增长，mistral 7B 成果炸裂，归根结底是训练数据量达到了 8 个 T，所以导致基础模型成果特别强。以 ChatGPT 的成果来说，它使用的数据量不太能够低于 2.5T。

当然，还有另外一种能够，就是 ChatGPT 在后期优化（比如第一次大晋级或者后续的晋级中，开始版本不太能够走的这条路）的时候也不管 scaling law 了，走的是类似 mistral 的路线，就是模型巨细固定在 20B，疯狂增加训练数据，如果又构造出合适的 instruct 数据，成果也能够有保障。

不论怎么讲，对于 6B 到 13B 上下比较适合应用落地的模型，强烈呼吁中文开源模型模仿 mistral，固定住一个最适合使用的模型巨细，然后疯狂增加训练数据，再加上好的 instruct 策略，是有能够作出小规模成果体验足够好的模型的。我个人认为对于开源模型来说，7B-13B 上下巨细的模型该当是兵家必争之地。有心气做开源的可以再努把力，把训练数据往上再努力怼一怼。

早在 OpenAI 开放 ChatGPT API 时，0.002 美元 / 1k token 的定价就令人们意外，这个价格只有 GPT-3.5 的 1/10。彼时就有人推测：「ChatGPT 是百亿（~10B）参数的模型」，并且「ChatGPT 使用的奖励模型（reward model）能够是千亿级模型」。该推测来源于清华大学 NLP 在读博士郑楚杰的知乎回答。

万万没想到，ChatGPT参数只有200亿？