"是我创造了第一个LLM"！Kaggle前首席科学家一句话引发AI学术圈考古行动

2025-04-09 09:23

论如何在技术圈争论中一句话噎到对方：哥们，是我创造了第一个大语言模型。发言者Jeremy Howard为澳大利亚昆士兰大学名誉教授、曾任Kaggle创始总裁和首席科学家，现answer.ai与fast.ai创始人，。事情的起因是有人质疑他最近的项目llms.txt在帮助大模型爬取互联网信息上并没太大作用，从而引发了这段争论，迅速引起众人围观。

论如何在技术圈争论中一句话噎到对方：

哥们，是我创造了第一个大语言模型。

发言者Jeremy Howard为澳大利亚昆士兰大学名誉教授、曾任Kaggle创始总裁和首席科学家，现answer.ai与fast.ai创始人，。

事情的起因是有人质疑他最近的项目llms.txt在帮助大模型爬取互联网信息上并没太大作用，从而引发了这段争论，迅速引起众人围观。

闻讯而来的“赛博考古学家们”一番考据之后，发现第一个大语言模型这个说法还真有理有据：

2018年初，Jeremy Howard发表的论文ULMFiT，使用非监督预训练-微调范式达到当时NLP领域的SOTA。

甚至GPT-1的一作Alec Radford，在发表GPT-1时也公开承认过ULMFiT是灵感来源之一。

有人搬出综述论文，指出从“遗传学”视角看，ULMFiT是所有现代大模型“最后的共同祖先”。

还有好事者软件工程师Jonathon Belotti，专门写了一篇完整考据《谁才是第一个大语言模型》

大语言模型起源考据

首先来介绍一下ULMFiT这篇论文，入选ACL 2018：

提出有效迁移学习方法，可应用于NLP领域的任何任务，并介绍了微调语言模型的关键技术，在六个文本分类任务上的表现明显优于当时的SOTA方法，在大多数数据集上将错误率降低了18-24%。此外，仅使用100个带标签的示例，它的性能就与在100倍以上数据上从头开始训练的模型性能相当。

那么ULMFit算不算第一个大语言模型呢？Jonathon Belotti考据遵循这样的思路：

首先找一个大家都公认肯定算大语言模型的成果，GPT-1肯定符合这个标准。

再从GPT-1和后续GPT-2、GPT-3中提取一个模型成为成为大语言模型的标准：

首先要是一个语言模型，根据输入预测人类书面语言的组成部分，不一定是单词，而是token
核心方法是自监督训练，数据集是未标记的文本，与此前特定于任务的数据集有很大不同
模型的行为是预测下一个token
能适应新的任务：不需要架构修改，就有few-shot甚至one-shot能力
通用性：可以先进的性能执行各种文本任务，包括分类、问答、解析等

接下来分析GPT-1引用的几个重要模型：原版Transformer，CoVe，ELMo和ULMFiT。

Transformer虽然是现代主流大模型的架构基础，但原版只用于机器翻译任务，还不够通用。同时非Transformer架构如LSTM、Mamba甚至Diffusion也可被视作大型语言模型。

CoVE提出了语境化词向量，是迁移学习领域的一项重要创新，但它通过监督学习训练（英语翻译德语）创建向量，不符合自监督学习的条件。

ELMo使用了自监督预训练和监督微调范式，但在few-shot能力上还差点意思。

总之在作者Jonathon Belotti看来，CoVE和ELMo都还没达到大语言模型的门槛。

最后再来看ULMFiT，其名字代表在文本分类任务微调的通用语言模型（Universal Language Model Fine-tuning for Text Classification）。

它是一个在WikiText数据上自监督训练的LSTM模型，能够以低成本适应新任务，无需更改架构即可执行大量文本分类任务，且达到当时的SOTA性能。

与GPT-1相比，只差在微调不够方便，以及应用任务的广度。

GPT-1论文原文中，也指出“最接近我们工作的”就是ULMFiT与谷歌的半监督序列学习（Semi-supervised Sequence Learning）了。

GPT-1论文还声称，把LSTM换成Transformer后能拓展预训练模型的预测能力，比ULMFit任务适应性更高。

考据者Jonathon Belotti最后总结到：

成为第一重要么？我认为有一点重要。软件行业和学术界尊重其创始人，我们都是开源社区中构建开拓智域文化（homesteads the noosphere）的一部分。

而Jeremy Howard本人对此的后续回应是我们创造了第一个“通用语言模型”，但后续论文没有沿用，反而创造了“大型语言模型”这个新术语。

苹果工程师Nathan Lawrence认为，虽然今天大家对谁是第一个LLM可能存在争议，但最终大家都会把ULMFiT视为一个转折点。

当时即使我这样的怀疑论者，也快开始意识到大规模通用训练将成为NLP的未来。

也有人建议Jeremy Howard以后说ULMFit是第一个“通用预训练模型”。

“我发明了ChatGPT中的GP”，这句话说起来也很酷，一点也不夸张。

ULMFithttps://arxiv.org/abs/1801.06146

GPT-1https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf

如何理解模型的蒸馏和量化

在LLM领域内，经常会听到两个名词：蒸馏和量化。这代表了LLM两种不同的技术，它们之间有什么区别呢？本次我们就来详细聊一下。

3/7/2025 8:00:00 AM

LLM「想太多」有救了！高效推理让大模型思考过程更精简

LLM的推理能力显著增强，然而，这个「超级大脑」也有自己的烦恼。有时候回答会绕好大一个圈子，推理过程冗长又复杂，虽能得出正确答案，但耗费了不少时间和计算资源。比如问它「2加3等于多少」，它可能会从数字的概念、加法原理开始，洋洋洒洒说上一大通，这在实际应用中可太影响效率啦。

4/7/2025 9:23:00 AM

新智元

大模型部署工具 Ollama 使用指南：技巧与问题解决全攻略

一、Ollama 是什么？ Ollama 是一个开源的本地大模型部署工具，旨在简化大型语言模型（LLM）的运行和管理。通过简单命令，用户可以在消费级设备上快速启动和运行开源模型（如 Llama、DeepSeek 等），无需复杂配置。

4/8/2025 3:22:00 AM

wayn

资讯热榜

企业级模型推理部署工具vllm使用指南 - 部署最新deepseek-v3-0324模型全能且实用！实战测评谷歌最新模型Gemini 2.5 Pro 大模型部署工具 Ollama 使用指南：技巧与问题解决全攻略模态编码器|CLIP详细解读 DeepSeek R1 vs OpenAI O3 vs Gemini 2 Pro—谁最适合做客服主管的AI 50组多风格提示词，全面测评Midjourney V7生图效果！斯坦福2025 AI指数出炉！中美AI对决差距仅剩0.3%，DeepSeek领衔 Deepseek 突破 AI 训练烧钱魔咒：1.2 万美元 1/525 成本 MT-Bench 跑分媲美 GPT-4o

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习 GPT 开源微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D AI设计 Anthropic 机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习模态苹果 AI视频驾驶文本搜索 xAI 人形机器人 Copilot 神器推荐 LLaMA 大语言模型具身智能字节跳动 Claude 算力安全应用视频生成科技视觉干货合集亚马逊 2024 AGI 特斯拉 DeepMind 架构

顶部

"是我创造了第一个LLM"！Kaggle前首席科学家一句话引发AI学术圈考古行动

大语言模型起源考据

相关资讯

如何理解模型的蒸馏和量化

LLM「想太多」有救了！高效推理让大模型思考过程更精简

大模型部署工具 Ollama 使用指南：技巧与问题解决全攻略