李飞飞团队年度陈述揭底大模型训练老本：Gemini Ultra是GPT-4的2.5倍

如何复盘大模型技术爆发的这一年？除了直观的感受，你还需要一份系统的总结。今天，斯坦福 HAI 研究所颁布了第七个年度的 AI Index 陈述，这是关于人工智能行业现状的最全面的陈述之一。访问地址：，人工智能的发展正以惊人的速度向前推进，开发人员每月都在制造出越来越强大、越来越复杂的模型。然而，尽管发展速度加快，人工智能行业在解决人们对人工智能可解释性的担忧以及对其对人们生活影响的日益紧张方面却进展甚微。在今年的陈述中，斯坦福 HAI 研究所增添了有关负责任人工智能的扩展章节，有关科学和医学领域人工智能的新章节，以

如何复盘大模型技术爆发的这一年？除了直观的感受，你还需要一份系统的总结。

今天，斯坦福 HAI 研究所颁布了第七个年度的 AI Index 陈述，这是关于人工智能行业现状的最全面的陈述之一。

访问地址：https://hai.stanford.edu/news/ai-index-state-ai-13-charts

陈述指出，人工智能的发展正以惊人的速度向前推进，开发人员每月都在制造出越来越强大、越来越复杂的模型。然而，尽管发展速度加快，人工智能行业在解决人们对人工智能可解释性的担忧以及对其对人们生活影响的日益紧张方面却进展甚微。

在今年的陈述中，斯坦福 HAI 研究所增添了有关负责任人工智能的扩展章节，有关科学和医学领域人工智能的新章节，以及对研发、技术性能、经济、教育、政策和治理、多样性和公众舆论的综述。

李飞飞团队年度陈述揭底大模型训练老本：Gemini Ultra是GPT-4的2.5倍

以下是陈述的重点内容：

2023 年的进展速度比以往任何一年都要快得多，GPT-4、Gemini 和 Claude 3 等最先进的系统显现出令人印象深刻的多模态功能，能够生成流畅的数据多种语言的文本、处理音频和图像以及解释网络梗图。

2023 年新颁布的支持生成式 AI 的大型语言模型数量比前一年翻了一番，其中三分之二是开源模型，例如 Meta 的 Llama 2，但性能最佳的是闭源模型，例如 Google 的 Gemini Ultra。

2023 年，工业界继续主导人工智能前沿研究。工业界产生了 51 个值得关注的机器学习模型，而学术界仅贡献了 15 个。2023 年，产学界合作产生了 21 个值得关注的模型，再创新高。

美国领先中国、欧盟和英国，成为顶级人工智能模型的主要来源地。2023 年，61 个著名的人工智能模型源自美国机构，远远超过欧盟的 21 个和中国的 15 个。

Gemini Ultra 是第一个在大规模多任务语言理解关键基准测试中达到人类水平表现的 LLM。OpenAI 的 GPT-4 也不甘示弱，在 Holistic Evaluation of Language Models 基准上取得了 0.96 的平均胜率得分，该基准将 MMLU 与其他评估结合起来。

不过，人工智能性能的提高是有代价的，陈述发现，前沿人工智能模型的开发老本正变得越来越高。据说 Gemini Ultra 消耗了价值 1.91 亿美元的计算资源，而 GPT-4 的开发老本估计为 7800 万美元。

企业对生成式 AI 投资猛增

图 4.3.1 展示了 2013 年至 2023 年全球企业人工智能投资趋势，包括并购、少数股权、私募投资和公开发行。全球企业对人工智能的投资连续第二年下降。

2023 年，总投资下降至 1892 亿美元，较 2022 年下降约 20%。然而，在过去十年中，企业对人工智能相关投资增添了十三倍。

李飞飞团队年度陈述揭底大模型训练老本：Gemini Ultra是GPT-4的2.5倍

图 4.3.3 表明，AI 行业吸引了 252 亿美元的投资，几乎是 2022 年投资的九倍，是 2019 年投资额的约 30 倍。此外，生成式人工智能占 2023 年所有人工智能相关私人投资的四分之一以上。

李飞飞团队年度陈述揭底大模型训练老本：Gemini Ultra是GPT-4的2.5倍

假如按区域进行比较，美国在人工智能私人投资总额方面再次领先世界。2023 年，美国投资额为 672 亿美元，大约是第二高国家中国投资额（78 亿美元）的 8.7 倍，是英国投资额（38 亿美元）的 17.8 倍（图 4.3.8)。

李飞飞团队年度陈述揭底大模型训练老本：Gemini Ultra是GPT-4的2.5倍

谷歌在根蒂根基模型竞赛中占据主导地位

陈述显现，谷歌在 2023 年颁布的根蒂根基模型最多，图 1.3.16 总结了 2023 年各个机构颁布的各种根蒂根基模型。Google 颁布了最多的模型（18 个），其次是 Meta（11 个）和 Microsoft（9 个）。2023 年颁布根蒂根基模型最多的学术机构是加州大学伯克利分校 (3 个)。

李飞飞团队年度陈述揭底大模型训练老本：Gemini Ultra是GPT-4的2.5倍

自 2019 年以来，Google 颁布的根蒂根基模型数量最多，共有 40 个，其次是 OpenAI，有 20 个（图 1.3.17）。清华大学也脱颖而出，颁布了七个根蒂根基模型，而斯坦福大学是美国领先的学术机构，颁布了五个模型。

李飞飞团队年度陈述揭底大模型训练老本：Gemini Ultra是GPT-4的2.5倍

闭源模型优于开源模型

图 2.11.4 和 2.11.5 将闭源模型与开源模型在选定的基准上进行了对比。在所有选定的基准上，闭源模型的表现均优于开源模型。

李飞飞团队年度陈述揭底大模型训练老本：Gemini Ultra是GPT-4的2.5倍

训练老本

关于根蒂根基模型，一个绕不开的话题是推理老本。尽管人工智能公司很少透露训练模型所涉及的费用，但人们普遍认为这些老本已达到数百万美元，并且还在不断上升。例如，OpenAI 首席执行官 Sam Altman 曾提到，GPT-4 的训练老本超过 1 亿美元。

图 1.3.21 根据云计算租赁价格直观地显现了与选定 AI 模型相关的训练老本。下图表明近年来模型训练老本大幅增添。例如，2017 年 Transformer 模型训练老本约为 900 美元。2019 年颁布的 RoBERTa Large 训练老本约为 160,000 美元。2023 年，OpenAI 的 GPT-4 和 Google 的 Gemini Ultra 的训练老本预计分别约为 7800 万美元和 1.91 亿美元。

李飞飞团队年度陈述揭底大模型训练老本：Gemini Ultra是GPT-4的2.5倍

图 1.3.22 显现了 AI Index 估计的所有 AI 模型的训练老本。如图所示，随着时间的推移，模型训练老本急剧增添。

李飞飞团队年度陈述揭底大模型训练老本：Gemini Ultra是GPT-4的2.5倍

如图 1.3.23 所示，对计算训练需求更大的模型需要的训练老本更多。

李飞飞团队年度陈述揭底大模型训练老本：Gemini Ultra是GPT-4的2.5倍

碳足迹

图 2.13.1 显现了选定 LLM 在训练期间释放的碳（以吨为单位）的比较。例如，Meta 颁布的 Llama 2 70B 模型释放了约 291.2 吨碳，这比一位旅客从纽约到旧金山的往返航班所释放的碳排放量高出近 291 倍，大约是普通美国人一年碳排放量的 16 倍。然而，Llama 2 的排放量仍低于 OpenAI GPT-3 训练期间陈述的 502 吨排放量。

李飞飞团队年度陈述揭底大模型训练老本：Gemini Ultra是GPT-4的2.5倍

美国在根蒂根基模型方面处于领先位置

2023 年，全球大部分根蒂根基模型源自美国（109 个），其次是中国（20 个）和英国（图 1.3.18）。自 2019 年以来，美国在大多数根蒂根基模型的研发方面一直处于领先地位（图 1.3.19）。

李飞飞团队年度陈述揭底大模型训练老本：Gemini Ultra是GPT-4的2.5倍

CS 博士毕业生

美国和加拿大计算机科学博士毕业生数量十年来首次显著增添。2022 年，计算机科学博士毕业生人数达到 2105 人，为 2010 年以来最高（图 6.1.5）。

李飞飞团队年度陈述揭底大模型训练老本：Gemini Ultra是GPT-4的2.5倍

越来越多的 AI 博士毕业生在工业界寻求职业生涯（图 6.1.7 和图 6.1.8）。2011 年，工业界（40.9%）和学术界（41.6%）的就业比例大致相同。然而，到 2022 年，与进入学术界的人 (20.0%) 相比，毕业后进入工业界的比例 (70.7%) 明显更高。过去 5 年，进入政府职位的 AI 博士比例一直保持在相对较低的水平，稳定在 0.7% 左右。

李飞飞团队年度陈述揭底大模型训练老本：Gemini Ultra是GPT-4的2.5倍

考生类别增添

下图所示 AP CS 考生的种族多样性正在增添。虽然白人学生仍然是最大的群体，但随着时间的推移，亚裔、西班牙裔 / 拉美裔等学生参加 AP CS 考试的人数不断增添（图 8.3.3）。2022 年，白人学生在考生中所占比例最大（38.2%），其次是亚裔学生（27.8%）（图 8.3.3 和图 8.3.4）。

李飞飞团队年度陈述揭底大模型训练老本：Gemini Ultra是GPT-4的2.5倍

财报电话会议

去年，财富 500 强公司财报电话会议中提及人工智能的次数显著增添。2023 年，有 394 场财报电话会议提到了人工智能（占所有财富 500 强公司的近 80%），高于 2022 年的 266 场（图 4.4.25）。自 2018 年以来，财富 500 强财报电话会议中提及人工智能的次数几乎增添了一倍。

李飞飞团队年度陈述揭底大模型训练老本：Gemini Ultra是GPT-4的2.5倍

涉及的主题非常广泛，最常被提及的主题是生成式人工智能，占所有财报电话会议的 19.7%(图 4.4.26)。

李飞飞团队年度陈述揭底大模型训练老本：Gemini Ultra是GPT-4的2.5倍

老本下降，收入上升

人工智能不仅仅是企业的流行语：麦肯锡的同一项调查显现，人工智能的整合使企业老本下降，收入增添。总体而言，42% 的受访者表示他们的老本降低了，59% 的受访者表示收入增添了。

2023 年，不同领域的多项研究表明，人工智能使工人能够更快地完成任务，并提高工作质量。其中一项研究考察了使用 Copilot 的编程人员，其他研究则考察了顾问、呼叫中心代理和法律专业学生。研究还表明，虽然每个工人都能从中受益，但人工智能对低技能工人的帮助要大于对高技能工人的帮助。

李飞飞团队年度陈述揭底大模型训练老本：Gemini Ultra是GPT-4的2.5倍

企业确实感知到了风险

陈述对收入至少在 5 亿美元以上的 1000 家公司进行了一次全球调查，以了解企业如何看待负责任的人工智能。

结果显现，隐私和数据管理被认为是全球最大的风险，而公平性（通常以算法偏见的形式讨论）仍未被大多数公司所重视。

一张图表显现，企业正在针对其感知到的风险采取行动：各地区的大多数企业都针对相关风险实施了至少一项负责任的人工智能措施。

李飞飞团队年度陈述揭底大模型训练老本：Gemini Ultra是GPT-4的2.5倍

人工智能还不能在所有事情上击败人类……

近年来，人工智能系统在阅读理解和视觉推理等一系列任务上的表现都优于人类，如 2015 年的图像分类、2017 年的根蒂根基阅读理解、2020 年的视觉推理和 2021 年的自然语言推理。

但在一些复杂的认知任务中，人类的表现仍然优于人工智能系统，如视觉常识推理和高级数学问题解决（竞赛级数学问题），让我们明年再看看情况如何。

李飞飞团队年度陈述揭底大模型训练老本：Gemini Ultra是GPT-4的2.5倍

制定人工智能责任规范

当一家人工智能公司准备颁布一个大模型时，标准做法是根据该领域的流行基准对其进行测试，从而让社区了解模型在技术性能方面是如何相互叠加的。然而，根据负责任的人工智能基准对模型进行测试的做法并不多见，这些基准主要评估有毒语言输出（RealToxicityPrompts 和 ToxiGen）、反应中的有害偏差（BOLD 和 BBQ）以及模型的真实程度（TruthfulQA）。这种情况正在开始改变，因为人们越来越意识到，根据这些基准检查自己的模型是一件负责任的事情。

然而，陈述中的一张图表显现，一致性还很欠缺：OpenAI、Google 和 Anthropic 在内的领先开发人员主要根据不同的负责任的 AI 基准测试他们的模型。这种做法使得系统地比较顶级人工智能模型的风险和局限性的工作变得更加复杂。

李飞飞团队年度陈述揭底大模型训练老本：Gemini Ultra是GPT-4的2.5倍