2024年人工智能年终总结报告|Artificial Analysis

临近年末,在人们都开始着手于年终总结的时候,Artificial Analysis也给出了关于2024年AI变革式发展的回顾。 令人欣喜的是,我国的Qwen2.5 Instruct 72B与DeepSeek V2.5还有可灵AI等也名列其中。 毫无疑问的是,2024年对于AI的发展是里程碑式的一年。

临近年末,在人们都开始着手于年终总结的时候,Artificial Analysis也给出了关于2024年AI变革式发展的回顾。令人欣喜的是,我国的Qwen2.5 Instruct 72B与DeepSeek V2.5还有可灵AI等也名列其中。

毫无疑问的是,2024年对于AI的发展是里程碑式的一年。今年我们见证了太多AI技术变革带来的惊艳,而它们也在短短一年的时间里就对我们的生活学习方式产生了重大的影响。

这一年里,各家大模型的能力提升层出不穷。从gpt-4o的交互式高质量解决问题到o1那令人震惊的推理能力,再到刚刚发布的o3,OpenAI还是一往如常地为我们不断带来新的人工智能范式。

对于开发者来讲,Claude 3.5 Sonnet出色的辅助代码体验更是让Anthropic给OpenAI带来了真正的市场竞争压力。

而就在12月,闷声办大事的Google也通过发布Genmini 2.0 Flash和Genmini 2.0 Flash Thinking彻底打了一场漂亮的翻身仗,成功逆袭。

并且,这一年里,无论是模型的能力表现、响应速度、API价格都有显著的提升,就像集成电路的摩尔定律一样,大模型也迎来了它自己的「摩尔定律」时代。

这里要用到左右排版

2024年人工智能年终总结报告|Artificial Analysis

2024年人工智能年终总结报告|Artificial Analysis

2024年人工智能年终总结报告|Artificial Analysis

自OpenAI在2022年12月发布GPT-3.5模型驱动的ChatGPT以来,生成式AI就如火如荼地展开了一场声势浩大的「军备竞赛」。

而仅仅不到两年,多个实验室就都已经赶上了OpenAI的GPT-4,甚至出现了第一批超越GPT-4o智能水平的模型。例如:Claude 3.5 Sonnet,Gemini 1.5 Pro以及新近发布的Gemini 2.0 Flash。

2024年人工智能年终总结报告|Artificial Analysis

截止2024年,在LLM领域,依然是美国位于主导地位,其中主要是ChatGPT、Gemini、Claude、Nova、LLama系列。而我国则暂时处于第二梯队,取得国际关注与认同的主要有Qwen2.5 Instruct 72B与DeepSeek V2.5。其余国家则只有法国、加拿大、以色列达到了一定水平,大部分国家在这场竞赛中都与领先国家望尘莫及。

2024年人工智能年终总结报告|Artificial Analysis

而在Open AI不再「Open」之后,开源模型也没有因此就与专有模型的性能有难以克服的差距。在Meta、Mistral和阿里巴巴发布的开源模型的驱动下,开源和专有模型之间的性能差距也有了显著下降。

2024年人工智能年终总结报告|Artificial Analysis

更加利好消费者的是今年语言模型的推理定价在所有智能水平上都大幅下降,例如GPT-4o mini在智能水平上接近GPT-4,但价格却便宜了100倍。而得分超越GPT-4 Turbo的国产大模型Qwen2.5 72B的价格也甚至只有GPT-4 Turbo的1.3%。

2024年人工智能年终总结报告|Artificial Analysis

推理定价下降的一个关键驱动因素是小模型也能达到之前只有大模型才能达到的智能水平,例如微软最新推出的phi-4模型。

2024年人工智能年终总结报告|Artificial Analysis

上下文窗口长度对于模型的实际应用是至关重要的,因为许多应用程序不仅仅使用文本,更大的上下文窗口才能支持包括图像、视频和音频在内的多模态输入。而现在它也来到了128K tokens的长度,对比23年的三季度,短短一年整整增长了32倍!

2024年人工智能年终总结报告|Artificial Analysis

对于使用者来讲,目前更加倾向于使用头部企业的产品,如OpenAI,Meta,Anthropic,Mistral,Google。而影响选择模型最重要的因素则有:推理质量,上下文窗口,价格,速度等。

2024年人工智能年终总结报告|Artificial Analysis

人们对于LLMs的使用都不局限在某一个需求方面,而是覆盖了信息抽取、长文本总结、文本生成等需求,而且也最在意模型的多模态能力。

2024年人工智能年终总结报告|Artificial Analysis

对于各种各样的技术与商业需求来讲,大部分开发者用户都会同时使用多个模型。其中72%的开发者会直接使用已发布成品模型,另外的24%则是针对现有的模型进行微调,仅有4%是从头开始对模型进行训练。

2024年人工智能年终总结报告|Artificial Analysis

2024年,图像生成质量也得到了迅速发展,其中在照片真实感、提示符合度和文本渲染方面取得了显著的进步。下图中的提示词为:印着「Artificial Analysis」的下一代宇宙飞船环绕在景色令人惊叹的地球。我们可以发现,随着先进的文生图模型不断迭代推出,生成的图像也越来越逼真,符合实际规律。

2024年人工智能年终总结报告|Artificial Analysis

随之而来的是,2024年图像模型的进步和竞争也加速了。人工智能分析图像领域的前5名模型都是自2024年第三季度以来推出的。例如24年10月推出的Recraft v3模型。

2024年人工智能年终总结报告|Artificial Analysis

有意思的是,OpenAI在2024年2月就预览了Sora,当时竞争其实还很小,但到了2024年12月它推出时,这个领域的竞争就已经激烈起来了。诸如快手的可灵、MiniMax的海螺AI以及腾讯的混元都对Sora发起了挑战。

2024年人工智能年终总结报告|Artificial Analysis

基于Transformer的文本转语音模型也在2024年OpenAI的领衔下达到了新的质量里程碑,超越了曾经的云服务供应商。

2024年人工智能年终总结报告|Artificial Analysis

在AI语音识别领域,OpenAI在2022年末开源Whisper重塑了整个领域格局,使得云推理服务提供商能够进入市场,并在响应速度和价格上展开了竞争,为消费者带来了前所未有的高性价比体验。其中最快的一个可以在大约10秒内转录整整一小时的音频,转录的价格也降至每1000分钟音频不到1美元。Groq发布的最新Whisper模型与亚马逊2018年模型相比有约72倍的价格降低和约11倍的速度提升。

2024年人工智能年终总结报告|Artificial Analysis

从Artificial Analysis给出的2024年的人工智能年度回顾报告中,我们也可以发现,这其中并没有统计到最新的o3与Gemini 2.0 Flash Thinking。由此可见,今年整体的AI发展,尤其是LLMs,其推陈出新的能力几乎超乎了人们的想象。

这也让我们对即将到来的2025有了更多的憧憬与期望,明年是否又会是真正达成AGI的关键一年呢?答案就需要留待明年此时再来回看了。

相关资讯

「对中国半导体实施卡脖子战略」:美国通过756页AI战略报告

由众多硅谷科技巨头 CEO、首席科学家们组成的 NSCAI 委员会,建议通过卡住半导体出口的方式防止中国在未来新技术发展中占据主导地位。

辰韬资本联合三方重磅发布《端到端自动驾驶行业研究报告》

自动驾驶技术的演进随着 AI 和大模型技术的发展进入全新阶段,“端到端自动驾驶”作为其中最重要的一项技术演进趋势近来成为自动驾驶行业关注的焦点。在端到端自动驾驶领域,无论是产业界、学术界和资本市场,里程碑事件都有发生,各大龙头企业也纷纷布局这一核心关键技术路线。2024年6月12日,辰韬资本联合南京大学上海校友会自动驾驶分会、九章智驾、宝通科技共同主办,招商银行、云道资本协办的“端到端引领自动驾驶新时代高峰论坛暨行业研究报告发布会”活动在上海成功举办。200多位产业专家、投资机构、研究机构及智能驾驶头部企业的代表共

美国银行谈 AI 热潮:当前仍处早期阶段,才相当于互联网的 1996 年

当地时间 12 日,美国银行发布报告称,当前 AI 的繁荣仍处于早期阶段,其发展轨迹与 20 世纪 90 年代的互联网类似。美国银行此次提出这番观点,正值投资者对 AI 怀疑的情绪与日俱增之际。此前,大量资金涌入 AI 领域,投资者寄希望于看到企业通过 AI 实现承诺的效率和生产力提升。报告称,现在的怀疑者们认为,生成式 AI 的收入潜力无法证明目前 AI 基础设施投资的合理性。“但请记住,比互联网最初的消费者用例更重要的,是由互联网催生的数千种用例和公司。”该报告基于对超过 3,000 家公司的股票分析师和宏观策