新版Llama 3 70B反超405B！Meta开卷后训练，谷歌马斯克都来抢镜

2024-12-09 07:10

OpenAI“双12”刚进行到第二天，就把大模型圈搅得好不热闹！一边是Meta没预告就发布了Llama 3.3，70B版本就能实现以前405B的性能。另一边谷歌的Gemini也上线了新的实验版模型，再一次登上大模型竞技场榜首。

OpenAI“双12”刚进行到第二天，就把大模型圈搅得好不热闹！

一边是Meta没预告就发布了Llama 3.3，70B版本就能实现以前405B的性能。

另一边谷歌的Gemini也上线了新的实验版模型，再一次登上大模型竞技场榜首。

有网友感叹，o1、Llama 3.3和新版Gemini接连发布，马斯克的Grok3也要来，还有GPT-4.5初露端倪……这简直是最棒的一个圣诞季。

Llama 3.3：70B实现405B效果

Llama 3.3目前只有70B一个型号。

但在指令遵循（IFEval）、数学（MATH）、推理（GPQA Diamond）等领域，水平都超过了七月份发布的Llama 3.1 405B。

在语言（MMLU）、代码（HumanEval）、长文本和多语种能力上，成绩也和Llama 3.1 405B比较接近。

而在工具使用（BFCL）上，和405B的差距则显得稍大一些。

不过，Llama 3.3的使用成本要比Llama 3.1 405B低得多。

虽然Llama本身是免费的，但是各个大模型平台的服务价格也可以作为衡量成本的一个参考。

在Meta合作的平台当中，Llama 3.3最便宜的价格是0.1/0.4美元每百万输入/输出Token。

而Llama 3.1 405B，则是1美元每百万输入token，是Llama 3.3的10倍，输出token为1.8美元，是Llama 3.3的4.5倍。

Meta生成式AI团队领导者Ahmad Al-Dahle表示，Llama 3.3能用70B实现405B的效果，主要是“运用了后训练技术的最新进展”，并点名其中包括在线偏好优化（online preference optimization）。

Meta AI官方账号也提到，Llama 3.3的进步归功于新的对齐过程和在线强化学习技术的进步。

目前，Llama 3.3的模型权重已在官网和Hugging Face上开放下载。

Gemini迎来周岁生日

Gemini 1206上线的这天，刚好是Gemini的一周岁生日。

不过，从节奏和以日期命名的方式来看，Gemini更像是一次例行更新（上一个版本是1121）。

当然成绩还是很不错的，直接登上了lmsys大模型竞技场的榜首。

而且不只是总成绩夺冠，困难提示词、代码、数学、创意写作等各个单项排名也都是第一。

实际上，Gemini此前有个1114版本，也当了一周的“榜一大哥”，后来被更新的GPT-4o给比了下去。

现在的最新版本，又让Gemini重新回到了榜单上的王座。

此外，谷歌AI Studio产品负责人（原OpenAI开发者社区主管）Logan介绍，Gemini 1206拥有2百万token的上下文窗口，目前可通过谷歌AI Studio和Gemini API免费使用。

谷歌首席科学家Jeff Dean表示，取得这样的成绩是对Gemini生日最好的庆祝方式。

不过也有网友给谷歌泼了盆冷水，表示o1还没出现在这个榜单上，而且GPT-4.5就要来了，谷歌第一的位置恐怕很快又会被OpenAI夺走。

One More Thing

除了谷歌和Meta，马斯克xAI也被盛传即将发布Grok 3。

有网友发现，正在测试的Grok 2 mini消失了，认为这是要发Grok 3的征兆。

除了对Grok 3的猜测，还有一条更确定的消息——此前要充会员才能用的Grok，现在可以免费用了。

不过免费用户用量比较有限，每两小时只能处理10条消息，而图片分析一天只能处理三张。

有意思的是，我们试了试询问Grok自己，它也表示Grok 3计划在这个月上线。

但抓马的是，点进后面引用的消息源，发现这名博主也是问Grok之后发的帖子……

那么，在这个发布密集的十二月，你最钟意或者最期待哪一款产品呢？

参考链接：[1]https://x.com/AIatMeta/status/1865079067390956006。[2]https://x.com/Ahmad_Al_Dahle/status/1865071436630778109。[3]https://x.com/lmarena_ai/status/1865080944455225547。

相关标签：

Gemini GPT-4.5 Llama 3.3

相关资讯

真·ChatGPT平替：无需显卡，MacBook、树莓派就能运行LLaMA

真·ChatGPT平替：无需显卡，MacBook、树莓派就能运行LLaMA

Meta 在上个月末发布了一系列开源大模型 ——LLaMA（Large Language Model Meta AI），参数量从 70 亿到 650 亿不等。由于模型参数量较少，只需单张显卡即可运行，LLaMA 因此被称为 ChatGPT 的平替。发布以来，已有多位开发者尝试在自己的设备上运行 LLaMA 模型，并分享经验。

刚刚，Llama 3.2 来了！支持图像推理，还有可在手机上运行的版本

刚刚，Llama 3.2 来了！支持图像推理，还有可在手机上运行的版本

今天凌晨，大新闻不断。一边是 OpenAI 的高层又又又动荡了，另一边被誉为「真・Open AI」的 Meta 对 Llama 模型来了一波大更新：不仅推出了支持图像推理任务的新一代 Llama 11B 和 90B 模型，还发布了可在边缘和移动设备上的运行的轻量级模型 Llama 3.2 1B 和 3B。不仅如此，Meta 还正式发布了 Llama Stack Distribution，其可将多个 API 提供商打包在一起以便模型方便地调用各种工具或外部模型。此外，他们还发布了最新的安全保障措施。真・Open AI

91.1% 准确率，性能远超 GPT-4 系列模型，谷歌推出多模态医学大模型 Med-Gemini

91.1% 准确率，性能远超 GPT-4 系列模型，谷歌推出多模态医学大模型 Med-Gemini

编辑 | 萝卜皮各种复杂的医疗应用给人工智能带来了巨大挑战：需要先进的推理、获取最新的医学知识以及对复杂的多模态数据的理解。Gemini 模型在多模态和长上下文推理方面具有强大的通用能力，为 AI 在医学领域应用提供了可能性。基于 Gemini 的核心优势，谷歌的研究人员推出了 Med-Gemini，这是一个功能强大的多模态模型系列，专门用于医学，能够无缝使用网络搜索，并且可以使用自定义编码器有效地针对新颖的模态进行定制。研究人员用 14 项医疗基准评估 Med-Gemini，在其中 10 项上建立了新的最先进（S

资讯热榜

罗永浩 Jarvis 初创项目“J1 Assistant AI 助理”上线，利用语音与大模型互动 SK 海力士宣布参展 CES 2025，将展示 122TB 企业级固态硬盘等产品阿里云与黑芝麻智能完成大模型车载芯片级适配突破非视距条件依赖！大规模区域、低成本的UWB-LiDAR标定与单次定位框架清华大学推 AutoDroid-V2：AI 离线在线协同，优化移动端自动化 GUI 控制类 Mac Mini 大小的个人 AI 超算：英伟达 Project Digits 发布，起价 3000 美元斯坦福AI科研神器开源，一键成文GPT-4o mini加持！科研写作彻底解放双手啥玩意值8499元？马斯克在线打call，国产AI威震天秒售罄

标签云