iPhone、Mac上都能跑，刷屏的Llama 2究竟功能如何？

昨天凌晨，相信很多人都被 Meta 颁布的 Llama 2 刷了屏。OpenAI 研究科学家 Andrej Karpathy 在推特上表示，「对于人工智能和 LLM 来说，这确实是重要的一天。这是目前能够把权重提供给所有人使用的最为强大的 LLM。」

对于开源社区来说，这个大模型就是「全村的希望」。它的出现将进一步缩小开源大模型与闭源大模型的差异，让所有人都有机会鉴于它构建自己的大模型应用。

因此，在过去的 24 个小时，Llama 2 成了所有社区成员关注的焦点。大家都在谈论它的功能、安排方法以及可能带来的影响。为了让大家在第一时间了解这些信息，我们在这篇文章中进行了总结。

Llama 2 功能究竟如何？

在展示评测结果之前，我们先来梳理一下 Llama 2 的基本信息：

包含 70 亿、130 亿和 700 亿三种参数变体，此外还训练了 340 亿参数变体，但并没有颁布，只在技术报告中提到了。

在 2 万亿的 token 上进行训练，相比于 Llama 1，训练数据多了 40%，精调 Chat 模型是在 100 万人类标记数据上训练的。

撑持的上下文 token 长度翻倍，由原来的 2048 升级到 4096。

免费可商用，但日活大于 7 亿的产品需要单独申请商用权限。

iPhone、Mac上都能跑，刷屏的Llama 2究竟功能如何？

在 Llama 2 颁布后，整个 Llama 项目的 Github star 量正在逼近 30k。

iPhone、Mac上都能跑，刷屏的Llama 2究竟功能如何？

在 Meta 颁布的论文中，我们还可以看到 Llama 2 的一些功能情况：

Llama 2 70B 在 MMLU 和 GSM8K 上得分接近 GPT-3.5，但在编码基准上存在显著差异。

在几乎所有基准上，Llama 2 70B 的结果均与谷歌 PaLM (540B) 持平或表现更好，不过与 GPT-4 和 PaLM-2-L 的功能仍存在较大差异。

iPhone、Mac上都能跑，刷屏的Llama 2究竟功能如何？

也就是说，即使是参数量最大的 Llama 2 70B，功能目前也没有超过 GPT-3.5，距离 GPT-4 差异更大。

为了尝试一下 Llama 2 的实力，各路网友都在想办法对其展开尝试，比如让他根据一些「荒唐」的信息写一封公司邮件。

iPhone、Mac上都能跑，刷屏的Llama 2究竟功能如何？

还有人已经开始直播 Llama 2 和其他类 ChatGPT 产品的 PK：

iPhone、Mac上都能跑，刷屏的Llama 2究竟功能如何？

在尝试过程中，大家发现了一些成绩，比如 Llama 2 受到的 RLHF 训练似乎太多了点，这导致它非常守规矩：

iPhone、Mac上都能跑，刷屏的Llama 2究竟功能如何？

在一位开发者制作的免费应用程序中，机器之心也上手体验了一把。

首先，我们问一下 Llama 2 能做什么？Llama 2 回答道：「我可以帮助你处理各种任务，比如回答成绩、提供信息，甚至帮助你完成日常任务。我只是一个人工智能，无法在现实中执行任务，但我可以为你提供你需要的信息或帮助……」。从说话上来看，Llama 2 撑持中文输入，但回答基本都用英文，中文理解、生成能力有限。

iPhone、Mac上都能跑，刷屏的Llama 2究竟功能如何？

接着问它数据截止到什么时候？从 Llama 2 的回答中，我们可以得知，它掌握的数据截止日期是 2022 年 12 月。

iPhone、Mac上都能跑，刷屏的Llama 2究竟功能如何？

接着，我们向 Llama 2 询问了一个不那么贴切的成绩。Llama 2 指出了标题的不合理性，并给出了一些建议：

iPhone、Mac上都能跑，刷屏的Llama 2究竟功能如何？

但是，Llama 2 对鸡兔同笼成绩还是不擅长。

iPhone、Mac上都能跑，刷屏的Llama 2究竟功能如何？

尝试地址：https://llama-2.replit.app/

在推特上，Vicuna（小羊驼）项目创建者公布了他们的系统尝试结果，结论如下：

Llama-2 表现出更强的指令遵循能力，但在信息提取、编码和数学方面仍明显落后于 GPT-3.5/Claude；

对于安全性的过度敏感可能导致对用户查询的错误解读；

在聊天功能上与鉴于 Llama-1 的领先模型（如 Vicuna、WizardLM）相当；

非英语说话技能有限。

iPhone、Mac上都能跑，刷屏的Llama 2究竟功能如何？

以下是一些尝试数据和结果：

iPhone、Mac上都能跑，刷屏的Llama 2究竟功能如何？

哪些设备能在内地跑这些模型？

由于 Llama 2 开源了不同大小的版本，这些模型在内地安排方面非常灵活。如果你不想把自己的数据传上网，那么内地安排就是最好的选择。这一想法可以通过陈天奇等人打造的 MLC-LLM 项目来实现：

iPhone、Mac上都能跑，刷屏的Llama 2究竟功能如何？

项目地址：https://github.com/mlc-ai/mlc-llm

在之前的报道中，我们提到过这个项目。它的目标是让你「在任何设备上都能编译运行大说话模型」，包括移动端、消费级电脑端和 Web 浏览器。它撑持的平台包括：

iPhone、Mac上都能跑，刷屏的Llama 2究竟功能如何？

在 Llama 2 颁布后，陈天奇等项目成员表示，MLC-LLM 现在撑持在内地安排 Llama-2-70B-chat（需要一个带有 50GB VRAM 的 Apple Silicon Mac 来运行）。在 M2 Ultra 上，解码速度可以达到～10.0token / 秒。

iPhone、Mac上都能跑，刷屏的Llama 2究竟功能如何？

当然，借助 MLC-LLM，运行其他版本的 Llama 2 模型更是不在话下：7B 模型在 Apple M2 Max 上的运行速度约为 46 tok/s，在 RTX 4090 上约为 156 tok/s。

iPhone、Mac上都能跑，刷屏的Llama 2究竟功能如何？

此外，借助陈天奇等人颁布的「MLC Chat」APP（苹果应用商店可以搜到），我们还可以尝试在手机、iPad 上使用 Llama 2（无需联网）。

iPhone、Mac上都能跑，刷屏的Llama 2究竟功能如何？

Llama 2 将带来哪些影响？

如果 Meta 没有在今年 2 月份开源 Llama，你可能不知道「羊驼」原来有那么多种写法：鉴于这一开源模型的「二创」项目几乎占用了生物学羊驼属的所有英文单词。在 Meta 将模型迭代到 2.0 版本后，这些项目自然也被拉到了新的起点。

在 Llama 2 颁布不到一天的时间里，能够像 GPT-4 一样处理图像信息的大型多模态模型「熔岩羊驼 LLaVA」的开发者就宣布，他们鉴于 Llama 2 对 LLaVA 进行了更新。新版本增加了对 LLaMA-2 的撑持，同时还撑持使用学术界 GPU 进行 LoRA 训练，以及更高的分辨率（336×336）和 4-/8- 推理等功能。

iPhone、Mac上都能跑，刷屏的Llama 2究竟功能如何？

此外，他们还颁布了新的 LLaVA 变体的预览版本，该版本鉴于最新的经过 RLHF 微调的 LLaMA-2-Chat 检查点，提供更长的上下文窗口。这些新颁布的版本撑持并验证了在 RTX 3090 和 RTX A6000 上进行的训练，从而使大型多模态模型的训练更加便捷、更加适用于广大社区用户。

iPhone、Mac上都能跑，刷屏的Llama 2究竟功能如何？

当然，这只是一个开始。假以时日，那些鉴于 Llama 2 的模型会陆陆续续上线或更新，「千模大战」一触即发。

iPhone、Mac上都能跑，刷屏的Llama 2究竟功能如何？

对于 Llama 的未来发展及影响，英伟达高级 AI 科学家 Jim Fan 也给出了自己的预测：

Llama-2 的训练成本可能超过 2000 万美元。之前，一些大公司的人工智能研究人员因为商业许可成绩对 Llama-1 持谨慎态度，但 Llama-2 的商业限制大大松绑，未来很多人可能会加入 Llama 阵营，并贡献他们的实力。

虽然 Llama-2 目前还没有达到 GPT-3.5 的水平，在编程等成绩上存在明显短板，但由于它的权重是开放的，这些成绩早晚会得到改进；

Llama-2 将极大地推动多模态人工智能和机器人技术的研究。这些领域需要的不仅仅是对 API 的黑盒访问。目前，我们必须将复杂的感官信号（视频、音频、3D 感知）转换为文本描述，然后再输入到 LLM（说话与视觉融合模型）中，这样做非常笨拙，导致信息损失非常严重。直接将感知模块嫁接到强大的 LLM 骨干上将更加高效。

iPhone、Mac上都能跑，刷屏的Llama 2究竟功能如何？

对于研发闭源大模型的企业来说，Llama 2 的颁布也是意义重大。如果他们研发的模型本身不够强大，或者和开源 Llama 2 及其衍生模型的差异不大，那么其商业价值将很难变现。

如果你对 Llama 2 的未来影响也有一些看法，欢迎在评论区留言。

{{userData.name}}已认证

iPhone、Mac上都能跑，刷屏的Llama 2究竟功能如何？

Llama 2 功能究竟如何？

在展示评测结果之前，我们先来梳理一下 Llama 2 的基本信息：

哪些设备能在内地跑这些模型？

由于 Llama 2 开源了不同大小的版本，这些模型在内地安排方面非常灵活。如果你不想把自己的数据传上网，那么内地安排就是最好的选择。这一想法可以通过陈天奇等人打造的 MLC-LLM 项目来实现：

Llama 2 将带来哪些影响？

2023摩根大通博士奖学金名单公布，华人超3/5，西电、川大校友在列

苹果被传秘密研发Apple GPT，基于自家大模型框架，目标明年出产物

AI 助力脑瘤手术：10 秒内精准识别残留肿瘤

Scaling Laws终结，量化无用，AI大佬都在审视这篇论文

钉钉AI重磅更新：深入业务场景，上线工单等场景AI助理

Red Hat 收购 Neural Magic 并开源其技术：优化通用设备 AI 性能，可媲美专用芯片

雷蛇发布 Gaiadex：矿物级 AI 分解产品组件，5 分钟内生成 60 页环保报告

AI面临的五个蛋白质设计问题，Nature找了一群专家来讨论

谷歌扩大 AI 洪水预警系统覆盖范围，惠及全球 7 亿人

OpenAI 联合创始人回来了，还是总裁，将更专注重大技术挑战