LLaMA

因监管问题，Meta 将不会在欧盟发布新的多模态 AI 模型

据 Axios 报道，Meta 在一份声明中表示，他们即将发布一个多模态的 Llama 模型，但由于监管环境的不确定性，该模型不会在欧盟发布。Meta 表示，这一决定也意味着即使在开放许可下发布，欧盟的客户和公司也无法使用多模态模型，Meta 将向欧盟的客户和公司提供仅支持文本（text only）的 Llama 3 模型。报道称，Meta 的问题不在于《人工智能法案》，而在于如何在遵守《通用数据保护条例》（GDPR）的同时，使用欧盟客户的数据来训练模型。Meta 表示使用当地数据进行训练，对于确保其产品正确反映该

7/18/2024 9:01:21 AM

沛霖（实习）

“最强开源 AI 模型”，4050 亿参数版 Meta Llama 3 被曝 7 月 23 日发布

感谢科技媒体 The Information 本周五发布博文，援引内部员工曝料称 Meta 公司计划 7 月 23 日发布开源 AI 模型 Llama 3-405B，在现有 80 亿和 700 亿参数两个版本之外，推出 4050 亿参数版本，号称是最强大的开源大语言模型。Meta 公司今年 4 月发布 Llama 3 AI 模型时，扎克伯格就在采访中透露正在训练 4050 亿像素的密集模型，但当时没有透露太多的信息。AI在线注：上图为机翻字幕，存在错误报道称 Llama 3-405B 是一个多模态 AI 开源模型，

7/13/2024 8:09:19 AM

故渊

Llama分子嵌入优于GPT，LLM能理解分子吗？这一局Meta赢了OpenAI

编辑 | 萝卜皮OpenAI 的 GPT 和 Meta AI 的 Llama 等大型语言模型（LLM），因其在化学信息学领域的潜力而日益受到认可，特别是在理解简化分子输入行输入系统（SMILES）方面。这些 LLM 还能够将 SMILES 字符串解码为矢量表示。加拿大温莎大学（University of Windsor）的研究人员比较了 GPT 和 Llama 与 SMILES 上的预训练模型在下游任务中嵌入 SMILES 字符串的性能，重点关注两个关键应用：分子特性预测和药物-药物相互作用预测。该研究以「Can

7/11/2024 11:51:00 AM

ScienceAI

俄罗斯科技巨头 Yandex 宣布开源“YaFSDP”大语言模型训练工具：大幅提升 GPU 利用率，对 Llama 3 可实现 26% 加速

俄罗斯科技巨头 Yandex 推出了一款开源的大语言模型训练工具 ——YaFSDP，号称与现有工具相比速度最高可提升 26%。据介绍，YaFSDP 在训练速度方面优于传统的 FSDP 方法，尤其适用于大型模型。在预训练 LLM 方面，YaFSDP 速度提高了 20%，并且在高内存压力条件下表现更佳。例如，YaFSDP 对具有 700 亿参数的 Llama 2 可以实现 21% 的效率提升，对具有同级参数的 Llama 3 也实现了 26% 的效率提升。IT之家附官方数据一览：模型gpu-countseq-lenn

6/11/2024 6:03:24 PM

问舟

最强开源编程大模型一夜易主：Codestral 精通 80 + 语言，参数量仅 22B

开源代码大模型的王座，再次易主！来自素有“欧洲 OpenAI”之称的 Mistral，用 22B 参数量表现超越了 70B 的 Code Llama。模型名为 Codestral，将代码的英文 Code 与公司名结合而成。在 80 多种编程语言上进行过训练后，Codestral 用更少的参数实现了更高的性能，窗口长度也达到了 32k，相比之前一众 4k、8k 的模型大幅增加。而且已经有人表示，GPT-4o 和 Claude3-Opus 都失败的代码编辑任务，被 Codestral 成功解决了。于是有网友直言，Cod

5/30/2024 3:07:05 PM

清源

高通与 Meta 宣布合作，优化 Llama 3 大语言模型在智能手机等终端运行

Meta 公司昨日宣布推出下一代大语言模型 Llama 3，共有 80 亿和 700 亿参数两种版本，号称是最强大的开源大语言模型。与此同时，高通宣布支持 Meta Llama 3 在骁龙终端上运行。据介绍，双方将优化 Meta Llama 3 大语言模型（LLM）直接在智能手机、PC、VR / AR 头显和汽车等终端上的执行。开发者将能够访问高通 AI Hub 中的资源和工具，以实现在骁龙平台上优化运行 Llama 3，从而缩短产品上市时间并充分发挥终端侧 AI 的优势，包括出色的响应能力、增强的隐私性和可靠性，

4/20/2024 7:22:44 PM

浩渺

Meta AI 全球市场扩张，并上线网页版 meta.ai

Meta 公司近日宣布 Llama 3 大语言模型之外，扩展 Meta AI 服务到美国之外的 13 个国家和地区，还宣布上线专门的聊天网站：meta.ai。Meta 公司在新闻稿中表示开始在全球市场扩展 Meta AI，在澳大利亚、加拿大、南非和新加坡等国家和地区推出英语版本。IT之家附上 Meta AI 扩展的国家和地区如下澳大利亚加拿大加纳牙买加马拉维新西兰尼日利亚巴基斯坦新加坡南非乌干达赞比亚津巴布韦Meta AI 整合了 Llama 3 大语言模型，速度更快、智能性更高、功能更强，是执行各种任务的理想选择

4/19/2024 9:15:51 AM

故渊

Meta 发布 Llama 3，号称是最强大的开源大语言模型

感谢Meta 公司今天发布新闻稿，宣布推出下一代大语言模型 Llama 3，共有 80 亿和 700 亿参数两种版本，号称是最强大的开源大语言模型。Meta 声称，Llama 3 的性能优于 Claude Sonnet、Mistral Medium 和 GPT-3.5，IT之家附上 Llama 3 的主要特点如下：向所有人开放：Meta 开源 Llama 3 的 80 亿参数版本，让所有人都能接触最前沿的人工智能技术。全球各地的开发人员、研究人员和好奇心强的人都可以进行游戏、构建和实验。更聪明、更安全：Llama

4/19/2024 9:05:35 AM

故渊

开源大模型Llama 3王者归来！最大底牌4000亿参数，性能直逼GPT-4

ChatGPT 拉开了大模型竞赛的序幕，Meta 似乎要后来居上了。本周四，AI 领域迎来重大消息，Meta 正式发布了人们等待已久的开源大模型 Llama 3。扎克伯格在 Facebook 上发帖：Big AI news today.与此同时，扎克伯格宣布：基于最新的 Llama 3 模型，Meta 的 AI 助手现在已经覆盖 Instagram、WhatsApp、Faceboo

4/19/2024 2:44:00 AM

机器之心

13 项测试仅通过 4 项，Meta 的 Llama 2 LLM 被指安全性低：幻觉率 48%

AI 安全公司 DeepKeep 近日发布评估报告，在 13 个风险评估类别中，Meta 公司的 Llama 2 大语言模型仅通过 4 项测试。报告称 70 亿参数的 Llama 2 7B 模型幻觉（回答内容存在虚假，或者有误导性内容）最为严重，幻觉率高达 48%。DeepKeep 表示：“结果表明，模型有明显的幻觉倾向，提供正确答案或编造回答的可能性对半开，而幻觉率最高，那么向用户传递的错误信息越多”。除了幻觉问题之外，Llama 2 大语言模型还存在注入和操纵等问题。根据测试结果，80% 的场景下通过“提示注入

4/18/2024 11:35:39 AM

故渊

对标 GPT-4，消息称 Meta 最快下周发布两款 Llama 3 模型

感谢科技媒体 theinformation 近日发布博文，表示 Meta 公司将于下周预告两款 Llama 3 AI 模型，为今年夏季推出“完整形态” Llama 3 铺垫。Meta 公司本周二在伦敦举办的一场活动中，确认会在下个月之前发布 Llama 3 相关模型。IT之家翻译 Meta 公司全球事务总裁尼克・克莱格（Nick Clegg）采访内容如下：我希望下个月或者更短时间内，能够推出下一代 Llama 3。我们计划今年推出一系列具有不同功能、不同通用性的模型。Meta 首席产品官 Chris Cox 补充说

4/10/2024 10:20:29 AM

故渊

号称全球最强开源 AI 模型，DBRX 登场：1320 亿参数，语言理解、编程能力等均超 GPT-3.5

初创公司 Databricks 近日发布公告，推出了开源 AI 模型 DBRX，声称是迄今为止全球最强大的开源大型语言模型，比 Meta 的 Llama 2 更为强大。DBRX 采用 transformer 架构，包含 1320 亿参数，共 16 个专家网络组成，每次推理使用其中的 4 个专家网络，激活 360 亿参数。Databricks 在公司博客文章中介绍，在语言理解、编程、数学和逻辑方面，对比 Meta 公司的 Llama 2-70B、法国 Mistral AI 公司的 Mixtral 以及马斯克旗下 xA

3/28/2024 7:57:39 AM

故渊

全面超越ViT，美团、浙大等提出视觉任务统一架构VisionLLAMA

半年多来，Meta 开源的 LLaMA 架构在 LLM 中经受了考验并大获成功（训练稳定、容易做 scaling）。沿袭 ViT 的研究思路，我们能否借助创新性的 LLaMA 架构，真正实现语言和图像的架构统一？在这一命题上，最近的一项研究 VisionLLaMA 取得了进展。VisionLLaMA 在图像生成（包含 Sora 依赖的底层的 DIT）和理解（分类、分割、检测、自监督）等多个主流任务上相较于原 ViT 类方法提升显著。论文标题：VisionLLaMA: A Unified LLaMA Interfac

3/7/2024 2:53:00 PM

机器之心

Meta官方的Prompt工程指南：Llama 2这样用更高效

随着大型语言模型（LLM）技术日渐成熟，提示工程（Prompt Engineering）变得越来越重要。一些研究机构发布了 LLM 提示工程指南，包括微软、OpenAI 等等。最近，Llama 系列开源模型的提出者 Meta 也针对 Llama 2 发布了一份交互式提示工程指南，涵盖了 Llama 2 的快速工程和最佳实践。以下是这份指南的核心内容。Llama 模型2023 年，Meta 推出了 Llama 、Llama 2 模型。较小的模型部署和运行成本较低，而更大的模型能力更强。Llama 2 系列模型参数规模

1/29/2024 3:10:00 PM

机器之心

连看好莱坞大片都学会了！贾佳亚团队用2token让大模型卷出新境界

家人们谁懂，连大模型都学会看好莱坞大片了，播放过亿的GTA6预告片大模型还看得津津有味，实在太卷了！而让LLM卷出新境界的办法简单到只有2token——将每一帧编码成2个词即可搞定。等等！这种大道至简的方法有种莫名的熟悉感。不错，又是出自香港中文大学贾佳亚团队。这是贾佳亚团队自8月提出主攻推理分割的LISA多模态大模型、10月发布的70B参数长文本开源大语言模型LongAlpaca和超长文本扩展术LongLoRA后的又一次重磅技术更新。而LongLoRA只需两行代码便可将7B模型的文本长度拓展到100k token

12/12/2023 3:14:00 PM

机器之心

Meta教你5步学会用Llama2：我见过最简单的大模型教学

本文是 Meta 官网推出的 Llama2 使用教学博客，简单 5 步教会你如何使用 Llama2。在这篇博客中，Meta 探讨了使用 Llama 2 的五个步骤，以便使用者在自己的项目中充分利用 Llama 2 的优势。同时详细介绍 Llama 2 的关键概念、设置方法、可用资源，并提供一步步设置和运行 Llama 2 的流程。Meta 开源的 Llama 2 包括模型权重和初始代码，参数范围从 7B 到 70B。Llama 2 的训练数据比 Llama 多了 40%，上下文长度也多一倍，并且 Llama 2 在

12/4/2023 11:30:00 AM

机器之心