LLaMA

GPT-2后首次！OpenAI将开源带推理能力的开源权重模型！网友：能比DeepSeek R1强吗？

出品 | 51CTO技术栈（微信号：blog51cto）奥特曼发布X文，宣布了一个重磅推理开源权重模型：长话短说：我们即将在未来几个月发布一个强大的开源语言模型，具备推理能力，并希望与开发者交流如何让它更有用：！我们计划发布自 GPT-2 以来的首个开源语言模型。我们已经考虑了很久，但之前有其他优先事项。

4/1/2025 10:35:37 AM

开源版Suno来了！AI音乐生成模型YuE可生成专业级的歌声和伴奏

近日，由香港科技大学与音乐领域的 DeepSeek 合作开发的开源音乐生成模型 YuE 正式发布，震惊了不少乐迷和音乐创作者。这一模型不仅能够生成多种风格的音乐，还可以模拟人声，给听众带来全新的音乐体验。 YuE 的特点在于其双 LLaMA 语言模型架构，这使其能够无缝适配各种大语言模型，并且能够处理长达5分钟的完整歌曲。

3/28/2025 3:06:00 PM

AI在线

星辰与代码：DeepSeek的发展历程

技术突破阶段2024 年，DeepSeek 强势开启生态扩张与技术爆发的新纪元，成为全球 AI 领域瞩目的焦点。年初 1 月，DeepSeek 便以 DeepSeek-MoE 震撼登场，创新性架构设计以仅 60% 的计算量损耗，成功超越 Llama 2-7B 性能，为后续技术突破奠定坚实基础，在模型效率优化上迈出关键一步。紧接着 2 月，DeepSeekMath 在 MATH 基准测试中表现惊艳，成绩飙升至 51.7%，无限逼近 GPT-4 水平，数学推理能力实现质的飞跃，极大提升了模型在复杂数学问题求解上的可靠性与精准度。

3/27/2025 3:50:00 AM

小牛呼噜噜

扎克伯格：Meta 的 Llama 模型下载量已达 10 亿次

Meta 公司首席执行官马克・扎克伯格在 Threads 平台上宣布，Meta 的“开放”人工智能模型家族 Llama 的下载量已达到 10 亿次，相较于 2024 年 12 月初的 6.5 亿次下载量，在短短约三个月内增长了约 53%。

3/19/2025 4:33:17 PM

远洋

Meta Llama 模型下载量突破十亿，增长速度惊人!

Meta 公司的开源人工智能模型家族 Llama 近日迎来了一个重要里程碑，下载量已超过十亿次。这一消息由公司首席执行官马克・扎克伯格在社交媒体 Threads 上宣布。与2024年12月的6.5亿次下载相比，Llama 的下载量在短短三个月内激增了153%。

3/19/2025 2:16:00 PM

AI在线

为什么 Qwen 能自我改进推理，Llama 却不行？斯坦福找到了原理

给到额外的计算资源和「思考」时间，为什么有的模型能好好利用，把性能提升一大截，而有的模型就不行？当遇到困难问题时，人类会花时间深入思考以找到解决方案。在 AI 领域，最近的一些大语言模型在通过强化学习进行自我改进训练时，也已经开始表现出类似的推理行为。

3/6/2025 6:00:00 AM

机器之心

为什么Qwen能自我改进推理，Llama却不行？斯坦福找到了原理

虽然 Qwen「天生」就会检查自己的答案并修正错误。但找到原理之后，我们也能让 Llama 学会自我改进。给到额外的计算资源和「思考」时间，为什么有的模型能好好利用，把性能提升一大截，而有的模型就不行？

3/5/2025 2:54:00 PM

机器之心

硅基流动:下线部分未备案模型，用户请注意迁移

近日，硅基流动在其更新公告中宣布，为了进一步优化资源配置，提供更先进、优质、合规的技术服务，将于2025年3月6日对部分模型进行下线处理。此次下线的模型主要为未经审查的国外模型，特别是生图模型，仅保留KColor。请用户注意，如果之前接入了公告中提及的模型，务必在3月6日前完成迁移。

3/5/2025 10:00:25 AM

AI在线

Llama都在用的RoPE有了视频版，复旦上海AI Lab等提出长视频理解/检索绝佳拍档

Llama都在用的RoPE（旋转位置嵌入）被扩展到视频领域，长视频理解和检索更强了。复旦大学、上海AI实验室等提出VideoRoPE，并确定了将RoPE有效应用于视频所需的四个关键特性。在长视频检索、视频理解和视频幻觉等各种下游任务中，VideoRoPE始终优于先前的RoPE变体。

2/19/2025 11:28:00 AM

一文带你看懂开源大模型基石LLaMA核心技术点，DeepSeek/千问等LLM的模型结构基础

LLaMA是目前很多SOTA开源大模型的基础，包括DeepSeek、千问等在内的很多大模型的模型机构大体上都沿用了LLaMA。因此，LLaMA在模型结构的设计上可以说是目前大模型的一种最佳实践。这篇文章就给大家汇总一下LLaMA的核心模型结构。

2/14/2025 1:00:00 AM

Fareise

国家超算平台推AI伙伴计划:三月免费开放DeepSeek API

国家超算互联网平台近日宣布启动"AI生态伙伴加速计划"，面向企业用户推出一系列优惠举措，包括提供为期3个月的DeepSeek API接口免费使用权限，并配套千万卡时的算力资源池支持。据了解，该平台已完成DeepSeek满血版模型镜像的部署工作。目前平台已实现与全国14个省份超过20家超算和智算中心的互联互通，汇集各类算力商品逾6500款，其中AI模型服务近240款。

2/12/2025 9:28:00 AM

AI在线

IBM 强化 watsonx.ai:DeepSeek-R1蒸馏版 Llama 模型上线

IBM 近日宣布，其 AI 开发平台 watsonx.ai 现已支持 DeepSeek-R1蒸馏版的 Llama3.18B和 Llama3.370B模型。 DeepSeek 通过知识蒸馏技术，利用 R1模型生成的数据对多个 Llama和 Qwen变体进行了优化，进一步提升了模型性能。在 watsonx.ai平台上，用户可以通过两种方式使用 DeepSeek 蒸馏模型。

2/11/2025 2:25:00 PM

AI在线

DeepSeek的V3，爆火了

编辑 | 言征出品 | 51CTO技术栈（微信号：blog51cto）上周四，12月26日那个晚上非常不平凡，一件大事注定要被AI界写进里程碑。一夜之间，全球开源界最强模型不再是Llama了，而是中国开源界的新星DeepSeek最新研发的前言模型V3，甚至可以比肩世界顶尖的闭源模型。根据DeeSeek披露的基准测试分数，简单来讲，八个字：开源最强，闭源比肩。

12/30/2024 8:32:36 PM

言征

使用LLaMA 3.1、Firebase和Node.js，构建一个音控的智能厨房应用程序

译者 | 布加迪审校 | 重楼这篇指南逐步介绍了创建一个自动化的厨房助理的过程，附有语音命令、实时购物清单管理以及食谱建议。我在本教程中将介绍创建一个智能厨房应用程序（Chent），它可以根据个性化偏好简化杂货清单管理。该应用程序通过语音命令操作，简化了人机交互和添加商品。

12/24/2024 8:12:59 AM

布加迪

使用 Llama 3.2-Vision 多模态 LLM 和图像“聊天”

一、引言将视觉能力与大型语言模型（LLMs）结合，正在通过多模态 LLM（MLLM）彻底改变计算机视觉领域。这些模型结合了文本和视觉输入，展示了在图像理解和推理方面的卓越能力。虽然这些模型以前只能通过 API 访问，但最近的开放源代码选项现在允许本地执行，使其在生产环境中更具吸引力。

12/16/2024 7:00:00 AM

二旺

Meta 今年压轴开源 AI 模型 Llama 3.3 登场：700 亿参数，性能比肩 4050 亿

Meta 今年的压轴 AI 大模型来了。Meta 昨日（12 月 6 日）发布 Llama 3.3，共有 700 亿参数，不过性能方面媲美拥有 4050 亿参数的 Llama 3.1。

12/7/2024 3:41:08 PM

故渊

Meta 推出 Llama 3.2 1B / 3B 模型量化版：功耗更低、可适用更多轻量移动设备

继今年 9 月开源 Llama 3.2 的 1B 与 3B 模型之后，Meta 于 10 月 24 日发布了这两个模型的量化版本，量化后的模型大小平均减少了 56%，RAM 使用量平均减少了 41%，模型速度提高了 2 至 4 倍，同时降低了功耗，使这些模型能够部署到更多移动设备上。 AI在线注：模型量化（Model Quantization）就是通过各种训练方式将浮点模型转为定点模型，可以压缩模型参数，降低模型的复杂性，以便于在更轻量的平台运行。 Meta 表示，他们采用了量化感知训练（Quantization-Aware Training，QAT）和后训练量化（SpinQuant）两种方法对模型进行量化，其中“量化感知训练”更重视模型的准确性，而“后训练量化”更强调模型的可移植性。

10/27/2024 1:53:56 PM

漾仔

扎克伯格：联想基于 Meta Llama 大模型构建个人 AI 智能体 AI Now

感谢联想集团今日在美国西雅图召开年度 Tech World 大会。联想 CEO 杨元庆在主题演讲中，与 Meta 创始人兼 CEO 马克・扎克伯格一道宣布，联想与 Meta 合作基于 Llama 大模型推出面向 PC 的个人 AI 智能体 ——AI Now。扎克伯格通过视频在主题演讲上表示，联想与 Meta 已经合作多年，推出了许多卓越的创新成果，将突破性的 AI 和混合现实技术带给更多人，共同构建一个更加智能的未来。

10/16/2024 7:33:12 AM

资讯热榜

企业级模型推理部署工具vllm使用指南 - 部署最新deepseek-v3-0324模型大模型部署工具 Ollama 使用指南：技巧与问题解决全攻略全能且实用！实战测评谷歌最新模型Gemini 2.5 Pro 基于 DeepSeek GRPO 的 1.5B Rust 代码生成模型训练实战模态编码器|CLIP详细解读 DeepSeek R1 vs OpenAI O3 vs Gemini 2 Pro—谁最适合做客服主管的AI PandasAI：当数据分析遇上自然语言处理 50组多风格提示词，全面测评Midjourney V7生图效果！

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习 GPT 开源微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science AI设计 3D Anthropic 机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习模态苹果 AI视频驾驶文本搜索 xAI Copilot 人形机器人神器推荐具身智能 LLaMA 大语言模型字节跳动 Claude 算力安全应用视频生成科技视觉干货合集亚马逊 2024 AGI 特斯拉 DeepMind 架构

LLaMA

GPT-2后首次！OpenAI将开源带推理能力的开源权重模型！网友：能比DeepSeek R1强吗？

开源版Suno来了！AI音乐生成模型YuE可生成专业级的歌声和伴奏

星辰与代码：DeepSeek的发展历程

扎克伯格：Meta 的 Llama 模型下载量已达 10 亿次

​Meta Llama 模型下载量突破十亿，增长速度惊人!

为什么 Qwen 能自我改进推理，Llama 却不行？斯坦福找到了原理

为什么Qwen能自我改进推理，Llama却不行？斯坦福找到了原理

硅基流动:下线部分未备案模型，用户请注意迁移

Llama都在用的RoPE有了视频版，复旦上海AI Lab等提出长视频理解/检索绝佳拍档

一文带你看懂开源大模型基石LLaMA核心技术点，DeepSeek/千问等LLM的模型结构基础

国家超算平台推AI伙伴计划:三月免费开放DeepSeek API

IBM 强化 watsonx.ai:DeepSeek-R1蒸馏版 Llama 模型上线

DeepSeek的V3，爆火了

使用LLaMA 3.1、Firebase和Node.js，构建一个音控的智能厨房应用程序

使用 Llama 3.2-Vision 多模态 LLM 和图像“聊天”

Meta 今年压轴开源 AI 模型 Llama 3.3 登场：700 亿参数，性能比肩 4050 亿

Meta 推出 Llama 3.2 1B / 3B 模型量化版：功耗更低、可适用更多轻量移动设备

扎克伯格：联想基于 Meta Llama 大模型构建个人 AI 智能体 AI Now

Meta Llama 模型下载量突破十亿，增长速度惊人!