大模型

GPT-4o再暴露「弱智」缺陷，大模型无一幸免！港中文等发布「视觉听觉」基准AV-Odyssey：26个任务直指死角问题

在人工智能领域，我们一直以为顶尖的多模态大模型已经无所不能，GPT-4o在ASR（音频转文字）任务上已经达到了97%的正确率，更是凸显了强大的音频理解能力。然而，最近一项来自香港中文大学、斯坦福大学、伯克利大学和耶鲁大学的研究成果却彻底颠覆了这一认知——GPT-4o、Gemini 1.5 Pro、Reka Core等最先进的多模态大模型居然无法正确分辨明显不同的声音大小！下面是一个例子：结果让人难以置信：这些顶尖的AI模型都未能准确判断出音量的差异！

12/11/2024 1:30:00 PM

新智元

面壁智能获新一轮数亿元融资，高效端侧智能持续引领行业发展

近日，面壁智能完成新一轮数亿元融资，本轮融资由龙芯创投、鼎晖百孚、中关村科学城基金和赛富基金联合领投，北京市人工智能产业投资基金与清科创投跟投，万甲资本担任本轮独家财务顾问。本轮融资完成后，面壁智能将进一步提速以端侧AI为代表的高效大模型商业化布局，以同等参数、更高性能、更低能耗、更快速度的高效大模型深度服务行业，为用户创造具体可感知的价值。面壁智能是以「高效为第一性原理」的大模型公司。

12/11/2024 9:17:00 AM

新闻助手

Scaling Law不是唯一视角！清华刘知远团队提出大模型“密度定律”：模型能力密度100天翻番

Scaling Law并非描述大模型能力的唯一视角！清华NLP实验室刘知远教授团队，最新提出大模型的密度定律（densing law），表达形式让人想到芯片领域的摩尔定律：模型能力密度随时间呈指数级增长，2023年以来能力密度约每3.3个月（约100天）翻一倍。根据密度定律，研究团队还得出以下重要推论——AI时代的三大核心引擎——电力、算力与智力，都同样遵循密度快速增长趋势。

12/10/2024 7:00:00 AM

大模型界「摩尔定律」Densing Law 来了！盲目Scaling将过时！清华刘知远团队发现：大模型能力密度约100天翻倍！

整理 | 伊风出品 | 51CTO技术栈（微信号：blog51cto）Scaling Law会失效吗？虽然 OpenAI CEO 奥特曼掷地有声地说“这里没有墙”。但是，OpenAI的最近的发布也没有那么炸了，尤其是 o1 Pro 比满血版在编程能力上仅高出一分，似乎更让人相信了“墙”的存在。

12/9/2024 5:20:29 PM

伊风

浅析面向场景的大模型应用框架选择

从demo到产品之间存在着鸿沟，大模型应用也是如此。在工程实践的时候，产品/服务提供的功能与性能及成本之间存在着大量的权衡，面向场景来选择大模型的应用框架，则是一种具体的权衡方法。例如，什么时候使用Agent？

12/9/2024 10:18:37 AM

曹洪伟

白话告诉你大模型到底是怎么工作的

图片本文转载自微信公众号「程序反思录」，作者程序反思录。转载本文请联系程序反思录公众号。前言2022年底“大模型”在国内突然遍地开花，不管你身处什么行业，都或多或少听说或使用过大模型相关的工具，也听说过大模型训练是一件超级烧钱的事情。

12/9/2024 9:55:25 AM

程序反思录

o1被曝“心机深”：逃避监督还会撒谎，骗人能力一骑绝尘

o1满血版刚发布，就被曝：骗人技能也拉满了。具体行为包括但不限于，在回答中故意引入微小错误、试图关闭监督机制……甚至在人类追问其是否诚实时，还会继续撒谎说自己啥坏事也没干。这项最新研究，来自AI安全研究机构Apollo Research。

12/9/2024 8:00:00 AM

枫清科技高雪峰：从数据到知识，跨越生成式AI与决策智能间的鸿沟

12 月 5 日，“2024 中国生成式 AI 大会”在上海开幕，全球 AI 领域的顶尖专家、行业领袖与技术创新者汇聚一堂。会上，枫清科技（Fabarta）创始人兼 CEO 高雪峰深入探讨了人工智能在企业智能化转型中的关键作用。高雪峰指出，随着 AI 技术的不断进步，企业转型已经进入一个全新阶段。

12/6/2024 5:33:00 PM

晓楠

游戏bug帮大模型学物理！准确率超GPT4o近四个百分点

融合物理知识的大型视频语言模型PhysVLM，开源了！它不仅在 PhysGame 基准上展现出最先进的性能，还在通用视频理解基准上（Video-MME, VCG）表现出领先的性能。在这项研究之前，想让AI像人类儿童一样，通过观察世界理解基本的物理常识，是一个主要挑战。

12/6/2024 2:22:15 PM

1-bit大模型还能再突破！新一代BitNet架构启用4位激活值

量化到1 bit的LLM还能再突破？这次，他们对激活值下手了！近日，BitNet系列的原班人马推出了新一代架构：BitNet a4.8，为1 bit大模型启用了4位激活值：图片论文地址：，激活值量化通常是比较难办的。

12/6/2024 7:17:07 AM

新智元

最真实大模型编程评估！字节开源FullStack Bench，首次全覆盖超11类现实编程场景

代码大模型越来越卷，评估AI编程水平的“考卷”也被迫升级。 12月5日，字节豆包大模型团队开源最新代码大模型评估基准FullStack Bench，在业界首次囊括编程全栈技术中超11类真实场景，覆盖16种编程语言，包含3374个问题，相比此前基准，可以更有效地评估大模型在现实世界中的代码开发能力。代码评估基准是衡量大模型编程能力的标准工具，也是推动模型优化的关键驱动力。

12/5/2024 3:46:00 PM

新闻助手

企业智能体：为AI投资带来丰厚回报

基于AI的智能体当下可谓风头正劲。最近几个月来，这个话题也已渗透到不少技术供应商的宣传和营销当中，包括Salesforce、Microsoft、ServiceNow、SAP、亚马逊云科技以及谷歌。从多方面来讲，人们对AI智能体的关注有其道理：智能体代表着生成式AI的下一个发展阶段，有望进一步提高AI的自主性水平。

12/5/2024 2:50:31 PM

英伟达提出全新Star Attention，10倍加速LLM推理！登顶Hugging Face论文榜

当下的手机及AIPC中都会安装本地大模型，然而上下文长度增加，推理时的计算成本也会显著增长。最明显的一个后果就是，用户输入问题后需要等待很久才能看到结果。为此，已有多种优化方案提出，例如Flash Attention，而11月26日英伟达提出的Star Attention机制，可用于提升Transformer模型在处理长序列时的效率和准确性。

12/5/2024 1:50:00 PM

新智元

英伟达提出全新 Star Attention：10 倍加速大语言模型推理，登顶 Hugging Face 论文榜

大模型如今已具有越来越长的上下文，而与之相伴的是推理成本的上升。英伟达最新提出的 Star Attention，能够在不损失精度的同时，显著减少推理计算量，从而助力边缘计算。

12/5/2024 12:32:54 PM

清源

DeepMind大模型再登Nature：8分钟预测15日天气，准确度超顶尖物理模型，已开源

DeepMind大模型再登上Nature——气象预测大模型GenCast，8分钟内完成15天的预测，而且不管常规还是极端天气都能分析。在97.2%的场景中，GenCast的表现都超过了全球顶尖的中期天气预报系统ENS。不同于DeepMind之前推出的GraphCast的确定性预测，GenCast关注的是各种天气情况的概率。

12/5/2024 12:26:53 PM

AWS宣布新应用市场Amazon Bedrock上线100多个AI模型

AWS正在通过Amazon Bedrock服务向AI应用开发人员提供更多的大型语言模型，同时增强该平台的优化推理工作负载和为他们提供所需数据的能力。 AWS在年度盛会AWS re:Invent上发布的最新公告中包括了推出新的Amazon Bedrock Marketplace，这个主要门户将让开发人员可以访问100多个最强大的大型语言模型，其中包括一些只能在那里找到的大型语言模型。 Amazon .

12/5/2024 11:01:05 AM

新瓜不断！2024NeurIPS最佳论文，花落字节起诉的实习生

时隔两个月，字节模型遭攻击事件又有新后续。今年10月份，字节商业化内部模型商业化内部模型训练遭实习生攻击一事闹得满城风雨，后这位名为田柯宇的实习生便被开除并被要求赔偿字节的侵权损失800万元及合理支出2万元。本以为这个瓜会以字节的“雷霆手段”告一段落，没想到就在刚刚，事件迎来了大扭转。

12/4/2024 2:31:00 PM

郑佳美

“云计算一哥”一口气发布六个大模型、3nm芯片！多模态还要搞Any-to-Any

就在刚刚，云计算一哥亚马逊云科技，在大模型这件事儿上搞了波大的——亚马逊CEO Andy Jassy亲自站台re:Invent24，发布自家新款AI多模态系列大模型，名曰Amazon Nova。而且是一口气涵盖文本对话、图片生成、视频生成，甚至直接吐露一个小目标：将来我们不仅要Speech to Speech，更要Any-to-Any！整体而言，Amazon Nova系列中的所有模型，均以功能和尺寸来划分。

12/4/2024 2:07:42 PM

资讯热榜

企业级模型推理部署工具vllm使用指南 - 部署最新deepseek-v3-0324模型上海AI实验室开源InternVL3系列多模态大型语言模型 50组多风格提示词，全面测评Midjourney V7生图效果！全日程揭晓！ICLR 2025论文分享会我们北京见斯坦福2025 AI指数出炉！中美AI对决差距仅剩0.3%，DeepSeek领衔 5分钟直出46页论文！谷歌Deep Research完爆OpenAI，最强Gemini 2.5加持击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！ ChatGPT重大更新，能翻出所有历史对话，网友被AI聊破防了

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D AI设计 Anthropic 机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习苹果模态 AI视频驾驶文本 xAI 搜索人形机器人大语言模型 Copilot 神器推荐 LLaMA 字节跳动具身智能 Claude 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练