模型

视觉SSL终于追上了CLIP！Yann LeCun、谢赛宁等新作，逆转VQA任务固有认知

在视觉问题解答（VQA）等多模态环境中，当前视觉自监督学习（SSL）的表现还比不上语言图像预训练（CLIP）。这种差距通常归因于语言监督引入的语义，尽管视觉 SSL 模型和 CLIP 模型通常在不同的数据上进行训练。在最近的一项研究中，Yann LeCun、谢赛宁等研究者探讨了一个基本问题：语言监督对于多模态建模的视觉表征预训练是否必要？

4/3/2025 11:11:50 AM

机器之心

10倍吞吐提升无损性能：多模态适用的KV cache量化策略来了，即插即用无需改原模型

在InternVL-2.5上实现10倍吞吐量提升，模型性能几乎无损失。最新1-bit多模态大模型KV cache量化方案CalibQuant来了。通过结合后缩放和校准方法，可显著降低显存与计算成本，无需改动原模型即可直接使用。

4/3/2025 10:29:06 AM

量子位

OpenAI官方基准测试：承认Claude遥遥领先（狗头）

OpenAI承认Claude是最好的了（狗头）。刚刚开源的新基准测试PaperBench，6款前沿大模型驱动智能体PK复现AI顶会论文，新版Claude-3.5-Sonnet显著超越o1/r1排名第一。与去年10月OpenAI考验Agent机器学习代码工程能力MLE-Bnch相比，PaperBench更考验综合能力，不再是只执行单一任务。

4/3/2025 10:21:32 AM

量子位

动态场景，开放文本查询！清华哈佛联合建模4D语言场 | CVPR 2025

构建支持开放词汇查询的语言场在机器人导航、3D场景编辑和交互式虚拟环境等众多应用领域展现出巨大的潜力。尽管现有方法在静态语义场重建方面已取得显著成果，但如何建模4D语言场（4D language fields）以实现动态场景中时间敏感且开放式的语言查询，仍面临诸多挑战，动态世界的语义建模对于推动许多实际应用的落地至关重要。近日，来自清华大学、哈佛大学等机构的研究团队提出了一种创新方法4D LangSplat，基于动态三维高斯泼溅技术，成功重建了动态语义场，能够高效且精准地完成动态场景下的开放文本查询任务。

4/3/2025 10:12:30 AM

新智元

DeepMind核心论文禁发6个月，Transformer级研究锁死！CEO：不满意就走人

DeepMind研究成果，已被按下暂停键。 FT爆料称，由Demis Hassabis领导的谷歌AI部门，正对研究论文发布实施更严格的审查机制。总结来说，有这么几种论文不发：会被竞争对手利用的创新成果让Gemini模型相形见绌的研究而那些涉及到GenAI的「战略性研究」，更是有着长达6个月「禁发期」。

4/3/2025 10:03:29 AM

新智元

75年后，图灵测试终被GPT-4.5破解！73%人类被骗过，彻底输给AI

什么？ AI竟然通过了标准的三方图灵测试，而且还是拿出了实打实证据的那种！来自加州大学圣迭戈分校的研究人员系统评估了4个AI系统，证明大语言模型（LLM）通过了图灵测试。

4/3/2025 10:00:52 AM

新智元

震惊！用 Redis+AI 模型实现秒级实时风控，这波操作太秀了

兄弟们，有没有遇到过这种情况：凌晨三点在某东抢购显卡，刚提交订单就提示"系统繁忙"，转头发现黄牛已经在海鲜市场挂出同款；扫码支付时突然弹出风险提示，非要验证人脸识别；更绝的是某银行APP，刚输完密码就收到短信提醒："检测到您的账户存在异常操作"——但此时您根本没动过手机。这些让人又爱又恨的操作背后，都藏着一个叫"实时风控"的技术妖怪。今天咱们就来扒一扒，这个妖怪是如何用 Redis 和 AI 模型在 0.1 秒内完成逆天操作的。

4/3/2025 9:30:56 AM

儒猿团队

双人动作生成新SOTA！浙大提出TIMotion框架 | CVPR 2025

双人动作生成新SOTA！针对Human-human motion generation问题，浙江大学提出了一种对双人运动序列进行时序和因果建模的架构TIMotion，论文已发表于CVPR 2025。具体来说，通过分别利用运动序列时间上的因果关系和两人交互过程中的主动被动关系，TIMotion设计了两种有效的序列建模方式。

4/3/2025 9:27:44 AM

量子位

CVPR 2025：单图秒变专业影棚，几何/材质/光影全搞定，数据训练代码全开源

如何从一张普通的单幅图像准确估计物体的三维法线和材质属性，是计算机视觉与图形学领域长期关注的难题。这种单图逆渲染任务存在严重的不确定性，传统方法通常需要多角度或多光源的拍摄条件，难以在日常场景中普遍应用。近日，由香港中文大学、上海人工智能实验室及南洋理工大学的研究团队联合研发的论文《Neural LightRig: Unlocking Accurate Object Normal and Material Estimation with Multi-Light Diffusion》。

4/3/2025 9:25:53 AM

量子位

美国CS专业卷上天，满分学霸惨遭藤校全拒！父亲大受震撼引爆热议

美国大学CS专业，卷到何种程度了？最近，一位父亲痛心发帖：他的儿子成绩全校第一近乎完美——SAT接近满分、18门AP课程全部5分，却在申请季被所有常春藤名校拒绝。唯一伸来橄榄枝的，只有本州的马萨诸塞大学阿默斯特分校（UMass Amherst）。

4/3/2025 8:50:00 AM

新智元

GenAI遇上SLM：边缘计算的新纪元

小型语言模型（SLM）在效率、隐私和适应性之间实现了卓越的平衡，使其成为各种应用的理想选择。译自GenAI Meets SLMs: A New Era for Edge Computing，作者 Pankaj Mendki。让我们想象一个场景：一家医院的患者拥有自己的医疗记录。

4/3/2025 4:21:00 AM

岱军

准确率达85%，苏大、大连理工开发多模态特征融合ML，预测工程纳米材料诱导的慢性损伤

编辑 | 白菜叶纳米颗粒引起的慢性损伤（例如纤维化和致癌作用）引起了公众健康担忧，需要在危害识别中迅速评估。尽管计算机分析通常用于化学品风险评估，但由于纳米生物流体和纳米亚细胞器等多个界面的复杂相互作用，预测体内慢性纳米毒性仍然具有挑战性。苏州大学、大连理工大学的研究人员开发了一个多模态特征融合分析框架来预测金属氧化物纳米颗粒（MeONP）在雌性小鼠中的纤维化潜力。

4/2/2025 2:08:00 PM

ScienceAI

预测精度达93%，个人电脑可部署，科学家开发Transformer新方法预测结合蛋白

编辑丨&结合蛋白通过与特定分子（如 DNA、RNA 或肽）选择性相互作用来调节各种细胞过程，它们能以高特异性识别和结合靶分子，这使得它们在信号传导、转运和酶活性功能上有着至关重要的地位。当前，用于鉴定蛋白质结合肽的传统方法效率低下且性价比极低，而基于序列的方法因过于狭隘地关注近端序列特征而忽略了结构数据，导致没有一种良好的方式进行结合蛋白预测。阿富汗呼罗珊大学（Khurasan University）领导了一项研究，推出一款名为 Deep-ProBind 的强大预测模型，旨在通过整合序列和结构信息对蛋白质结合位点进行分类。

4/2/2025 2:06:00 PM

ScienceAI

免费的「网页版Cursor」！新版DeepSeek-V3加持，秒秒钟编出一个游戏/APP

借助新版DeepSeek-V3，任何人现在可以一次性创建任何应用或游戏了——而且是一边开发一边看效果的那种。在Hugging Face中，这个名为DeepSite的应用火了。有网友直呼，这不就是网页版“Cursor”！

4/2/2025 9:45:00 AM

量子位

Vibe Agent: Token成本直降90%，会对话就能创造专属本地Agent

刚刚，Local AI 领域的 Libra 团队发布了一段最新技术演示视频，展示了用户通过自然语言交互直接生成 Agent，并利用本地消费级算力支持 Agent 进行长程 (Long-Horizon) 推理，最终完成复杂任务。 Libra 构建的本地化、即时响应、自我规划方案为行业开辟了一条全新的长程推理 Agent 技术路径，实现了从手工 Agent 设计向端到端 In-Context Vibe Agent 生成范式演进。从官网信息来看，Libra 的技术方案直接回应了制约 Agent 技术普及的两大关键瓶颈：一方面，当前热门 Agent 产品如 Cursor、Devin、Manus 等虽功能强大，但运行成本高昂 —— 专业评测显示单次使用 Manus 可消耗约 1000k Token（起步 2 美元）。

4/2/2025 9:19:00 AM

机器之心

吉卜力太火，奥特曼求饶！GPT-4o免费生图登王座，设计师直呼天塌了

OpenAI再次火爆全网，而且接近一周了，GPT-4o带来的热潮还未停歇。现在免费用户也可以使用生图功能了，更多人涌进了GPT-4o。显然，靠吉卜力图像形成的病毒式传播，让奥特曼和整个OpenAI团队都没想到。

4/2/2025 9:10:00 AM

新智元

超低成本复现QwQ！数学推理模型训练迎来RL暴击，数据代码模型全开源 | 蚂蚁&清华出品

用上这个开源框架，2天时间就能刷新7B数学推理纪录！蚂蚁清华联手开源的强化学习框架AReaL-boba，直接把推理模型训练带到了Next Level——训练成本下降的同时，训练速率、推理能力还大幅提升的那种。除了前面提到的7B模型，在32B模型上，只需两百美元、200条数据，就可以轻松复现QwQ-32B，就是数学推理能力媲美DeepSeek-R1，一战封神的那个。

4/2/2025 9:00:00 AM

量子位

中科大提出动作价值表征学习新方法，率先填补长期决策信息的缺失

在视觉强化学习中，许多方法未考虑序列决策过程，导致所学表征缺乏关键的长期信息的空缺被填补上了。来自中科大的研究人员在信息瓶颈（Information Bottleneck）框架下，提出了一种新颖的鲁棒动作价值表征学习方法ROUSER。作者从理论上证明了ROUSER能够使用学习到的鲁棒表征准确估计动作价值，从而避免了智能体在测试环境中的决策能力遭到削弱。

4/1/2025 9:32:00 AM

量子位

资讯热榜

企业级模型推理部署工具vllm使用指南 - 部署最新deepseek-v3-0324模型上海AI实验室开源InternVL3系列多模态大型语言模型全能且实用！实战测评谷歌最新模型Gemini 2.5 Pro 50组多风格提示词，全面测评Midjourney V7生图效果！ Deepseek 突破 AI 训练烧钱魔咒：1.2 万美元 1/525 成本 MT-Bench 跑分媲美 GPT-4o 全日程揭晓！ICLR 2025论文分享会我们北京见斯坦福2025 AI指数出炉！中美AI对决差距仅剩0.3%，DeepSeek领衔 5分钟直出46页论文！谷歌Deep Research完爆OpenAI，最强Gemini 2.5加持

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D AI设计 Anthropic 机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习模态苹果 AI视频驾驶文本搜索 xAI 人形机器人 Copilot 大语言模型神器推荐 LLaMA 字节跳动具身智能 Claude 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 架构