理论

科学家用GNN进行不确定性量化，实现高效的分子设计，登Nature子刊

题图来源：AI生成编辑 | 白菜叶在广阔的化学空间中优化分子设计面临着独特的挑战，尤其是在领域转移的情况下保持预测准确性。在最新的研究中，台湾大学（National Taiwan University）的研究人员整合了不确定性量化 (UQ)、定向信息传递神经网络 (D-MPNN) 和遗传算法 (GA) 来解决这些挑战。他们系统地评估了 UQ 增强型 D-MPNN 是否能够有效优化广泛、开放的化学空间，并确定了最有效的实施策略。

4/10/2025 1:11:00 PM

ScienceAI

模态编码器 | 恺明大神的MAE--掩码自编码器

恺明大神在2021年提出掩码自编码器（MAE），一种简单的自监督学习方法，通过随机掩盖输入图像的部分区域并重建缺失的像素。主要研究动机如下：数据需求与过拟合问题：深度学习模型，尤其是视觉领域的模型，需要大量数据来避免过拟合。自然语言处理（NLP）领域通过自监督预训练（如BERT）成功解决了这一问题，但在计算机视觉领域，类似的自监督学习方法发展相对滞后。

4/10/2025 11:52:55 AM

UC伯克利华人开源14B「o3-mini」，代码版R1突袭OpenAI王座！

OpenAI o1/o3-mini级的推理模型，竟被抢先开源了？刚刚，来自UC伯克利和Together AI的联合团队，重磅推出了一款完全开源的代码推理模型——DeepCoder-14B-Preview。现在，只需要14B就可以拥有一个媲美o3-mini的本地模型，并且完全免费！

4/10/2025 10:02:43 AM

新智元

字节最新人像视频生成模型DreamActor-M1，推特关注超百万！即梦AI即将上线

还记得前段时间字节跳动备受关注的数字人技术Omnihuman-1吗？最近，这支团队一项基于DiT架构的可控人像视频生成技术DreamActor-M1，一经发布，又在推特上引起了超百万量级的关注——仅需一张静态照片和一段驱动视频，便可生成高质量、达到电影级别的视频，将人像视频生成的表现力提升至全新水平！左右滑动查看项目网页：：，还能精准捕捉并迁移驱动视频中的动作和表情，呈现出高度逼真的效果，极大地简化了现有的动作捕捉、角色动画以及内容创作流程。

4/10/2025 9:54:40 AM

新智元

谷歌最新AI芯片打平英伟达B200，专为推理模型打造，最高配每秒42500000000000000000次浮点运算

谷歌首款AI推理特化版TPU芯片来了，专为深度思考模型打造。代号Ironwood，也就是TPU v7，FP8峰值算力4614TFlops，性能是2017年第二代TPU的3600倍，与2023年的第五代TPU比也有10倍。（为什么不对比第六代，咱也不知道，咱也不敢问。

4/10/2025 9:43:01 AM

量子位

“谷歌版MCP”来了！开源A2A，不同厂商Agent也能协作

刚刚，“谷歌版MCP”来了！谷歌推出A2A协议，即Agent2Agent，能让AI Agent在不同生态系统间安全协作，而无需考虑框架或供应商。不同平台构建的AI Agent之间可以进行通信、发现彼此的能力、协商任务并开展协作，企业可通过专业Agent团队处理复杂工作流。

4/10/2025 9:42:51 AM

剪枝60%不损性能！上海AI Lab提出高斯剪枝新方法，入选CVPR 2025

三维高斯泼溅（3D Gaussian Splatting）使得实时高质量渲染成为可能，是当前3D视觉领域最常用的算法之一。问题在于，基于显示高斯单元的表示方式，尽管可以高效溅射和光栅化，其密集化和优化过程却往往会生成冗余的高斯点，导致单个重建场景可能包含数百万个高斯点。这不仅降低了训练和渲染速度（本可能更快），还导致显著的内存消耗。

4/10/2025 9:38:37 AM

量子位

英伟达华人AI版《猫和老鼠》爆火全网，60秒经典泪目！仅靠Transformer新增一层

「猫和老鼠」，这部创作于1940年的动画，现在已经85岁了。如今，只需一个提示，不用任何剪辑，AI便可「无限续杯」童年经典，继续延续它的魅力。你没有看过的《猫和老鼠》情节画面，由AI制作来自英伟达、斯坦福、UCSD、UC伯克利以及UT Austin研究团队，通过Test-Time Training构建了一个「一分钟视频」生成器。

4/10/2025 9:26:56 AM

芯片设计效率提升2.5倍，中科大华为诺亚联合，用GNN+蒙特卡洛树搜索优化电路设计 | ICLR2025

芯片设计是现代科技的核心，逻辑优化（Logic Optimization, LO）作为芯片设计流程中的关键环节，其效率直接影响着芯片设计的整体性能。然而，传统逻辑优化算子由于存在大量无效和冗余的变换，导致优化过程耗时较长，成为制约芯片设计效率的主要瓶颈。为解决这一挑战，中科大王杰教授团队（MIRALab）和华为诺亚方舟实验室（HuaweiNoah’sArkLab）联合提出了基于神经符号函数挖掘的高效逻辑优化方法，显著提升传统关键逻辑优化算子运行效率最高达2.5倍。

4/10/2025 9:19:52 AM

量子位

用梯度下降求解整数规划，中科大等提出无监督训练整数规划求解器新范式 | ICLR 2025 Spotlight

无监督学习训练整数规划求解器的新范式来了。中国科学技术大学王杰教授团队（MIRA Lab）提出了一种全新的整数规划求解方法——DiffILO（Differentiable Integer Linear Programming Optimization），相关论文已被人工智能顶级国际会议ICLR 2025接收为Spotlight。结果显示：与现有主流的监督学习方法对比，DiffILO不仅显著加快训练速度，还能生成更高质量的可行解。

4/10/2025 9:15:03 AM

量子位

首个统一多模态模型评测标准，DeepSeek Janus理解能力领跑开源，但和闭源还有差距

统一多模态大模型（U-MLLMs）逐渐成为研究热点，近期GPT-4o，Gemini-2.0-flash都展现出了非凡的理解和生成能力，而且还能实现跨模态输入输出，比如图像文本输入，生成图像或文本。相比传统的多模态模型（比如 GPT-4V 或 DALL·E 3），这类模型在任务适应性和灵活性上更具优势。然而，当前研究领域还存在几个突出的问题：1.

4/10/2025 9:15:00 AM

量子位

李飞飞团队提出世界模型基准：“世界生成”能力迎来统一评测，3D/4D/视频模型同台PK

世界模型领域最新进展，要比拼“世界生成”了。李飞飞吴佳俊团队提出了全面评测基准WorldScore，涵盖了三大类评估指标，动态静态都有涉及，其数据集中包含了3000个测试样例。并且，WorldScore将3D场景生成、4D场景生成和视频生成三类模型的评估，统一到了一起。

4/10/2025 9:10:00 AM

量子位

GPT开山一作，本科学历入职前CTO初创！OpenAI痛失「爱因斯坦级天才」

被Ilya感谢过，被奥特曼誉为「爱因斯坦级的天才」，在OpenAI更是「想要什么就给什么」——即便如此，去年12月，Alec Radford还是选择了离开。直到昨天，他的去向才确定。据Thinking Machine Lab官网更新，OpenAI前核心成员Alec Radford和Bob McGrew将担任公司顾问（Advisors）。

4/10/2025 9:00:00 AM

新智元

三大AI超能力：分类式AI、预测式AI和生成式AI

译者 | 晶颜审校 | 重楼了解分类、预测和生成式AI之间的区别——它们的主要功能，以及如何使用它们对数据进行分类、趋势预测和内容创建。人工智能（AI）是一个潜能巨大且不断发展的领域，是无数现代技术的核心。为了驾驭它的复杂性，将AI划分为三个核心“家族”是大有裨益的，它们每个“家族”都有自己独特的目的和“个性”：分类式AI：作为数据整理的关键工具，它善于将输入信息标记为既定类别。

4/10/2025 8:33:05 AM

晶颜

小型推理模型的崛起：紧凑型人工智能能否匹敌GPT级推理能力？

译者 | 涂承烨审校 | 重楼近年来，人工智能领域一直沉迷于大型语言模型（LLMs）的成功。这些模型最初设计用于自然语言处理，如今已演变为强大的推理工具，能够通过类人类的逐步思考过程解决复杂问题。然而，尽管LLMs具备卓越的推理能力，它们仍存在显著缺陷，包括高昂的计算成本和缓慢的部署速度，这使得它们在移动设备或边缘计算等资源受限的实际场景中难以应用。

4/10/2025 8:23:11 AM

涂承烨

OpenCV 应用中九个惊艳的图像处理实例

大家好！今天我们将一起探索OpenCV中的9个实用且惊艳的图像处理技术。无论你是初学者还是有一定基础的朋友，这篇文章都会让你收获满满。

4/10/2025 8:20:00 AM

手把手PythonAI编程

十款能几乎取代整个开发团队的 AI 工具

几年前，如果你告诉我一些工具能够取代整个开发团队 70% 的工作量，我一定会笑出声。但如今，我们已经进入了 2025 年，AI 已经成为独立开发者、个人创客和技术创作者们的无形但强大的合伙人。今天，带你了解这 10 款 AI 工具，它们正在替代开发者、设计师和测试人员完成大部分繁重的工作。

4/10/2025 8:11:06 AM

dev

使用Argo Workflows微调大语言模型

本文整理自：KCD 2025 Beijing: Fine-tuning LLM with Argo Workflows: A Kubernetes-native Approach1.在大语言模型上微调的挑战图片微调就是将特定的领域数据赋予到基础的大模型中进行特定的调优。为什么要这样做呢，这是因为基础的大语言模型的设计较为通用，像一颗未经雕琢的宝石/百科全书，能够给我们比较通用全面的回答，当面对一些特定领域的问题，比如金融，健康等领域，回答不够精细化。通过微调，可以让模型在特定领域达到出类拔萃的效果。

4/10/2025 7:59:51 AM

田双坤

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用 OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 本地部署DeepSeek+DiFy平台构建智能体应用 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人 xAI 驾驶文本搜索字节跳动大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练 DeepMind