资讯列表

分类

标签

广电总局：广电视听智能体开发工具在短视频创作领域得到应用，将向全行业开源

国家广播电视总局今日发文称，国家广播电视总局广播电视科学研究院积极开展生成式人工智能技术应用研究，集成文本、图像、视频、音频等人工智能大模型，研发了广电视听智能体（AI Agent）开发工具，已完成 DeepSeek、阿里通义万相、腾讯混元、阶跃星辰等多个国产开源大模型的集成。

4/10/2025 5:28:22 PM

浩渺

马斯克 xAI 推出 Grok 3 / Mini 的 API 接口：百万词元输入 3 美元，输出 15 美元

Grok 3 API 目前支持的最大上下文窗口为 131,072 词元（约 9.75 万字词），与 xAI 今年 2 月所宣称的百万词元处理能力存在显著差距。

4/10/2025 5:22:43 PM

问舟

MoE模型已成新风口，AI基础设施竞速升级

因为基准测试成绩与实际表现相差较大，近期开源的 Llama 4 系列模型正陷入争议的漩涡之中，但有一点却毫无疑问：MoE（混合专家）定然是未来 AI 大模型的主流范式之一。从 Mixtral 到 DeepSeek 再到 Qwen2.5-Max 以及 Llama 4，越来越多的 MoE 架构模型正在进入世界最前沿模型之列，以至于英伟达也已开始针对 MoE 架构设计和优化自家的计算硬件。但是，MoE（尤其是大规模 MoE）也会给 AI 基础设施带来不一样的挑战。

4/10/2025 4:33:00 PM

机器之心

42.5 Exaflops：谷歌新TPU性能超越最强超算24倍，智能体协作协议A2A出炉

AI 算力又迎来了新的标杆。本周三，谷歌正式发布了旗下第七代张量处理单元（TPU）Ironwood。谷歌称，在大规模部署的情况下，这款 AI 加速器的计算能力能达到全球最快超级计算机的 24 倍以上。

4/10/2025 4:26:00 PM

机器之心

NoETL×大模型：Aloudata重构数据智能新范式，驱动企业决策革命

在当今数据驱动的时代，企业对于高效、智能的数据处理与分析需求日益增长。随着大模型的兴起，如DeepSeek等，数据智能领域正经历着前所未有的变革。 Aloudata大应科技创始人&CEO周卫林表示，企业的核心竞争力包括人才壁垒、技术壁垒以及资本壁垒。

4/10/2025 4:23:02 PM

CVPR 2025 | 2D 大模型赋能3D Affordance 预测，GEAL助力可泛化的3D场景可交互区域识别

GEAL 由新加坡国立大学的研究团队开展，第一作者为博士生鲁东岳，通讯作者为该校副教授 Gim Hee Lee，团队其他成员还包括孔令东与黄田鑫博士。主页：：：，如何让智能体理解并挖掘 3D 场景中可交互的部位（Affordance）对于机器人操作与人机交互至关重要。所谓 3D Affordance Learning，就是希望模型能够根据视觉和语言线索，自动推理出物体可供哪些操作、以及可交互区域的空间位置，从而为机器人或人工智能系统提供对物体潜在操作方式的理解。

4/10/2025 4:20:00 PM

机器之心

商汤日日新 SenseNova V6 多模态融合大模型发布

“商汤日日新 SenseNova V6”多模态融合大模型于今日发布，具备最长 64K 思维链、数理分析、多模态深度推理、全局记忆等能力，支持 10 分钟的视频推理及深度推理。

4/10/2025 4:16:29 PM

远洋

闭环端到端精度暴涨19.61%！华科&小米汽车联手打造自动驾驶框架ORION，代码将开源

近年来，端到端（End-to-End，E2E）自动驾驶技术不断进步，但在复杂的闭环交互环境中，由于其因果推理能力有限，仍然难以做出准确决策。虽然视觉 - 语言大模型（Vision-Language Model，VLM）凭借其卓越的理解和推理能力，为端到端自动驾驶带来了新的希望，但现有方法在 VLM 的语义推理空间和纯数值轨迹的行动空间之间仍然存在巨大鸿沟。除此之外，现有的方法常常通过叠加多帧的图像信息完成时序建模，这会受到 VLM 的 Token 长度限制，并且会增加额外的计算开销。

4/10/2025 4:08:00 PM

机器之心

谷歌 Veo 2 升级可生成更具电影感视频，文本、音频 AI 同步升级

谷歌为视频AI模型Veo 2推出修复、外扩等新功能，可自动移除干扰元素或扩展画面，支持电影技巧预设，提升视频编辑效率。同步更新的还有Imagen 3图像模型及音频AI工具。#谷歌AI# #视频生成技术#

4/10/2025 2:54:59 PM

远洋

大模型“自动修 bug”能力将提升，豆包团队开源首个多语言代码修复基准 Multi-SWE-bench

4 月 10 日消息，豆包大模型团队今日通过官方公众号宣布，首个多语言类 SWE 数据集 Multi-SWE-bench 现已正式开源，可用于评估和提升大模型“自动修 Bug”能力。在 SWE-bench 基础上，Multi-SWE-bench 首次覆盖 Python 之外的 7 种主流编程语言，是真正面向“全栈工程”的评测基准。其数据均来自 GitHub issue，历时近一年构建，以尽可能准确测评和提高大模型高阶编程智能水平。

4/10/2025 2:30:12 PM

清源

谷歌推出 Vertex AI Media Studio 文生视频套件：自动化包办画面渲染、旁白、配乐等

谷歌今天（4 月 10 日）推出 Vertex AI Media Studio 平台，该套件支持文本指令生成完整视频内容。

4/10/2025 1:25:15 PM

故渊

科学家用GNN进行不确定性量化，实现高效的分子设计，登Nature子刊

题图来源：AI生成编辑 | 白菜叶在广阔的化学空间中优化分子设计面临着独特的挑战，尤其是在领域转移的情况下保持预测准确性。在最新的研究中，台湾大学（National Taiwan University）的研究人员整合了不确定性量化 (UQ)、定向信息传递神经网络 (D-MPNN) 和遗传算法 (GA) 来解决这些挑战。他们系统地评估了 UQ 增强型 D-MPNN 是否能够有效优化广泛、开放的化学空间，并确定了最有效的实施策略。

4/10/2025 1:11:00 PM

ScienceAI

西湖大学郭天南解答AI虚拟细胞难题：在三重数据支持下的闭环学习系统

编辑丨&细胞是生命的基本单位，对于了解健康、衰老和疾病至关重要，是药物开发和合成生物学的重要研究对象。基于细胞的实验需要大量资源，且出现突变的概率相当高，直接导致了生物医学实验中难以复现的困境。通过数十亿年的进化，第一个碳基细胞出现在地球上，然而现如今借由虚拟技术，「硅基细胞」的发现与发展正在为科学界提供变革的机会。

4/10/2025 1:09:00 PM

ScienceAI

麻省理工研究：AI 实际上并不具备价值观

研究的合著者表示，要“对齐”AI系统，即“确保其行为符合预期且稳定可靠”可能比原先想法更加困难。合著者强调，当前的AI技术存在幻觉，并且具备模仿能力，这使得其行为变得不可预测。

4/10/2025 12:47:59 PM

清源

广东发布中小学 AI 教育方案：原则上 1-4 年级每学年不少于 6 课时

据南方日报今日报道，广东省新闻办与省教育厅在新闻发布会上正式发布广东推进中小学人工智能教育落地的“两素养 1 纲要”方案，明确中小学校的人工智能教育要求。

4/10/2025 12:29:37 PM

清源

王小川发布百川智能两周年全员信：强调专注医学方向并减少多余动作

王小川回顾了过去两年百川智能的成就与不足，并再次强调公司当前面向医疗领域的技术愿景和业务方向，及其“造医生-改路径-促医学”路径。

4/10/2025 12:24:27 PM

清源

得州大学奥斯汀分校开发新型 AI 智能体 Metamon：能像人一样玩宝可梦

据外媒ASCII今日报道，美国得克萨斯大学奥斯汀分校的 Yuke Zhu 助理教授及其团队于 4 月 10 日发布了一款能够像人类一样进行宝可梦对战的 AI 智能体“Metamon”。

4/10/2025 12:20:15 PM

清源

模态编码器 | 恺明大神的MAE--掩码自编码器

恺明大神在2021年提出掩码自编码器（MAE），一种简单的自监督学习方法，通过随机掩盖输入图像的部分区域并重建缺失的像素。主要研究动机如下：数据需求与过拟合问题：深度学习模型，尤其是视觉领域的模型，需要大量数据来避免过拟合。自然语言处理（NLP）领域通过自监督预训练（如BERT）成功解决了这一问题，但在计算机视觉领域，类似的自监督学习方法发展相对滞后。

4/10/2025 11:52:55 AM

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o OpenAI 发布“智能体构建实战指南”实用性文档（附文档资源）

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度人形机器人苹果深度学习 AI视频模态字节跳动 xAI 驾驶文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉大型语言模型训练