AI

Kimi 16B胜GPT-4o！开源视觉推理模型：MoE架构，推理时仅激活2.8B

刚刚，Kimi团队上新了！开源轻量级视觉语言模型Kimi-VL及其推理版Kimi-VL-Thinking，多模态和推理双双拿捏。按照Kimi官方的说法，其关键亮点如下：都是基于MoE架构，总参数为16B，但推理时仅激活2.8B；具备强大的多模态推理能力（媲美参数大10倍的模型）和Agent能力；支持128K上下文窗口；采用相对较为宽松的MIT许可证。

4/11/2025 9:10:00 AM

量子位

十大步骤详解Spring AI MCP机制底层实现，小白误入！

MCP分为MCP Client和MCP Server：MCP Client负责进行工具发现和工具调用MCP Server负责提供工具和工具执行总体流程图图片十大步骤详解第一步，MCP Client接收用户的问题，比如“今天是几月几号”。第二步，MCP Client发送tools/list请求给MCP Server进行工具发现。利用Spring AI开发的MCP Server，可以利用@Tool注解定义工具，比如：图片并利用MethodToolCallbackProvider提供出去：在MCP Server的MpcServerAutoConfiguration自动配置类中定义了一个McpSyncServer的Bean，它会依赖注入ListToolCallbackProvider，这样McpSyncServer中就拿到了MCP Server中定义的所有Tools（调用ToolCallbackProvider的getToolCallbacks()即可拿到）。

4/11/2025 9:01:37 AM

IT周瑜

字节开源新生图模型：一个模型统一所有生图任务，多主体融合效果SOTA

利用字节团队魔改的FLUX模型，可以直接把多个参考主体放进一张图了。字节团队以FLUX为基础模型，提出了新的生图模型UNO，统一了图像生成任务中不同输入条件的处理。无论是单主体进行风格变换，还是不同物体的融合，UNO都能直接搞定。

4/11/2025 9:00:00 AM

量子位

有了MCP，AI不仅更完整，还更实用了

互联网刚诞生时，普通人对它的印象只是能收发电子邮件。智能手机刚出现时，很多人觉得不过是个能打电话的小电脑。当AI大模型横空出世，大家惊叹于它超强的对话能力，却难以想象它能做什么实际工作。

4/11/2025 8:45:00 AM

OpenAI 悄悄更新 ChatGPT，Plus / Pro 订阅用户可享全局对话内容记忆功能

OpenAI 今天发文宣布悄悄为旗下 ChatGPT 进行更新，目前订阅了 Plus 和 Pro 级别用户可以使用“经过改进的上下文记忆功能”。

4/11/2025 6:42:19 AM

漾仔

2025年CIO的优先事项：掌握AI，确保未来

在BrightTALK CIO峰会上，七位IT和技术专家分享了实用策略和最佳实践，以供希望在这个动荡但又充满机遇的商业时代导航并了解2025年CIO首要任务的IT领导者参考。证明AI投资的投资回报率：构建用例供应链随着AI应用的普及，确定能够提供切实商业价值的用例是2025年CIO的一项关键优先事项。在这一领域取得成功需要一种战略方法，以识别和利用能够显著改善底线表现的AI举措。

4/11/2025 12:30:00 AM

Ana

商汤大装置发放“1亿代金券”，全栈赋能场景落地

2025年4月10日，商汤科技SenseTime举办2025技术交流日，发布商汤大装置SenseCore 2.0，以更灵活、敏捷、可靠的特性赋能企业，推动AI基础设施与应用开发及行业需求深度融合。同时，商汤科技宣布将发放“1亿代金券”，专项支持行业伙伴协同并进，加速产业智能化升级，共创AI新高度。该计划聚焦具身智能、AIGC等多个前沿领域，通过多维度的精准扶持，为企业提供从专家咨询到模型训练、推理验证的全流程AI服务支持，打造"高效率、低成本、端到端"的一站式赋能方案。

4/10/2025 5:39:00 PM

新闻助手

谷歌推出 Vertex AI Media Studio 文生视频套件：自动化包办画面渲染、旁白、配乐等

谷歌今天（4 月 10 日）推出 Vertex AI Media Studio 平台，该套件支持文本指令生成完整视频内容。

4/10/2025 1:25:15 PM

故渊

UC伯克利华人开源14B「o3-mini」，代码版R1突袭OpenAI王座！

OpenAI o1/o3-mini级的推理模型，竟被抢先开源了？刚刚，来自UC伯克利和Together AI的联合团队，重磅推出了一款完全开源的代码推理模型——DeepCoder-14B-Preview。现在，只需要14B就可以拥有一个媲美o3-mini的本地模型，并且完全免费！

4/10/2025 10:02:43 AM

新智元

字节最新人像视频生成模型DreamActor-M1，推特关注超百万！即梦AI即将上线

还记得前段时间字节跳动备受关注的数字人技术Omnihuman-1吗？最近，这支团队一项基于DiT架构的可控人像视频生成技术DreamActor-M1，一经发布，又在推特上引起了超百万量级的关注——仅需一张静态照片和一段驱动视频，便可生成高质量、达到电影级别的视频，将人像视频生成的表现力提升至全新水平！左右滑动查看项目网页：：，还能精准捕捉并迁移驱动视频中的动作和表情，呈现出高度逼真的效果，极大地简化了现有的动作捕捉、角色动画以及内容创作流程。

4/10/2025 9:54:40 AM

新智元

谷歌最新AI芯片打平英伟达B200，专为推理模型打造，最高配每秒42500000000000000000次浮点运算

谷歌首款AI推理特化版TPU芯片来了，专为深度思考模型打造。代号Ironwood，也就是TPU v7，FP8峰值算力4614TFlops，性能是2017年第二代TPU的3600倍，与2023年的第五代TPU比也有10倍。（为什么不对比第六代，咱也不知道，咱也不敢问。

4/10/2025 9:43:01 AM

量子位

“谷歌版MCP”来了！开源A2A，不同厂商Agent也能协作

刚刚，“谷歌版MCP”来了！谷歌推出A2A协议，即Agent2Agent，能让AI Agent在不同生态系统间安全协作，而无需考虑框架或供应商。不同平台构建的AI Agent之间可以进行通信、发现彼此的能力、协商任务并开展协作，企业可通过专业Agent团队处理复杂工作流。

4/10/2025 9:42:51 AM

剪枝60%不损性能！上海AI Lab提出高斯剪枝新方法，入选CVPR 2025

三维高斯泼溅（3D Gaussian Splatting）使得实时高质量渲染成为可能，是当前3D视觉领域最常用的算法之一。问题在于，基于显示高斯单元的表示方式，尽管可以高效溅射和光栅化，其密集化和优化过程却往往会生成冗余的高斯点，导致单个重建场景可能包含数百万个高斯点。这不仅降低了训练和渲染速度（本可能更快），还导致显著的内存消耗。

4/10/2025 9:38:37 AM

量子位

芯片设计效率提升2.5倍，中科大华为诺亚联合，用GNN+蒙特卡洛树搜索优化电路设计 | ICLR2025

芯片设计是现代科技的核心，逻辑优化（Logic Optimization, LO）作为芯片设计流程中的关键环节，其效率直接影响着芯片设计的整体性能。然而，传统逻辑优化算子由于存在大量无效和冗余的变换，导致优化过程耗时较长，成为制约芯片设计效率的主要瓶颈。为解决这一挑战，中科大王杰教授团队（MIRALab）和华为诺亚方舟实验室（HuaweiNoah’sArkLab）联合提出了基于神经符号函数挖掘的高效逻辑优化方法，显著提升传统关键逻辑优化算子运行效率最高达2.5倍。

4/10/2025 9:19:52 AM

量子位

首个统一多模态模型评测标准，DeepSeek Janus理解能力领跑开源，但和闭源还有差距

统一多模态大模型（U-MLLMs）逐渐成为研究热点，近期GPT-4o，Gemini-2.0-flash都展现出了非凡的理解和生成能力，而且还能实现跨模态输入输出，比如图像文本输入，生成图像或文本。相比传统的多模态模型（比如 GPT-4V 或 DALL·E 3），这类模型在任务适应性和灵活性上更具优势。然而，当前研究领域还存在几个突出的问题：1.

4/10/2025 9:15:00 AM

量子位

李飞飞团队提出世界模型基准：“世界生成”能力迎来统一评测，3D/4D/视频模型同台PK

世界模型领域最新进展，要比拼“世界生成”了。李飞飞吴佳俊团队提出了全面评测基准WorldScore，涵盖了三大类评估指标，动态静态都有涉及，其数据集中包含了3000个测试样例。并且，WorldScore将3D场景生成、4D场景生成和视频生成三类模型的评估，统一到了一起。

4/10/2025 9:10:00 AM

量子位

GPT开山一作，本科学历入职前CTO初创！OpenAI痛失「爱因斯坦级天才」

被Ilya感谢过，被奥特曼誉为「爱因斯坦级的天才」，在OpenAI更是「想要什么就给什么」——即便如此，去年12月，Alec Radford还是选择了离开。直到昨天，他的去向才确定。据Thinking Machine Lab官网更新，OpenAI前核心成员Alec Radford和Bob McGrew将担任公司顾问（Advisors）。

4/10/2025 9:00:00 AM

新智元

谷歌 AI 编程助手 Gemini Code Assist 新增“代理”功能，可多步骤完成复杂任务

谷歌在Cloud Next大会上宣布AI编程助手Gemini Code Assist新增代理功能，可多步骤完成复杂编程任务，如根据文档创建应用或转换代码语言。同时支持Android Studio等环境，但用户仍需亲自审查代码确保安全。#AI编程助手##谷歌云#

4/10/2025 8:50:15 AM

远洋

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果人形机器人深度学习 AI视频模态 xAI 驾驶字节跳动文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型

AI