AI在线 AI在线

AI

Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B

刚刚,Kimi团队上新了! 开源轻量级视觉语言模型Kimi-VL及其推理版Kimi-VL-Thinking,多模态和推理双双拿捏。 按照Kimi官方的说法,其关键亮点如下:都是基于MoE架构,总参数为16B,但推理时仅激活2.8B;具备强大的多模态推理能力(媲美参数大10倍的模型)和Agent能力;支持128K上下文窗口;采用相对较为宽松的MIT许可证。
4/11/2025 9:10:00 AM
量子位

十大步骤详解Spring AI MCP机制底层实现,小白误入!

MCP分为MCP Client和MCP Server:MCP Client负责进行工具发现和工具调用MCP Server负责提供工具和工具执行总体流程图图片十大步骤详解第一步,MCP Client接收用户的问题,比如“今天是几月几号”。 第二步,MCP Client发送tools/list请求给MCP Server进行工具发现。 利用Spring AI开发的MCP Server,可以利用@Tool注解定义工具,比如:图片并利用MethodToolCallbackProvider提供出去:在MCP Server的MpcServerAutoConfiguration自动配置类中定义了一个McpSyncServer的Bean,它会依赖注入ListToolCallbackProvider,这样McpSyncServer中就拿到了MCP Server中定义的所有Tools(调用ToolCallbackProvider的getToolCallbacks()即可拿到)。
4/11/2025 9:01:37 AM
IT周瑜

字节开源新生图模型:一个模型统一所有生图任务,多主体融合效果SOTA​

利用字节团队魔改的FLUX模型,可以直接把多个参考主体放进一张图了。 字节团队以FLUX为基础模型,提出了新的生图模型UNO,统一了图像生成任务中不同输入条件的处理。 无论是单主体进行风格变换,还是不同物体的融合,UNO都能直接搞定。
4/11/2025 9:00:00 AM
量子位

有了MCP,AI不仅更完整,还更实用了

互联网刚诞生时,普通人对它的印象只是能收发电子邮件。 智能手机刚出现时,很多人觉得不过是个能打电话的小电脑。 当AI大模型横空出世,大家惊叹于它超强的对话能力,却难以想象它能做什么实际工作。
4/11/2025 8:45:00 AM

OpenAI 悄悄更新 ChatGPT,Plus / Pro 订阅用户可享全局对话内容记忆功能

OpenAI 今天发文宣布悄悄为旗下 ChatGPT 进行更新,目前订阅了 Plus 和 Pro 级别用户可以使用“经过改进的上下文记忆功能”。
4/11/2025 6:42:19 AM
漾仔

2025年CIO的优先事项:掌握AI,确保未来

在BrightTALK CIO峰会上,七位IT和技术专家分享了实用策略和最佳实践,以供希望在这个动荡但又充满机遇的商业时代导航并了解2025年CIO首要任务的IT领导者参考。 证明AI投资的投资回报率:构建用例供应链随着AI应用的普及,确定能够提供切实商业价值的用例是2025年CIO的一项关键优先事项。 在这一领域取得成功需要一种战略方法,以识别和利用能够显著改善底线表现的AI举措。
4/11/2025 12:30:00 AM
Ana

商汤大装置发放“1亿代金券”,全栈赋能场景落地

2025年4月10日,商汤科技SenseTime举办2025技术交流日,发布商汤大装置SenseCore 2.0,以更灵活、敏捷、可靠的特性赋能企业,推动AI基础设施与应用开发及行业需求深度融合。 同时,商汤科技宣布将发放“1亿代金券”,专项支持行业伙伴协同并进,加速产业智能化升级,共创AI新高度。 该计划聚焦具身智能、AIGC等多个前沿领域,通过多维度的精准扶持,为企业提供从专家咨询到模型训练、推理验证的全流程AI服务支持,打造"高效率、低成本、端到端"的一站式赋能方案。
4/10/2025 5:39:00 PM
新闻助手

谷歌推出 Vertex AI Media Studio 文生视频套件:自动化包办画面渲染、旁白、配乐等

谷歌今天(4 月 10 日)推出 Vertex AI Media Studio 平台,该套件支持文本指令生成完整视频内容。
4/10/2025 1:25:15 PM
故渊

UC伯克利华人开源14B「o3-mini」,代码版R1突袭OpenAI王座!

OpenAI o1/o3-mini级的推理模型,竟被抢先开源了? 刚刚,来自UC伯克利和Together AI的联合团队,重磅推出了一款完全开源的代码推理模型——DeepCoder-14B-Preview。 现在,只需要14B就可以拥有一个媲美o3-mini的本地模型,并且完全免费!
4/10/2025 10:02:43 AM
新智元

字节最新人像视频生成模型DreamActor-M1,推特关注超百万!即梦AI即将上线

还记得前段时间字节跳动备受关注的数字人技术Omnihuman-1吗? 最近,这支团队一项基于DiT架构的可控人像视频生成技术DreamActor-M1,一经发布,又在推特上引起了超百万量级的关注——仅需一张静态照片和一段驱动视频,便可生成高质量、达到电影级别的视频,将人像视频生成的表现力提升至全新水平! 左右滑动查看项目网页::,还能精准捕捉并迁移驱动视频中的动作和表情,呈现出高度逼真的效果,极大地简化了现有的动作捕捉、角色动画以及内容创作流程。
4/10/2025 9:54:40 AM
新智元

谷歌最新AI芯片打平英伟达B200,专为推理模型打造,最高配每秒42500000000000000000次浮点运算

谷歌首款AI推理特化版TPU芯片来了,专为深度思考模型打造。 代号Ironwood,也就是TPU v7,FP8峰值算力4614TFlops,性能是2017年第二代TPU的3600倍,与2023年的第五代TPU比也有10倍。 (为什么不对比第六代,咱也不知道,咱也不敢问。
4/10/2025 9:43:01 AM
量子位

“谷歌版MCP”来了!开源A2A,不同厂商Agent也能协作

刚刚,“谷歌版MCP”来了! 谷歌推出A2A协议,即Agent2Agent,能让AI Agent在不同生态系统间安全协作,而无需考虑框架或供应商。 不同平台构建的AI Agent之间可以进行通信、发现彼此的能力、协商任务并开展协作,企业可通过专业Agent团队处理复杂工作流。
4/10/2025 9:42:51 AM

剪枝60%不损性能!上海AI Lab提出高斯剪枝新方法,入选CVPR 2025

三维高斯泼溅(3D Gaussian Splatting)使得实时高质量渲染成为可能,是当前3D视觉领域最常用的算法之一。 问题在于,基于显示高斯单元的表示方式,尽管可以高效溅射和光栅化,其密集化和优化过程却往往会生成冗余的高斯点,导致单个重建场景可能包含数百万个高斯点。 这不仅降低了训练和渲染速度(本可能更快),还导致显著的内存消耗。
4/10/2025 9:38:37 AM
量子位

芯片设计效率提升2.5倍,中科大华为诺亚联合,用GNN+蒙特卡洛树搜索优化电路设计 | ICLR2025

芯片设计是现代科技的核心,逻辑优化(Logic Optimization, LO)作为芯片设计流程中的关键环节,其效率直接影响着芯片设计的整体性能。 然而,传统逻辑优化算子由于存在大量无效和冗余的变换,导致优化过程耗时较长,成为制约芯片设计效率的主要瓶颈。 为解决这一挑战,中科大王杰教授团队(MIRALab)和华为诺亚方舟实验室(HuaweiNoah’sArkLab)联合提出了基于神经符号函数挖掘的高效逻辑优化方法,显著提升传统关键逻辑优化算子运行效率最高达2.5倍。
4/10/2025 9:19:52 AM
量子位

首个统一多模态模型评测标准,DeepSeek Janus理解能力领跑开源,但和闭源还有差距

统一多模态大模型(U-MLLMs)逐渐成为研究热点,近期GPT-4o,Gemini-2.0-flash都展现出了非凡的理解和生成能力,而且还能实现跨模态输入输出,比如图像 文本输入,生成图像或文本。 相比传统的多模态模型(比如 GPT-4V 或 DALL·E 3),这类模型在任务适应性和灵活性上更具优势。 然而,当前研究领域还存在几个突出的问题:1.
4/10/2025 9:15:00 AM
量子位

李飞飞团队提出世界模型基准:“世界生成”能力迎来统一评测,3D/4D/视频模型同台PK

世界模型领域最新进展,要比拼“世界生成”了。 李飞飞吴佳俊团队提出了全面评测基准WorldScore,涵盖了三大类评估指标,动态静态都有涉及,其数据集中包含了3000个测试样例。 并且,WorldScore将3D场景生成、4D场景生成和视频生成三类模型的评估,统一到了一起。
4/10/2025 9:10:00 AM
量子位

GPT开山一作,本科学历入职前CTO初创!OpenAI痛失「爱因斯坦级天才」

被Ilya感谢过,被奥特曼誉为「爱因斯坦级的天才」,在OpenAI更是「想要什么就给什么」——即便如此,去年12月,Alec Radford还是选择了离开。 直到昨天,他的去向才确定。 据Thinking Machine Lab官网更新,OpenAI前核心成员Alec Radford和Bob McGrew将担任公司顾问(Advisors)。
4/10/2025 9:00:00 AM
新智元

谷歌 AI 编程助手 Gemini Code Assist 新增“代理”功能,可多步骤完成复杂任务

谷歌在Cloud Next大会上宣布AI编程助手Gemini Code Assist新增代理功能,可多步骤完成复杂编程任务,如根据文档创建应用或转换代码语言。同时支持Android Studio等环境,但用户仍需亲自审查代码确保安全。#AI编程助手##谷歌云#
4/10/2025 8:50:15 AM
远洋