AI
Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B
刚刚,Kimi团队上新了! 开源轻量级视觉语言模型Kimi-VL及其推理版Kimi-VL-Thinking,多模态和推理双双拿捏。 按照Kimi官方的说法,其关键亮点如下:都是基于MoE架构,总参数为16B,但推理时仅激活2.8B;具备强大的多模态推理能力(媲美参数大10倍的模型)和Agent能力;支持128K上下文窗口;采用相对较为宽松的MIT许可证。
4/11/2025 9:10:00 AM
量子位
十大步骤详解Spring AI MCP机制底层实现,小白误入!
MCP分为MCP Client和MCP Server:MCP Client负责进行工具发现和工具调用MCP Server负责提供工具和工具执行总体流程图图片十大步骤详解第一步,MCP Client接收用户的问题,比如“今天是几月几号”。 第二步,MCP Client发送tools/list请求给MCP Server进行工具发现。 利用Spring AI开发的MCP Server,可以利用@Tool注解定义工具,比如:图片并利用MethodToolCallbackProvider提供出去:在MCP Server的MpcServerAutoConfiguration自动配置类中定义了一个McpSyncServer的Bean,它会依赖注入ListToolCallbackProvider,这样McpSyncServer中就拿到了MCP Server中定义的所有Tools(调用ToolCallbackProvider的getToolCallbacks()即可拿到)。
4/11/2025 9:01:37 AM
IT周瑜
字节开源新生图模型:一个模型统一所有生图任务,多主体融合效果SOTA
利用字节团队魔改的FLUX模型,可以直接把多个参考主体放进一张图了。 字节团队以FLUX为基础模型,提出了新的生图模型UNO,统一了图像生成任务中不同输入条件的处理。 无论是单主体进行风格变换,还是不同物体的融合,UNO都能直接搞定。
4/11/2025 9:00:00 AM
量子位
有了MCP,AI不仅更完整,还更实用了
互联网刚诞生时,普通人对它的印象只是能收发电子邮件。 智能手机刚出现时,很多人觉得不过是个能打电话的小电脑。 当AI大模型横空出世,大家惊叹于它超强的对话能力,却难以想象它能做什么实际工作。
4/11/2025 8:45:00 AM
OpenAI 悄悄更新 ChatGPT,Plus / Pro 订阅用户可享全局对话内容记忆功能
OpenAI 今天发文宣布悄悄为旗下 ChatGPT 进行更新,目前订阅了 Plus 和 Pro 级别用户可以使用“经过改进的上下文记忆功能”。
4/11/2025 6:42:19 AM
漾仔
2025年CIO的优先事项:掌握AI,确保未来
在BrightTALK CIO峰会上,七位IT和技术专家分享了实用策略和最佳实践,以供希望在这个动荡但又充满机遇的商业时代导航并了解2025年CIO首要任务的IT领导者参考。 证明AI投资的投资回报率:构建用例供应链随着AI应用的普及,确定能够提供切实商业价值的用例是2025年CIO的一项关键优先事项。 在这一领域取得成功需要一种战略方法,以识别和利用能够显著改善底线表现的AI举措。
4/11/2025 12:30:00 AM
Ana
商汤大装置发放“1亿代金券”,全栈赋能场景落地
2025年4月10日,商汤科技SenseTime举办2025技术交流日,发布商汤大装置SenseCore 2.0,以更灵活、敏捷、可靠的特性赋能企业,推动AI基础设施与应用开发及行业需求深度融合。 同时,商汤科技宣布将发放“1亿代金券”,专项支持行业伙伴协同并进,加速产业智能化升级,共创AI新高度。 该计划聚焦具身智能、AIGC等多个前沿领域,通过多维度的精准扶持,为企业提供从专家咨询到模型训练、推理验证的全流程AI服务支持,打造"高效率、低成本、端到端"的一站式赋能方案。
4/10/2025 5:39:00 PM
新闻助手
谷歌推出 Vertex AI Media Studio 文生视频套件:自动化包办画面渲染、旁白、配乐等
谷歌今天(4 月 10 日)推出 Vertex AI Media Studio 平台,该套件支持文本指令生成完整视频内容。
4/10/2025 1:25:15 PM
故渊
UC伯克利华人开源14B「o3-mini」,代码版R1突袭OpenAI王座!
OpenAI o1/o3-mini级的推理模型,竟被抢先开源了? 刚刚,来自UC伯克利和Together AI的联合团队,重磅推出了一款完全开源的代码推理模型——DeepCoder-14B-Preview。 现在,只需要14B就可以拥有一个媲美o3-mini的本地模型,并且完全免费!
4/10/2025 10:02:43 AM
新智元
字节最新人像视频生成模型DreamActor-M1,推特关注超百万!即梦AI即将上线
还记得前段时间字节跳动备受关注的数字人技术Omnihuman-1吗? 最近,这支团队一项基于DiT架构的可控人像视频生成技术DreamActor-M1,一经发布,又在推特上引起了超百万量级的关注——仅需一张静态照片和一段驱动视频,便可生成高质量、达到电影级别的视频,将人像视频生成的表现力提升至全新水平! 左右滑动查看项目网页::,还能精准捕捉并迁移驱动视频中的动作和表情,呈现出高度逼真的效果,极大地简化了现有的动作捕捉、角色动画以及内容创作流程。
4/10/2025 9:54:40 AM
新智元
谷歌最新AI芯片打平英伟达B200,专为推理模型打造,最高配每秒42500000000000000000次浮点运算
谷歌首款AI推理特化版TPU芯片来了,专为深度思考模型打造。 代号Ironwood,也就是TPU v7,FP8峰值算力4614TFlops,性能是2017年第二代TPU的3600倍,与2023年的第五代TPU比也有10倍。 (为什么不对比第六代,咱也不知道,咱也不敢问。
4/10/2025 9:43:01 AM
量子位
“谷歌版MCP”来了!开源A2A,不同厂商Agent也能协作
刚刚,“谷歌版MCP”来了! 谷歌推出A2A协议,即Agent2Agent,能让AI Agent在不同生态系统间安全协作,而无需考虑框架或供应商。 不同平台构建的AI Agent之间可以进行通信、发现彼此的能力、协商任务并开展协作,企业可通过专业Agent团队处理复杂工作流。
4/10/2025 9:42:51 AM
剪枝60%不损性能!上海AI Lab提出高斯剪枝新方法,入选CVPR 2025
三维高斯泼溅(3D Gaussian Splatting)使得实时高质量渲染成为可能,是当前3D视觉领域最常用的算法之一。 问题在于,基于显示高斯单元的表示方式,尽管可以高效溅射和光栅化,其密集化和优化过程却往往会生成冗余的高斯点,导致单个重建场景可能包含数百万个高斯点。 这不仅降低了训练和渲染速度(本可能更快),还导致显著的内存消耗。
4/10/2025 9:38:37 AM
量子位
芯片设计效率提升2.5倍,中科大华为诺亚联合,用GNN+蒙特卡洛树搜索优化电路设计 | ICLR2025
芯片设计是现代科技的核心,逻辑优化(Logic Optimization, LO)作为芯片设计流程中的关键环节,其效率直接影响着芯片设计的整体性能。 然而,传统逻辑优化算子由于存在大量无效和冗余的变换,导致优化过程耗时较长,成为制约芯片设计效率的主要瓶颈。 为解决这一挑战,中科大王杰教授团队(MIRALab)和华为诺亚方舟实验室(HuaweiNoah’sArkLab)联合提出了基于神经符号函数挖掘的高效逻辑优化方法,显著提升传统关键逻辑优化算子运行效率最高达2.5倍。
4/10/2025 9:19:52 AM
量子位
首个统一多模态模型评测标准,DeepSeek Janus理解能力领跑开源,但和闭源还有差距
统一多模态大模型(U-MLLMs)逐渐成为研究热点,近期GPT-4o,Gemini-2.0-flash都展现出了非凡的理解和生成能力,而且还能实现跨模态输入输出,比如图像 文本输入,生成图像或文本。 相比传统的多模态模型(比如 GPT-4V 或 DALL·E 3),这类模型在任务适应性和灵活性上更具优势。 然而,当前研究领域还存在几个突出的问题:1.
4/10/2025 9:15:00 AM
量子位
李飞飞团队提出世界模型基准:“世界生成”能力迎来统一评测,3D/4D/视频模型同台PK
世界模型领域最新进展,要比拼“世界生成”了。 李飞飞吴佳俊团队提出了全面评测基准WorldScore,涵盖了三大类评估指标,动态静态都有涉及,其数据集中包含了3000个测试样例。 并且,WorldScore将3D场景生成、4D场景生成和视频生成三类模型的评估,统一到了一起。
4/10/2025 9:10:00 AM
量子位
GPT开山一作,本科学历入职前CTO初创!OpenAI痛失「爱因斯坦级天才」
被Ilya感谢过,被奥特曼誉为「爱因斯坦级的天才」,在OpenAI更是「想要什么就给什么」——即便如此,去年12月,Alec Radford还是选择了离开。 直到昨天,他的去向才确定。 据Thinking Machine Lab官网更新,OpenAI前核心成员Alec Radford和Bob McGrew将担任公司顾问(Advisors)。
4/10/2025 9:00:00 AM
新智元
谷歌 AI 编程助手 Gemini Code Assist 新增“代理”功能,可多步骤完成复杂任务
谷歌在Cloud Next大会上宣布AI编程助手Gemini Code Assist新增代理功能,可多步骤完成复杂编程任务,如根据文档创建应用或转换代码语言。同时支持Android Studio等环境,但用户仍需亲自审查代码确保安全。#AI编程助手##谷歌云#
4/10/2025 8:50:15 AM
远洋
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
DeepSeek
AI绘画
数据
机器人
谷歌
模型
大模型
Midjourney
智能
用户
学习
开源
GPT
微软
Meta
AI创作
图像
技术
论文
Stable Diffusion
马斯克
Gemini
算法
蛋白质
生成式
芯片
代码
英伟达
腾讯
神经网络
计算
研究
Sora
AI for Science
3D
Anthropic
AI设计
机器学习
GPU
开发者
场景
华为
预测
伟达
Transformer
百度
苹果
人形机器人
深度学习
AI视频
模态
xAI
驾驶
字节跳动
文本
搜索
大语言模型
Claude
Copilot
具身智能
神器推荐
LLaMA
算力
安全
应用
视频生成
科技
视觉
亚马逊
干货合集
2024
AGI
特斯拉
训练
大型语言模型