框架

最强o1也刚刚及格！中科大等团队测试视频CoT推理能力：多数模型不及格

视频理解的CoT推理能力，怎么评？中科大等团队提出了评估基准——VCR-Bench，里面包含七个独立评估维度的任务框架，每个维度针对性地考察模型的不同能力（如时空推理、因果推断等）。为确保评估的全面性和可靠性，每个维度都设计了100余条高质量样本。

4/18/2025 9:13:00 AM

量子位

双人动作生成新SOTA！浙大提出TIMotion框架 | CVPR 2025

双人动作生成新SOTA！针对Human-human motion generation问题，浙江大学提出了一种对双人运动序列进行时序和因果建模的架构TIMotion，论文已发表于CVPR 2025。具体来说，通过分别利用运动序列时间上的因果关系和两人交互过程中的主动被动关系，TIMotion设计了两种有效的序列建模方式。

4/3/2025 9:27:44 AM

量子位

Spring AI + Ollama 实现 deepseek-r1 的API服务和调用

兄弟们，今天咱来聊聊一个超有意思的技术组合 ——Spring AI Ollama 实现 deepseek - r1 的 API 服务和调用。咱都知道，人工智能这几年那可是火得一塌糊涂，各种大模型你方唱罢我登场。 deepseek - r1 就是其中一个挺厉害的模型，那怎么把它用起来，让它为咱们的项目服务呢？

3/27/2025 9:34:42 AM

儒猿团队

随手一拍，高效重建大型3D开放场景，港科广GraphGS突破传统重建技术瓶颈｜ICLR 2024

从手机随手拍、汽车行车记录仪到无人机航拍，如何从海量无序二维图像快速生成高精度三维场景？传统方法依赖精确的相机位姿参数，实际应用成本高昂。港科广团队提出全新框架GraphGS，突破技术瓶颈——无需精准相机位姿，仅凭RGB图像即可实现大规模开放场景的高效重建和高保真新视角合成，相关论文入选ICLR 2025，代码即将开源。

3/26/2025 9:55:14 AM

量子位

港大90后开源，OpenAI 2万刀博士级AI智能体平替！自主研究媲美顶会论文

在AI技术迭代的坐标系中，OpenAI构建的五级演进模型（对话系统→组织协调者）为行业发展提供了战略指引。其中，处于第三至四阶段的自主研究智能体（Autonomous Research Agent）正成为技术突破的焦点。就在最近，来自香港大学HKUDS的3位研究团者开源了一种全新的AI-Researcher系统，正是这一关键领域的重要探索。

3/17/2025 8:40:00 AM

新智元

Spring AI这样玩才高级！注解式AI服务开发，这些技巧 GitHub 都找不到

AI Services是什么AI Services 的设计灵感来源于 Spring Data JPA 和 Retrofit 等框架，采用声明式接口定义所需的 API，然后由框架自动生成实现该接口的代理对象。这种方法隐藏了与 LLM 交互的复杂性，提供了简单直观的 API。 AI Services 主要处理以下常见操作：格式化输入以发送给 LLM解析 LLM 的输出同时还支持更高级的功能：聊天记忆管理工具调用(Function Calling)检索增强生成(RAG)基本使用示例LangChain4j是 Java 生态系统中的一个流行框架，它提供了两种抽象级别：低级 API 和高级 API。

3/11/2025 1:23:11 AM

冷冷

解密FedDAT：首个多模态异构联邦学习高效微调框架，突破数据异构与通信瓶颈！

FedDAT: An Approach for Foundation Model Finetuning in Multi-Modal Heterogeneous Federated Learning一、一眼概览FedDAT提出了一种创新的双适配器教师框架（Dual-Adapter Teacher, DAT），结合参数高效微调和互知识蒸馏，解决了多模态异构联邦学习（FL）中的数据异构性问题，并在多个视觉-语言任务基准上取得了最优表现。二、核心问题如何在多模态联邦学习环境中，在数据异构性和通信预算限制下，实现基础模型的高效分布式微调，以提升视觉-语言任务的性能，是本研究的核心问题。三、技术亮点1.

1/26/2025 9:07:46 AM

萍哥学AI

贾佳亚团队联合Adobe提出GenProp，物体追踪移除特效样样在行

论文一作刘少腾，Adobe Research实习生，香港中文大学博士生（DV Lab），师从贾佳亚教授。主要研究方向是多模态大模型和生成模型，包含图像视频的生成、理解与编辑。作者Tianyu Wang、Soo Ye Kim等均为Adobe Research Scientist。

1/24/2025 2:14:35 PM

机器之心

模型压缩70%！精度更高！开源MoDec-GS：更紧凑、更精确的动态3DGS

本文经3D视觉之心公众号授权转载，转载请联系出处。论文信息标题：MoDec-GS: Global-to-Local Motion Decomposition and Temporal Interval Adjustment for Compact Dynamic 3D Gaussian Splatting作者：Sangwoon Kwak, Joonsoo Kim, Jun Young Jeong, Won-Sik Cheong, Jihyong Oh, Munchurl Kim机构：ETRI, South Korea、KAIST, South Korea、Chung-Ang University, South Korea原文链接：：. 导读3D Gaussian Splatting (3DGS)在场景表示和神经渲染方面取得了重大进展，并致力于使其适应动态场景。

1/22/2025 11:00:00 AM

3DCV

中科院北大等揭示「蒸馏真相」：除Claude豆包Gemini，其他很多模型都「蒸」过头

模型蒸馏是一种将知识从大型语言模型（LLMs）转移到较小模型的技术，旨在创建资源高效且性能卓越的模型。然而，过度蒸馏可能会导致同质化，降低模型之间的多样性，并削弱它们稳健处理复杂或新任务的能力。这些限制凸显了系统地量化蒸馏过程及其影响的必要性。

1/22/2025 9:32:30 AM

新智元

人大清华提出自主搜索版「Search-o1」！解决知识困境，大幅提升推理模型可靠性

自OpenAI发布o1以来，如何复现并改进o1就成为了LLM研究的焦点。尽管以OpenAI-o1、Qwen-QwQ和DeepSeek-R1为代表的推理模型，其推理能力已然震惊四座，但由于在长链推理过程中仍然面临着「知识不足」的问题，导致这些模型在推理过程还包含着一些不确定性和潜在错误。类似于OpenAI-o1在处理复杂问题时，每次推理过程中平均会遇到超过30个不确定术语实例，如「或许」和「可能」。

1/21/2025 1:15:16 PM

新智元

图像编辑大一统？多功能图像编辑框架Dedit:可基于图像、文本和掩码进行图像编辑

本文经AIGC Studio公众号授权转载，转载请联系出处。今天给大家介绍一个基于图像和文本的编辑的框架D-Edit，它是第一个可以通过掩码编辑实现图像编辑的项目，近期已经在HuggingFace开放使用，并一度冲到了热门项目Top5。使用 D-Edit 的编辑流程。

1/17/2025 10:30:00 AM

AIGC Studio

啥是AI Agent！2025年值得推荐入坑AI Agent的五大工具框架！

在AI技术飞速发展的今天，AI Agent已经成为了一个热门的研究和应用领域。无论是企业还是个人开发者，都希望能够借助AI Agent来提升工作效率、优化业务流程或创造全新的用户体验。然而，从零开始构建一个AI Agent并非易事，幸运的是，市面上有许多优秀的框架可以帮助我们快速入坑。

1/17/2025 9:30:21 AM

狂师

【LLM&Agent】PPTAgent：PPT自动生成Agent框架

来看一个PPT生成思路：PPTAgent。传统的PPT生成方法通常使用端到端的文本生成范式，这种方法仅关注文本内容，忽略了布局设计和PPT结构。 PPTAgent 采用了一种基于编辑的生成范式，解决处理空间关系和设计风格方面的挑战。

1/8/2025 3:15:16 PM

余俊晖

2024 Github 十大最佳 RAG 框架

检索增强生成（RAG）已成为增强大型语言模型能力的一项强大技术。 RAG 框架结合了基于检索的系统和生成模型的优势，可以做出更准确、更能感知上下文和更及时的响应。随着对复杂人工智能解决方案需求的增长，GitHub 上出现了许多开源 RAG 框架，每个框架都具有独特的特性和功能。

1/2/2025 11:54:01 AM

云朵君

一键生成万字专利！中科院发布多智能体框架AutoPatent，含1933个「草稿-专利」数据对

在科技日新月异的今天，专利作为保护创新成果的重要法律工具，其撰写过程却往往繁琐且耗时，传统的专利撰写工作通常由熟悉专利法律和技术领域的专利代理人完成，这一过程耗时费力，且效率较低。因此，开发一种能够自动化生成高质量专利文档的方法，对于提高专利撰写的效率和准确性具有重要意义。最近，来自中科院深圳先进院和大连理工大学的研究团队联合开发了一个名为AutoPatent的自动化的多智能体专利生成框架，能够在十分钟左右的时间依据发明人的专利技术底稿生成一篇完整的专利文档。

12/20/2024 11:15:25 AM

新智元

边缘AI框架全解析：谁是你的最佳选择？

随着人工智能技术的飞速发展，将AI模型部署到本地设备的需求日益增长。本地AI框架应运而生，为开发者提供了一系列工具和库，使得在设备端运行复杂的AI模型成为可能。本文将对当前流行的本地AI框架进行深入比较，帮助我们选择最适合的工具。

12/9/2024 8:54:49 AM

Zhen

一次示范让Agent适应各种新环境，浙大杭电智能体框架入选NeurIPS

只需一次人类示范，就能让智能体适应新环境？来自杭州电子科技大学和浙江大学的研究者，提出了一套新的智能体框架AutoManual。该研究有效解决了智能体过度依赖人类专家提供的知识，难以自主适应新环境的问题。

11/29/2024 1:58:49 PM

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人 xAI 驾驶字节跳动文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型