资讯列表

分类

标签

视觉SSL终于追上了CLIP！Yann LeCun、谢赛宁等新作，逆转VQA任务固有认知

在视觉问题解答（VQA）等多模态环境中，当前视觉自监督学习（SSL）的表现还比不上语言图像预训练（CLIP）。这种差距通常归因于语言监督引入的语义，尽管视觉 SSL 模型和 CLIP 模型通常在不同的数据上进行训练。在最近的一项研究中，Yann LeCun、谢赛宁等研究者探讨了一个基本问题：语言监督对于多模态建模的视觉表征预训练是否必要？

4/3/2025 11:11:50 AM

机器之心

为什么AI需要向量数据库？

大模型火遍全球，DeepSeek、OpenAI、谷歌、百度、抖音等科技巨头争相发布自家产品。多数人会想当然认为，大模型越大越强大，参数量越多就越聪明。现实呢？

4/3/2025 11:04:40 AM

10倍吞吐提升无损性能：多模态适用的KV cache量化策略来了，即插即用无需改原模型

在InternVL-2.5上实现10倍吞吐量提升，模型性能几乎无损失。最新1-bit多模态大模型KV cache量化方案CalibQuant来了。通过结合后缩放和校准方法，可显著降低显存与计算成本，无需改动原模型即可直接使用。

4/3/2025 10:29:06 AM

量子位

OpenAI官方基准测试：承认Claude遥遥领先（狗头）

OpenAI承认Claude是最好的了（狗头）。刚刚开源的新基准测试PaperBench，6款前沿大模型驱动智能体PK复现AI顶会论文，新版Claude-3.5-Sonnet显著超越o1/r1排名第一。与去年10月OpenAI考验Agent机器学习代码工程能力MLE-Bnch相比，PaperBench更考验综合能力，不再是只执行单一任务。

4/3/2025 10:21:32 AM

量子位

视觉Token无缝对齐LLMs词表！V²Flow：基于LLMs实现高保真自回归图像生成

视觉Token可以与LLMs词表无缝对齐了！ V²Flow，基于LLMs可以实现高保真自回归图像生成。随着ChatGPT掀起自回归建模革命后，近年来研究者们开始探索自回归建模在视觉生成任务的应用，将视觉和文本数据统一在“next-token prediction”框架下。

4/3/2025 10:17:23 AM

动态场景，开放文本查询！清华哈佛联合建模4D语言场 | CVPR 2025

构建支持开放词汇查询的语言场在机器人导航、3D场景编辑和交互式虚拟环境等众多应用领域展现出巨大的潜力。尽管现有方法在静态语义场重建方面已取得显著成果，但如何建模4D语言场（4D language fields）以实现动态场景中时间敏感且开放式的语言查询，仍面临诸多挑战，动态世界的语义建模对于推动许多实际应用的落地至关重要。近日，来自清华大学、哈佛大学等机构的研究团队提出了一种创新方法4D LangSplat，基于动态三维高斯泼溅技术，成功重建了动态语义场，能够高效且精准地完成动态场景下的开放文本查询任务。

4/3/2025 10:12:30 AM

新智元

DeepMind核心论文禁发6个月，Transformer级研究锁死！CEO：不满意就走人

DeepMind研究成果，已被按下暂停键。 FT爆料称，由Demis Hassabis领导的谷歌AI部门，正对研究论文发布实施更严格的审查机制。总结来说，有这么几种论文不发：会被竞争对手利用的创新成果让Gemini模型相形见绌的研究而那些涉及到GenAI的「战略性研究」，更是有着长达6个月「禁发期」。

4/3/2025 10:03:29 AM

新智元

75年后，图灵测试终被GPT-4.5破解！73%人类被骗过，彻底输给AI

什么？ AI竟然通过了标准的三方图灵测试，而且还是拿出了实打实证据的那种！来自加州大学圣迭戈分校的研究人员系统评估了4个AI系统，证明大语言模型（LLM）通过了图灵测试。

4/3/2025 10:00:52 AM

新智元

企业级AI“脱虚向实”，落地还有几道槛？

从ChatGPT横空出世，到越来越智能化的人形机器人，再到让世人惊艳的Sora文生视频……种种迹象表明，人工智能逐渐迎来产业化的临界点。当全球科技巨头们将AI的边界推向星辰大海时，绝大多数企业仍在经历着AI落地的“高原反应”。某制造业CIO的办公桌上，堆积着三份不同供应商的AI解决方案，却始终无法解答他“如何让AI看懂三十年陈旧的ERP数据”的灵魂拷问。

4/3/2025 10:00:00 AM

科技云报到

稚晖君刚挖来的90后机器人大牛：逆袭履历堪比爽文男主

刚刚，稚晖君旗下创企智元机器人官宣了两个新动向——一则是关于人事变动。具身智能领域的国际领军学者罗剑岚博士，已于近日加盟并出任首席科学家。罗剑岚在该领域已深耕10年，曾担任Google X、Google DeepMind研究科学家，是UC伯克利17万引大佬Sergey Levine团队的核心成员。

4/3/2025 9:37:23 AM

量子位

AI理解27分钟长视频超越GPT-4o，港理工新国立开源新框架：角色化推理+链式LoRA

AI能像人类一样理解长视频。港理工、新加坡国立团队推出VideoMind框架，核心创新在于角色化推理（Role-based Reasoning）和链式LoRA（Chain-of-LoRA）策略。相关论文已上传arXiv，代码和数据全部开源。

4/3/2025 9:34:36 AM

量子位

震惊！用 Redis+AI 模型实现秒级实时风控，这波操作太秀了

兄弟们，有没有遇到过这种情况：凌晨三点在某东抢购显卡，刚提交订单就提示"系统繁忙"，转头发现黄牛已经在海鲜市场挂出同款；扫码支付时突然弹出风险提示，非要验证人脸识别；更绝的是某银行APP，刚输完密码就收到短信提醒："检测到您的账户存在异常操作"——但此时您根本没动过手机。这些让人又爱又恨的操作背后，都藏着一个叫"实时风控"的技术妖怪。今天咱们就来扒一扒，这个妖怪是如何用 Redis 和 AI 模型在 0.1 秒内完成逆天操作的。

4/3/2025 9:30:56 AM

儒猿团队

AI Agent打了个响指，商业齿轮加速转动

3月16日，百度旗下文心大模型4.5和文心大模型X1正式发布。目前，两款模型已在文心一言官网上线，免费向用户开放。同时，文心大模型4.5已上线百度智能云千帆大模型平台，企业用户和开发者登录即可调用API；文心大模型X1也即将在千帆上线。

4/3/2025 9:30:00 AM

科技云报到

双人动作生成新SOTA！浙大提出TIMotion框架 | CVPR 2025

双人动作生成新SOTA！针对Human-human motion generation问题，浙江大学提出了一种对双人运动序列进行时序和因果建模的架构TIMotion，论文已发表于CVPR 2025。具体来说，通过分别利用运动序列时间上的因果关系和两人交互过程中的主动被动关系，TIMotion设计了两种有效的序列建模方式。

4/3/2025 9:27:44 AM

量子位

CVPR 2025：单图秒变专业影棚，几何/材质/光影全搞定，数据训练代码全开源

如何从一张普通的单幅图像准确估计物体的三维法线和材质属性，是计算机视觉与图形学领域长期关注的难题。这种单图逆渲染任务存在严重的不确定性，传统方法通常需要多角度或多光源的拍摄条件，难以在日常场景中普遍应用。近日，由香港中文大学、上海人工智能实验室及南洋理工大学的研究团队联合研发的论文《Neural LightRig: Unlocking Accurate Object Normal and Material Estimation with Multi-Light Diffusion》。

4/3/2025 9:25:53 AM

量子位

大模型RL不止数学代码！7B奖励模型搞定医学法律经济全学科，不用思维链也能做题

一个7B奖励模型搞定全学科，大模型强化学习不止数学和代码。 o1/r1的强化学习很强，但主要探索了数学和代码领域，因为这两个领域的数据结构化程度高，奖励函数/奖励模型比较好设计。那么，想提升大模型在其他学科领域的能力该怎么办？

4/3/2025 9:23:08 AM

量子位

AI 时代如何更高效开发前端组件？21st.dev 给了一种答案

给大家推荐一个好东西：21st.dev ，大致上你可以将它理解为一个非常前卫的组件托管市场，特别之处在于：它参考 shadcn/ui 的设计理念提供了一种原子化的，Code Out 形式的依赖安装、管理模式；并且更具有启发性的，它为每一个组件都提供了一套用于生成组件代码的 Prompt，用户可以借此在特定项目上下文中生成适配度更高的组件效果。借助 21st.dev 与 cursor，我做了这样一个 demo：这一切都是在 5min 内，不写一行代码的情况下实现的！更值得称谓的是，21st.dev 的功能设计真正做到了 AI 友好，能够很好地应用在各类 AI 工具中(cursor、v0.dev、bolt.new、cline 等等)，并且这套设计逻辑还非常适合复用到各种 TO-D 场景中，21st.dev 是什么21st.dev 是一个开源的 React UI 组件市场，专门为设计工程师和前端开发者提供高质量的 UI 组件。

4/3/2025 9:04:19 AM

范文杰

百度飞桨框架 3.0 正式版发布，五大特性专为大模型设计

飞桨框架 3.0 号称从设计理念上实现了从底层硬件适配到顶层开发体验的全面进化，已面向开发者开放，并且兼容 2.0 版本的开发接口。

4/3/2025 8:50:36 AM

汪淼

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o OpenAI 发布“智能体构建实战指南”实用性文档（附文档资源） OpenAI发布34页智能体实践指南：从网络搜索到代码编写

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 人形机器人百度苹果深度学习 AI视频模态字节跳动 xAI 驾驶文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉大型语言模型训练