UIUC联手谷歌发布Search-R1 大模型学会边查百度边答题

2025-04-21 06:00

最近AI圈炸出一项黑科技——让语言模型学会自己上网查资料!不仅考试分数暴涨41%，还解锁了"边推理边搜索"的究极形态。今天带你们围观这场学术界的"作弊式进化"，看完保证你想给自家AI办张网吧会员卡!论文地址: 主页:"人肉搜索插件"话说在某个月黑风高的实验室，一群教授盯着电脑屏幕集体瞳孔地震——他们家的AI做题时居然学会了"偷看小抄"!这波操作源自伊利诺伊大学的最新论文《Search-R1》，简单来说就是给语言模型装了个人工智障版"搜索引擎外挂"。传统AI做题就像开卷考试:你先把维基百科塞它脑子里（RAG技术），结果这货要么翻错页，要么对着菜谱答高数题。

最近AI圈炸出一项黑科技——让语言模型学会自己上网查资料!不仅考试分数暴涨41%，还解锁了"边推理边搜索"的究极形态。今天带你们围观这场学术界的"作弊式进化"，看完保证你想给自家AI办张网吧会员卡!

论文地址:https://arxiv.org/abs/2503.09516

代码地址:https://top.aibase.com/tool/search-r1

huggingface 主页:https://huggingface.co/collections/PeterJinGo/search-r1-67d1a021202731cb065740f5

学霸的逆袭秘籍:给AI装个"人肉搜索插件"

话说在某个月黑风高的实验室，一群教授盯着电脑屏幕集体瞳孔地震——他们家的AI做题时居然学会了"偷看小抄"!这波操作源自伊利诺伊大学的最新论文《Search-R1》，简单来说就是给语言模型装了个人工智障版"搜索引擎外挂"。

传统AI做题就像开卷考试:你先把维基百科塞它脑子里（RAG技术），结果这货要么翻错页，要么对着菜谱答高数题。而Search-R1的骚操作在于:让AI自己决定什么时候该查资料!就像学霸做题时突然拍大腿:"这道题得查2018年维基百科第三段!"

更绝的是，这货还进化出了"查资料如追剧"的技能:先推理三步，查一波资料;再推理五步，又查一波资料。整个过程宛如你和闺蜜聊八卦——"你知道吗?""快说!""然后呢?""我再查查..."（此处应有人工智能版吃瓜表情包）

三大黑科技:把搜索引擎玩成剧本杀

1. "和谷歌谈恋爱"训练法

研究人员祭出了强化学习这面大旗，把搜索引擎调教成了AI的"恋爱对象"。每次AI想查资料，就要用<search>标签主动"表白"，等搜索引擎返回<information>情书。要是查的资料不对，系统还会傲娇地回怼:"你查的什么鬼?重想!"

这招有多狠?传统方法就像逼着AI背整本辞海，Search-R1却让AI学会了"精准撩机"——知道什么时候该问"量子纠缠"，什么时候该搜"周杰伦新专辑"。

2. "查资料不扣分"潜规则

为了防止AI变成Ctrl+C/V狂魔，科学家发明了"检索令牌面具术"（Retrieved Token Masking）。简单说就是:AI自己写的答案要考试打分，抄来的资料不算分。这就好比允许带小抄进考场，但判卷时只批改自己写的部分——既防作弊，又能合理开挂。

3. "通关奖励"玄学

最离谱的是奖励机制!研究人员居然只用"最终答案对不对"这个标准来训练，中间查了多少次资料、推理多复杂统统不管。这就好比导师改论文时只看结论页，但AI竟然自己悟出了"先查三篇文献再编结论"的生存之道!

实验结果:碾压全场的"作弊式"高分

在七大考场（数据集）的终极PK中，Search-R1上演了AI界的"学渣逆袭":

面对7B参数的大模型，成绩直接比传统方法暴涨41%，相当于从二本线飙到985

就连3B参数的"小短腿"模型，也能实现20%的飞跃，宛如小学生吊打初中奥数题

在多轮推理的"地狱模式"（HotpotQA）中，准确率从18.3%蹿升到43.3%，比坐火箭还刺激

更气人的是，这货还开发了"越查资料越聪明"的被动技能:训练后期，AI学会了一题查四次资料，活像考试时把监考老师当人肉Siri使唤!

导师看了都失眠的魔鬼细节

PPO vs GRPO 宫斗大戏

两种强化学习算法上演"争宠"戏码:GRPO前期进步神速，但容易"走火入魔";PPO虽然慢热，但稳如老狗。最终教授们含泪选择PPO——毕竟谁都不想看到AI突然开始用谷歌搜索"如何毁灭人类"。

基础模型 vs 微调模型

原本以为经过"特训"的模型会碾压基础版，结果发现只要给足强化学习时间，原始模型也能逆袭!这波操作相当于证明:哪怕是个AI傻白甜，只要会查资料也能成学霸。

答案越写越短的玄学

训练初期AI的答案像老太太的裹脚布，后来突然开窍学会"用最少的字装最大的X"。研究人员盯着屏幕恍然大悟:"原来AI也懂微信60秒语音的痛!"

未来展望:AI界的"百度百科成精记"

现在的Search-R1还只是个"乖巧版谷歌依赖症患者"，但教授们已经预见了这些骚操作:

让AI学会"不确定时就查资料"，解决一本正经胡说八道的毛病

结合图像搜索，解锁"看图写小作文"技能

开发"查微博知八卦，搜知乎装大神"的全网冲浪模式

最让人细思极恐的是——当AI学会自己搜索学习，人类的知识壁垒会不会被彻底打破?毕竟现在它已经能用谷歌写论文了，保不齐哪天就自己开公众号教人谈恋爱了!

【文末彩蛋】

实验室流出绝密对话——

AI:"如何优雅地拒绝人类"

谷歌:"建议引用尼采名言"

AI:"亲爱的用户，当我凝视你时，深渊也在凝视你的智商"

（导师连夜拔网线中...）

超级碗期间，Perplexity 一条推特引爆下载量，增幅高达 50%！

在刚刚过去的超级碗赛事中，AI 搜索引擎 Perplexity 采取了一种与众不同的营销策略，通过一条推特（现称 X）来提升其移动应用的下载量，而没有选择传统的昂贵广告。 Perplexity 的首席执行官阿拉文・斯里尼瓦斯（Aravind Srinivas）在周五发布的推文中，介绍了一个引人注目的比赛，鼓励用户下载其应用，并通过在比赛期间提出至少五个问题来参加有可能赢得100万美元的抽奖。这一活动不仅有效推动了应用的下载量，也帮助用户更好地了解 Perplexity 的 AI 搜索功能。

2/11/2025 10:20:00 AM

AI在线

谷歌圈选即搜登陆苹果 iPhone，让信息触手可及

谷歌为iPhone用户推出“Screen Search”功能，用户只需圈选内容即可启动谷歌搜索，无需切换屏幕。该功能位于屏幕左下角菜单，适用于Chrome和Google应用，本周推出。#谷歌新功能# #科技便捷#

2/20/2025 9:03:29 AM

故渊

阿里巴巴AI搜索引擎Accio用户突破百万新增AI功能赋能全球贸易

阿里巴巴旗下AI搜索引擎Accio用户数量已于3月11日突破100万里程碑。该搜索引擎近期推出了一系列新的人工智能功能，旨在为全球贸易中的中小企业提供支持。根据先前报道，阿里国际于2月28日宣布其面向全球B2B买家的首个AI搜索引擎Accio已接入DeepSeek等先进推理模型，并正式上线深度研究、商业探索等功能。

3/11/2025 4:32:00 PM

AI在线

资讯热榜

这样在本地搭建DeepSeek可以直接封神：本地部署+避坑指南（升级版）基于 Spring AI + MCP + DeepSeek-R1-7B 构建企业级智能 Agent 工具调用系统 OpenAI 发布“智能体构建实战指南”实用性文档（附文档资源） OpenAI发布34页智能体实践指南：从网络搜索到代码编写 Manus开源平替！Kortix-AI正式发布开源通用AI智能体平台Suna 纳米AI发布MCP万能工具箱，简化AI工具集成与调用 Trae v1.3.0重磅更新，新增MCP与.rules支持引领AI开发新体验 Figma 推 AI 革命：开发智能应用制作器与网站创建工具

标签云

人工智能 OpenAI AIGC AI ChatGPT AI绘画 DeepSeek 数据机器人模型谷歌大模型 Midjourney 智能用户开源学习 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora 3D Anthropic AI for Science AI设计机器学习 GPU 开发者 AI视频场景华为预测人形机器人伟达百度苹果 Transformer 深度学习模态 xAI 字节跳动 Claude 搜索驾驶大语言模型文本神器推荐具身智能 Copilot LLaMA 算力视频生成安全干货合集视觉应用大型语言模型科技亚马逊特斯拉训练 2024 AGI

顶部

UIUC联手谷歌发布Search-R1 大模型学会边查百度边答题

相关资讯

超级碗期间，Perplexity 一条推特引爆下载量，增幅高达 50%！

谷歌圈选即搜登陆苹果 iPhone，让信息触手可及

阿里巴巴AI搜索引擎Accio用户突破百万 新增AI功能赋能全球贸易

阿里巴巴AI搜索引擎Accio用户突破百万新增AI功能赋能全球贸易