语言模型

UIUC联手谷歌发布Search-R1 大模型学会边查百度边答题

最近AI圈炸出一项黑科技——让语言模型学会自己上网查资料!不仅考试分数暴涨41%，还解锁了"边推理边搜索"的究极形态。今天带你们围观这场学术界的"作弊式进化"，看完保证你想给自家AI办张网吧会员卡!论文地址: 主页:"人肉搜索插件"话说在某个月黑风高的实验室，一群教授盯着电脑屏幕集体瞳孔地震——他们家的AI做题时居然学会了"偷看小抄"!这波操作源自伊利诺伊大学的最新论文《Search-R1》，简单来说就是给语言模型装了个人工智障版"搜索引擎外挂"。传统AI做题就像开卷考试:你先把维基百科塞它脑子里（RAG技术），结果这货要么翻错页，要么对着菜谱答高数题。

4/21/2025 6:00:37 PM

AI在线

xAI发布Grok3Mini:为开发者提供高性价比AI模型

xAI近日推出了其全新的语言模型——Grok3Mini，进一步推动了高效AI技术的发展。 Grok3Mini专为速度和经济性设计，尽管体积较小，但在多个领域的表现优于许多更昂贵的AI模型，尤其在数学、编程和科学基准测试中表现突出。 Grok3Mini:高性能与低成本的完美平衡Grok3Mini是Grok3系列的一部分，该系列包含六种变体，其中包括标准的Grok3、Grok3Fast，以及四种版本的Grok3Mini，提供慢速和快速两个版本，每种版本又具备低推理能力或高推理能力的选项。

4/21/2025 12:00:58 PM

AI在线

让DeepSeek更可靠！清华提出Hyper-RAG，用超图提升知识建模精准度

大语言模型（Large Language Models, LLMs）在面对专业领域知识问题的时候，经常会生成偏离既定事实的回复，或模糊不清的回答，从而带来了潜在应用风险。检索增强生成（Retrieval-Augmented Generation, RAG）通过构建特定领域知识库，采用基于向量的检索技术来提取与给定查询相关的信息，从而使LLM能够生成更准确、更可靠的内容。然而，现有的基于图的RAG方法受限于仅能表示实体之间的成对关联，无法表示那些更复杂的多实体间的群组高阶关联，导致数据结构化过程中这些高阶信息的丢失。

4/21/2025 8:45:00 AM

新智元

OpenAI发布GPT-4.1指令提示工程指南

4月15日，OpenAI 发布了针对 GPT-4.1的提示工程指南，为开发者提供了全面的建议和最佳实践，帮助他们更高效地构建和优化 AI 应用。这份指南详细介绍了 GPT-4.1的特性，并提供了从基础原则到高级策略的一系列技巧，旨在帮助开发者充分利用 GPT-4.1的强大能力。 GPT-4.1是 OpenAI 最新的语言模型，它在编程能力、指令遵循能力和长上下文处理能力上相比前代模型有显著提升。

4/15/2025 1:01:48 PM

AI在线

使用人工智能幻觉评估图像真实感

译者 | 朱先忠审校 | 重楼引言最近，俄罗斯的一项新研究提出了通过一种非常规方法来检测不切实际的人工智能生成的图像。这种方法的主要思想是：不是通过提高大型视觉语言模型（LVLM）的准确性，而是通过有意利用它们产生幻觉的倾向。这种新方法使用LVLM提取有关图像的多个“原子事实”，然后应用自然语言推理（NLI）系统地衡量这些陈述之间的矛盾，从而有效地将模型的缺陷转化为检测违背常识的图像的诊断工具。

4/9/2025 8:23:49 AM

朱先忠

百度端到端语音语言大模型发布，成本宣称最高降 90%

百度发布首个基于全新互相关注意力（Cross-Attention）的端到端语音语言大模型，宣布实现超低时延与超低成本，在电话语音频道的语音问答场景中，调用成本较行业均值下降约 50%-90%。

3/31/2025 4:34:27 PM

汪淼

电脑游戏《Factorio》成为 AI 能力评估的新工具

《Factorio》是一款复杂的电脑游戏，专注于建造与资源管理，最近成为研究人员评估人工智能能力的新工具。这款游戏能够测试语言模型在规划和构建复杂系统的能力，同时管理多个资源和生产链。为此，研究团队开发了一个名 “Factorio 学习环境”（FLE）的系统，提供了两种不同的测试模式。

3/17/2025 10:37:00 AM

AI在线

清华大学AIR联合水木分子开源DeepSeek版多模态生物医药大模型BioMedGPT-R1

编辑 | ScienceAI2025 年初，DeepSeek给全球引发了 AI 大模型的新一轮热议。多家市场咨询公司指出，在 DeepSeek 的影响下，从大模型供应商到基础设施和平台供应商的整个 AI 产业生态都掀起了一波「新浪潮」。 DeepSeek R1 以其强大的推理能力，为各行各业带来了智能化升级新机遇。

2/21/2025 4:03:00 PM

ScienceAI

西北工业大学开源语音理解模型OSUM，结合Whisper和Qwen2，支持8种语音理解任务

在人工智能领域，语言模型的快速发展引发了语音理解语言模型（SULMs）的广泛关注。近日，西北工业大学 ASLP 实验室发布了开放语音理解模型 OSUM，旨在探索在学术资源有限的情况下，如何有效训练和利用语音理解模型，以推动学术界的研究与创新。 OSUM 模型融合了 Whisper 编码器与 Qwen2语言模型，支持8种语音任务，包括语音识别（ASR）、带时间戳的语音识别(SRWT)、语音事件检测(VED)、语音情感识别(SER)、说话风格识别(SSR)、说话人性别分类(SGC)、说话人年龄预测(SAP)及语音转文本聊天(STTC)。

2/20/2025 4:33:00 PM

AI在线

Mistral AI 发布 Saba:专注于中东和东南亚语言的AI模型

Mistral AI 近日推出了名为 Saba 的新型语言模型，该模型专注于提升对中东和东南亚地区语言及文化差异的理解。 Saba 模型拥有240亿参数，虽然规模小于许多竞争对手，但 Mistral AI 声称其在保证准确性的同时，提供了更高的速度和更低的成本。其架构可能与 Mistral Small3模型相似。

2/18/2025 9:20:00 AM

AI在线

本地部署 DeepSeek：打造你的专属 AI 推理环境，简单明了适合新手

随着 AI 大模型的爆发，DeepSeek 作为一款备受瞩目的开源大模型，吸引了众多开发者的关注。如何在本地搭建 DeepSeek 推理环境，以便更高效地进行 AI 研究和应用开发？本篇文章将为你详细解析本地部署 DeepSeek 的完整流程，让你轻松打造属于自己的 AI 推理环境。

2/12/2025 11:59:15 AM

派大星

AI意识更进一步！谷歌DeepMind等：LLM不仅能感受痛苦，还能趋利避害

在科幻电影《机械姬》中，女主角是一款能够感受痛苦的机器人；然而LLM为代表的AI能否感知痛苦和快乐，一直是存在争议。一些科学家认为，大模型缺乏相应的生理结构和神经系统，因此无法体验情感。而另一些人则认为，大模型能够生成关于痛苦和快乐的详细描述，并且能够在选择情境中权衡痛苦和快乐，这表明它们可能具有某种程度的情感体验。

2/10/2025 1:30:00 PM

新智元

LLM时代，计算蛋白质科学进展如何？香港理工大学等发布系统性综述

编辑丨coisini作为生命的基本构建单元，蛋白质在几乎所有基本生命活动中扮演着不可或缺的角色，例如新陈代谢、信号传导、免疫反应等。如下图所示，蛋白质遵循序列 - 结构 - 功能范式。图注：蛋白质遵循序列-结构-功能范式。

2/7/2025 6:25:00 PM

ScienceAI

重磅！斯坦福等高效联手推出AI训练新方法S1，成本暴降性能飙升！

斯坦福大学和华盛顿大学的研究团队近日联合发布了一项突破性的AI训练方法，该方法名为S1，其核心理念在于利用极简的测试时缩放技术来显著提升语言模型的推理能力。与以往依赖庞大算力或复杂算法不同，S1方法巧妙地通过控制模型在测试时的计算资源分配，实现了性能的飞跃。 S1方法首先精心构建了一个名为s1K的小型数据集，其中包含1000个高质量的推理问题。

2/6/2025 1:59:00 PM

AI在线