7B小模型写好学术论文，新框架告别AI引用幻觉，实测100%学生认可引用质量

2025-04-11 09:12

学术写作通常需要花费大量精力查询文献引用，而以ChatGPT、GPT-4等为代表的通用大语言模型（LLM）虽然能够生成流畅文本，但经常出现“引用幻觉”（Citation Hallucination），即模型凭空捏造文献引用。这种现象严重影响了学术论文的可信度与专业性。现在，加拿大滑铁卢大学与卡内基梅隆大学的华人研究团队，提出了一种名为 ScholarCopilot 的智能学术写作大模型框架，专门针对学术场景，致力于精准地生成带有准确引用的学术文本。

学术写作通常需要花费大量精力查询文献引用，而以ChatGPT、GPT-4等为代表的通用大语言模型（LLM）虽然能够生成流畅文本，但经常出现“引用幻觉”（Citation Hallucination），即模型凭空捏造文献引用。这种现象严重影响了学术论文的可信度与专业性。

现在，加拿大滑铁卢大学与卡内基梅隆大学的华人研究团队，提出了一种名为 ScholarCopilot 的智能学术写作大模型框架，专门针对学术场景，致力于精准地生成带有准确引用的学术文本。

ScholarCopilot与传统方法的区别

传统的检索增强生成（Retrieval-Augmented Generation, RAG）方法采用“先检索、再生成”的静态流程，这种方式存在以下问题：

检索与生成过程相互独立，容易导致意图不匹配；
无法根据上下文需求动态调整引用策略，影响引用准确性。

针对这些局限性，ScholarCopilot提出了一种“边生成、边检索”的动态机制：

在生成文本时，模型动态地判断何时需要引用文献，并生成一个特殊的检索信号（[RET]）；
随后实时检索学术数据库中的相关文献，将检索到的内容融入后续生成过程；
通过联合优化生成任务和检索任务，提升引用的准确度与相关性。

简单来说，ScholarCopilot的写作方式更接近人类真实的写作习惯：平时正常撰写论文内容，当需要引用文献时再主动检索相关文献的BibTeX信息插入引用，随后继续撰写下文。同时，模型在撰写后续内容时，也会参考已插入的引用文献，确保生成的文本与引用内容紧密相关。

ScholarCopilot的性能表现

研究团队以阿里云近期发布的Qwen-2.5-7B模型为基础，使用了50万篇arXiv论文进行训练，并在多个维度上进行了性能评估：

引用检索准确性（Top-1 accuracy）达到40.1%，显著超过现有的检索模型：

E5-Mistral-7B-Instruct（15.0%）
BM25（9.8%）

论文生成质量方面（包括相关性、连贯性、学术严谨性、完整性和创新性），综合得分为16.2（满分25），高于参数量更大的Qwen-2.5-72B-Instruct模型（15.8）和Qwen-2.5-7B-Instruct模型（13.9）。

在一项由10位拥有平均4.2年学术写作经验的学生（5名博士、4名硕士、1名本科生）参与的真人评测中：

ScholarCopilot在引用质量上的用户偏好率达到100%；
整体实用性偏好率超过70%。

ScholarCopilot的不足与未来方向

尽管取得了显著进步，ScholarCopilot仍存在一些局限性。通过上述用户调研，受访者提出了以下几点改进建议：

内容生成更全面：模型在生成内容的丰富性与信息全面性方面仍需进一步提升；
创新性不足：目前模型在生成创新性想法和研究问题方面表现一般，还有较大改进空间。

此外，受访者还建议未来版本可考虑：

与主流学术写作平台（如Overleaf）进行更紧密的整合；
支持分章节独立生成和任意光标位置的文本预测功能。

研究团队表示，这些反馈意见为后续开发提供了明确的改进方向。

后续展望

ScholarCopilot研究团队希望通过不断优化模型性能、扩展检索数据库和改进用户交互体验，让研究人员在学术写作中能更专注于研究本身，而非繁琐的文献检索与引用管理。

当前相关论文、代码与模型已经公开发布，感兴趣的读者可自行了解详细信息，进一步体验与评估该模型的实际表现：

论文链接：https://arxiv.org/pdf/2504.00824项目网站：https://tiger-ai-lab.github.io/ScholarCopilot/演示视频：https://www.youtube.com/watch?v=QlY7S52sWDA

复旦主导，中美等8个国家25家单位44名学者联合发布大模型安全技术综述

近年来，随着大模型的快速发展和广泛应用，其安全问题引发了社会各界的广泛关注。例如，近期发生的「全球首例利用 ChatGPT 策划的恐袭事件」再次敲响了警钟，凸显了大模型安全问题的紧迫性和重要性。为应对这一挑战，来自中美英德等 8 个国家 25 家高校和科研机构的 44 位 AI 安全领域学者联合发布了一篇系统性技术综述论文。

2/20/2025 11:31:31 AM

机器之心

谷歌发布最强「科研辅助神器」！能帮你提新idea，三大真实场景实证

在科学探索的过程中，研究人员需要对以往发表的文献进行观察总结，提出一些新颖、可行的研究方向，最后通过全面的实验进行idea验证。科研人员需要对探索的宽度和深度进行平衡，由于精力有限，不能探索过多的研究方向，同时还要保证对目标主题的研究深度。最近，谷歌、斯坦福大学等机构的研究人员开发了一个多智能体、基于Gemini 2.0的AI协同科研（AI co-scientist）系统，具备跨复杂主题的综合能力和进行长期规划、推理的能力，除了传统的文献综述、总结功能之外，还可以辅助科研人员提出新的、原创知识，或是基于先前的成果制定研究假设(hypotheses)和计划(proposal)。

2/26/2025 1:50:00 PM

新智元

官宣！OpenAI前CTO新公司：北大校友翁荔加盟，创始29人2/3来自OpenAI

正式官宣！ OpenAI前CTO Mira Murati 成立新公司——Thinking Machines Lab。整个创业团队可以说前所未有之豪华了，三分之二的都是以前的OpenAI旧部追随——其中包括OpenAI前研究（后训练）副总裁Barret Zoph，担任公司CTO；刚刚离职Anthropic、OpenAI离职联创John Schulman，任公司首席科学家，还有包括前OpenAI VP、北大校友翁荔等等。

2/19/2025 9:20:30 AM

量子位

资讯热榜

企业级模型推理部署工具vllm使用指南 - 部署最新deepseek-v3-0324模型上海AI实验室开源InternVL3系列多模态大型语言模型 50组多风格提示词，全面测评Midjourney V7生图效果！全日程揭晓！ICLR 2025论文分享会我们北京见斯坦福2025 AI指数出炉！中美AI对决差距仅剩0.3%，DeepSeek领衔 5分钟直出46页论文！谷歌Deep Research完爆OpenAI，最强Gemini 2.5加持击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！ ChatGPT重大更新，能翻出所有历史对话，网友被AI聊破防了

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D AI设计 Anthropic 机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习苹果模态 AI视频驾驶文本 xAI 搜索人形机器人大语言模型 Copilot 神器推荐 LLaMA 字节跳动具身智能 Claude 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

顶部