超越GPT-4o！开源科研神器登场，4500万篇论文检索增强生成靠谱回答

理论
11月26日
编辑

量子位

只需几秒钟，开源模型检索4500篇论文，比GPT-4o还靠谱！这就是由华盛顿大学和艾伦人工智能研究所（Ai2）打造的最新模型OpenScholar。它还是首个从论文到数据集、模型检查点都完全开源的科研助手模型。

只需几秒钟，开源模型检索4500篇论文，比GPT-4o还靠谱！

这就是由华盛顿大学和艾伦人工智能研究所（Ai2）打造的最新模型OpenScholar。

它还是首个从论文到数据集、模型检查点都完全开源的科研助手模型。

超越GPT-4o！开源科研神器登场，4500万篇论文检索增强生成靠谱回答

在由20位专家进行的500次对比实验中，72%的情况下他们都觉得OpenScholar的输出结果超越了人类。

超越GPT-4o！开源科研神器登场，4500万篇论文检索增强生成靠谱回答

而且OpenScholar还会附上参考文献列表，非常贴心：

超越GPT-4o！开源科研神器登场，4500万篇论文检索增强生成靠谱回答

超越GPT-4o！开源科研神器登场，4500万篇论文检索增强生成靠谱回答

它的功能也非常丰富。

你可以询问OpenScholar某个研究课题的现状：“有没有人尝试过将检索增强型LM的检索库扩大到万亿级tokens？”

超越GPT-4o！开源科研神器登场，4500万篇论文检索增强生成靠谱回答

寻找最新的数据集：

超越GPT-4o！开源科研神器登场，4500万篇论文检索增强生成靠谱回答

针对某篇论文询问技术细节：

超越GPT-4o！开源科研神器登场，4500万篇论文检索增强生成靠谱回答

或者询问算法的细节，比如机器人算法/ReLU算法等等：

超越GPT-4o！开源科研神器登场，4500万篇论文检索增强生成靠谱回答

有多位网友使用过后表示：做复杂课题也能快速搜集有用的资料，真是科研神器！

超越GPT-4o！开源科研神器登场，4500万篇论文检索增强生成靠谱回答

仅调用8B模型

一句话总结：它存储了4500万篇论文的大规模数据，并使用自定义训练的检索器、重排器和8B参数语言模型进行检索，并根据最新的科学文献内容回答问题。

超越GPT-4o！开源科研神器登场，4500万篇论文检索增强生成靠谱回答

具体来说，OpenScholar-8B（OS-8B）系统包括以下组件：

1.开放学者数据存储：包含超过4500万篇论文、以及对应的约2.5亿段落嵌入。底层论文数据截止到2024年10月。

2.专业检索器和重排序器：这些工具专门用于从科学文献数据存储库中识别相关段落。

3.专业8B语言模型：这是一个针对科学文献综合任务优化的8B参数语言模型，在性能与计算效率之间取得了很好平衡。团队基于来自迭代自我反馈生成管道生成的合成数据训练并微调了Llama 3.1 8B。

4.迭代自我反馈生成：在推理过程中，团队使用迭代自我反馈来通过自然语言反馈精炼模型输出。每次迭代都额外检索更多论文，使模型能够提高回答质量并缩小引用差距。

为了评估 OpenScholar，团队还开发了ScholarQABench——一个专门用于评估从多篇论文中综合信息以解决开放式科学问题的基准。

ScholarQABench包含七个数据集：三个专注于单篇论文评估的现有数据集，以及四个需要跨多篇论文综合的新收集数据集。

超越GPT-4o！开源科研神器登场，4500万篇论文检索增强生成靠谱回答

最终在实验自动评估以及人工评估中，OpenScholar模型的表现优于很多主流模型，包括GPT-4o和Llama 3.1 70B。

超越GPT-4o！开源科研神器登场，4500万篇论文检索增强生成靠谱回答

搜索的可靠性方面，OpenScholar更是远超GPT-4o。

GPT-4o在90%以上的情况下都引用了不存在的论文，而OpenScholar的结果都是来自确定来源。

以及在信息覆盖率、实用性、相关性等多个维度方面，OpenScholar撰写的结果都优于GPT-4o。

超越GPT-4o！开源科研神器登场，4500万篇论文检索增强生成靠谱回答

运营成本便宜100倍

对比基于OpenAI的GPT-4o和Anthropic的Claude的科研模型可以发现，它们虽然性能很强，但价格昂贵、而且工作原理也不透明。

而OpenScholar正是为了挑战这些现有的大模型玩家入局的！

据开发人员称，OpenScholar是首个完全开源的科学助手语言模型——从数据到训练食谱再到模型检查点，全部公开！

研究人员可以非常清除地看到模型的训练过程和数据集的内容等，也可以根据自己的工作进行调整。

这样一来，规模较小、架构简单的OpenScholar-8B的运营成本比基于GPT-4o构建的同期系统PaperQA2便宜100倍。

对于小型机构、资金不足的实验室以及发展中国家的研究人员来说，这样的运营成本非常有吸引力。

不过，目前OpenScholar也有很多局限，比如：

1.OpenScholar可能会引用不那么具有代表性的论文。

例如，在描述特定方法时，它可能未能引用提出该方法的原始论文，而是引用了提及该方法的另一篇论文。

2.OpenScholar有时可能会生成没有参考文献支持的响应，或者检索到该领域不是最相关或最新的论文。

例如：当被问及机器人学中的大型基础模型时，此响应引用了一篇具有3.07亿参数模型的论文，而截至2024年11月，机器人学中当前最大的基础模型（RT-2）具有550亿参数。

3.OpenScholar可能仍然可能生成带有幻觉的结果，而不是依赖于它检索到的真实论文。

4.许多科学论文都设置了付费墙。

目前出于对版权的尊重，OpenScholar数据存储库仅包含公开的论文。这可能会降低模型在较封闭领域回答问题的能力。

团队表示，未来他们会纳入更多论文、升级检索增强算法，也会对各个领域的经典研究问题和论文进行深入整合，增强OpenScholar的专业程度。

不过，从实验结果来看，OpenScholar已经是目前表现最好的AI学术研究助理之一啦，感兴趣的小伙伴可以直接戳下面的公开资料进行尝试！

Demo: https://openscholar.allen.ai/论文: https://openscholar.allen.ai/paperOpenScholar代码: https://github.com/AkariAsai/OpenScholarScholarQABench数据集代码: https://github.com/AkariAsai/ScholarQABench更多测试code: https://github.com/AkariAsai/OpenScholar_ExpertEval

给TA打赏

共{{data.count}}人

人已打赏

吴恩达开源大模型套件：11个模型平台一种方式调用，已获星标超1.2K

2024-11-26 14:20:00

盘点微软Ignite 2024大会上关于Azure AI的五大公告

2024-11-26 15:08:59

0 条回复 A文章作者 M管理员

更换删除

暂无讨论，说说你的看法吧

TOP1

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果
12月19日
TOP2

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物
12月19日
TOP3

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新
12月16日
腾讯云 ES：一站式 RAG 方案，开启智能搜索新时代
12月20日
Deepseek v3正式发布：用557.6万美金超越Claude 3.5 Sonnet的惊人杰作
12月27日
劲爆！理想汽车转做大模型，主持人质疑李想是否跟风：你有理想吗？李想自曝三次创业心得：终极是硅基家人，要做中国第一！
12月26日
2024年AI 编程现在可以做到什么程度？
12月18日
实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！
12月16日

❯

个人中心

今日签到

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

我的优惠劵

_￥_优惠劵
使用时效：无法使用
使用时效：
之前
使用时效：永久有效

优惠劵ID：
×
限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]
所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×
删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部