测试大语言模型的生物推理能力，GPT-4、PaLM2等均在测试之列

2024-01-02 10:22

编辑 | 萝卜皮大型语言模型（LLM）的最新进展，为将通用人工智能 (AGI) 整合到生物研究和教育中提供了新机遇。在最新的研究中，佐治亚大学和梅奥诊所的研究人员评估了几个领先的 LLM（包括 GPT-4、GPT-3.5、PaLM2、Claude2 和 SenseNova）回答概念生物学问题的能力。这些模型在包含 108 个问题的多项选择考试中进行了测试，涵盖分子生物学、生物技术、代谢工程和合成生物学等生物学主题。在这些模型中，GPT-4 获得了 90 分的最高平均分，并且在不同提示的试验中表现出最大的一致性。结果

编辑 | 萝卜皮

大型语言模型（LLM）的最新进展，为将通用人工智能 (AGI) 整合到生物研究和教育中提供了新机遇。

在最新的研究中，佐治亚大学和梅奥诊所的研究人员评估了几个领先的 LLM（包括 GPT-4、GPT-3.5、PaLM2、Claude2 和 SenseNova）回答概念生物学问题的能力。

这些模型在包含 108 个问题的多项选择考试中进行了测试，涵盖分子生物学、生物技术、代谢工程和合成生物学等生物学主题。在这些模型中，GPT-4 获得了 90 分的最高平均分，并且在不同提示的试验中表现出最大的一致性。

结果表明，GPT-4 具有逻辑推理能力，并且具有通过数据分析、假设生成和知识整合等功能帮助生物学研究的潜力。但是在 LLM 加速生物发现方面，仍需要进一步的开发和验证。

该研究以「Evaluating the Potential of Leading Large Language Models in Reasoning Biology Questions」为题，于 2023 年 11 月 5 日发布在 arXiv预印平台。

测试大语言模型的生物推理能力，GPT-4、PaLM2等均在测试之列

大型语言模型 (LLM) 是先进的深度学习算法，可以处理书面或口头提示并生成响应这些提示的文本。这些模型最近变得越来越流行，现在正在帮助许多用户创建长文档的摘要、获得品牌名称的灵感、找到简单查询的快速答案以及生成各种其他类型的文本。

佐治亚大学和梅奥诊所的研究人员评估了不同 LLM 的生物学知识和推理能力。

「我们最近发表的文章证明了人工智能对生物研究的重大影响。」该论文的合著者 Zhengliang Liu 表示，「这项研究诞生于 LLM 的快速采用和发展，特别是在 2022 年 11 月 ChatGPT 引人注目推出之后。这些进步被视为迈向通用人工智能（AGI）的关键一步，标志着生物学领域从传统生物技术方法向以人工智能为中心的方法论的转变。」

在最近的研究中，该团队着手更好地了解 LLM 作为进行生物学研究的工具的潜在价值。虽然过去的许多研究强调这些模型在广泛领域的实用性，但它们推理生物数据和概念的能力尚未得到深入评估。

「本文的主要目标是评估和比较领先的 LLM（例如 GPT-4、GPT-3.5、PaLM2、Claude2 和 SenseNova）理解和推理生物学相关问题的能力。」Liu 说，「这是通过包含 108 个问题的多项选择考试进行的仔细评估，涵盖分子生物学、生物技术、代谢工程和合成生物学等不同领域。」

测试大语言模型的生物推理能力，GPT-4、PaLM2等均在测试之列

图示：五个 LLM 在生物测试中的总体表现。（来源：论文）

Liu 团队计划确定当今一些主流的 LLM 如何处理和分析生物信息，同时评估它们产生相关生物学假设和解决生物学相关逻辑推理任务的能力。研究人员使用多项选择测试比较了五种不同 LLM 的表现。

「多项选择测试通常用于评估 LLM ，因为测试结果可以轻松评分/评估/比较。」该论文的合著者 Jason Holmes 解释道，「对于这项研究，生物学专家设计了包含几个子类别的 108 个问题多项选择测试。」

研究人员向 LLM 询问了他们编制的测试中的每个问题五次。然而，每次有人问问题时，他们都会改变措辞方式。

「对每个 LLM 多次询问同一问题的目的是确定平均表现和答案的平均变化。」Holmes 解释道，「我们改变了措辞，以免意外地将我们的结果基于导致性能变化的最佳或次优指令措辞。这种方法还让我们了解在现实世界的使用中性能会如何变化，用户不会以同样的方式提出问题。」

研究人员进行的测试收集了不同 LLM 在协助生物学研究人员方面的潜在效用的见解。总体而言，他们的结果表明 LLM 对各种生物学相关问题反应良好，同时也能准确地关联植根于基础分子生物学、常见分子生物学、代谢工程和合成生物学的概念。

测试大语言模型的生物推理能力，GPT-4、PaLM2等均在测试之列

图示：按类别划分测试中五个 LLM 的表现。(来源：论文)

「值得注意的是，GPT-4 在接受检查的 LLM 中表现出了卓越的性能，在使用不同提示的五项试验中，我们的多项选择测试平均得分为 90 分。」该论文的合著者 Xinyu Gong 说，「除了获得总体最高测试分数之外，GPT-4 在整个试验中还表现出极大的一致性，突显了其与同行模型相比在生物学推理方面的可靠性。这些发现强调了 GPT-4 协助生物学研究和教育的巨大能力。」

该研究团队最近的研究可能很快会激发更多的工作，进一步探索 LLM 在生物学领域的可用性。迄今为止收集的结果表明，LLM 可以成为研究和教育的有用工具，例如支持学生的生物学辅导、创建交互式学习工具以及创建可测试的生物学假设。

「本质上，我们的论文代表了将先进人工智能（尤其是 LLM）的能力与复杂且快速发展的生物学领域相融合的开创性努力。」Liu 说，「它标志着生物学研究的新篇章，将人工智能不仅定位为支持工具，而且定位为导航和破译广阔而复杂的生物景观的核心要素。」

LLM 的未来发展及其对生物数据的进一步训练，可以为重要的科学发现铺平道路，同时也可以创建更先进的教育工具。该团队现在正计划在这一领域进行进一步的研究。

在接下来的工作中，他们首先计划制定策略来克服与使用 GPT-4（支撑 ChatGPT 的 LLM ）相关的计算需求和隐私相关问题。这可以通过开发开源 LLM 来自动化基因注释和表型-基因型配对等任务来实现。

「我们将利用 GPT-4 的知识蒸馏，创建指令跟踪数据来微调 LLaMA 基础模型等本地模型。」该论文的合著者 Zihao Wu 说。

「该战略将利用 GPT-4 的功能，同时解决隐私和成本问题，使生物学界更容易使用先进的工具。此外，借助 GPT-4V 的视觉功能，我们将把研究扩展到多模式分析，重点关注天然药物分子，例如抗癌剂或疫苗佐剂，特别是那些生物合成途径未知的分子。」

「我们将研究它们的化学和生物合成途径以及潜在应用。GPT-4V 识别分子结构的能力将增强我们对复杂多模式数据的分析，促进我们对合成生物学药物发现和开发的理解和应用。」

论文链接：https://arxiv.org/abs/2311.07582

相关报道：https://techxplore.com/news/2023-12-biological-capabilities-large-language.html

OpenAI推全新语音转录模型gpt-4o-transcribe，语音转文字准确率飙升

继此前在语音 AI 领域引发一些关注后，OpenAI并未停下在该领域探索的脚步，现在这家ChatGPT的创造者再次发力，推出了三款全新的自主研发语音模型，分别为:gpt-4o-transcribe， gpt-4o-mini-transcribe and gpt-4o-mini-tts。其中最受瞩目的当属gpt-4o-transcribe。目前，这些新模型已经率先通过应用程序接口（API）向第三方开发者开放，开发者们可以利用它们打造更智能的应用程序。

3/21/2025 9:01:00 AM

AI在线

OpenAI发布GPT-4.1系列模型：能力全面超越前代

4月15日，OpenAI 在其官方博客宣布正式发布 GPT-4.1系列模型，涵盖 GPT-4.1、GPT-4.1mini 和 GPT-4.1nano 三款子模型。该系列在编程能力、指令理解及长文本处理等方面实现重大突破，全面超越前代 GPT-4o 及 GPT-4o mini。其中，模型上下文窗口扩展至100万 tokens，知识库更新至2024年6月，为复杂任务提供更强支持。

4/15/2025 9:00:45 AM

AI在线

OpenAI发布GPT-4.1系列模型，编码与多模态能力全面升级

人工智能领域的竞争日趋白热化，OpenAI再次以技术突破引领潮流。 AIbase从社交媒体获悉，OpenAI于近日通过API形式发布了三款全新模型:GPT-4.1、GPT-4.1mini和GPT-4.1nano。这些模型在性能上全面超越现有GPT-4o及GPT-4o mini，尤其在编码、指令遵循和多模态能力上表现突出。

4/15/2025 10:01:37 AM

AI在线

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ Haisnap横空出世，小白用户也能轻松打造AI应用 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 本地部署DeepSeek+DiFy平台构建智能体应用韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人驾驶 xAI 文本搜索字节跳动大语言模型 Copilot Claude 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

顶部

测试大语言模型的生物推理能力，GPT-4、PaLM2等均在测试之列

相关资讯

OpenAI推全新语音转录模型gpt-4o-transcribe，语音转文字准确率飙升

OpenAI发布GPT-4.1系列模型：能力全面超越前代

OpenAI发布GPT-4.1系列模型，编码与多模态能力全面升级