尝试大语言模型的生物推理本领，GPT-4、PaLM2等均在尝试之列

编辑 | 萝卜皮大型语言模型（LLM）的最新进展，为将通用人工智能 (AGI) 整合到生物钻研和教育中提供了新机遇。在最新的钻研中，佐治亚大学和梅奥诊所的钻研职员评价了几个领先的 LLM（包括 GPT-4、GPT-3.5、PaLM2、Claude2 和 SenseNova）回答概念生物学课题的本领。这些模型在包含 108 个课题的多项抉择考试中进行了尝试，涵盖分子生物学、生物技术、代谢工程和分解生物学等生物学主题。在这些模型中，GPT-4 获得了 90 分的最高平均分，并且在分歧提醒的试验中显露出最大的一致性。结果

编辑 | 萝卜皮

大型语言模型（LLM）的最新进展，为将通用人工智能 (AGI) 整合到生物钻研和教育中提供了新机遇。

在最新的钻研中，佐治亚大学和梅奥诊所的钻研职员评价了几个领先的 LLM（包括 GPT-4、GPT-3.5、PaLM2、Claude2 和 SenseNova）回答概念生物学课题的本领。

这些模型在包含 108 个课题的多项抉择考试中进行了尝试，涵盖分子生物学、生物技术、代谢工程和分解生物学等生物学主题。在这些模型中，GPT-4 获得了 90 分的最高平均分，并且在分歧提醒的试验中显露出最大的一致性。

结果表明，GPT-4 具有逻辑推理本领，并且具有通过数据分析、假设生成和知识整合等功能帮助生物学钻研的潜力。但是在 LLM 加速生物发现方面，仍需要进一步的开发和验证。

该钻研以「Evaluating the Potential of Leading Large Language Models in Reasoning Biology Questions」为题，于 2023 年 11 月 5 日发布在 arXiv预印平台。

尝试大语言模型的生物推理本领，GPT-4、PaLM2等均在尝试之列

大型语言模型 (LLM) 是进步的深度学习算法，可以处理书面或口头提醒并生成响应这些提醒的文本。这些模型最近变得越来越流行，现在正在帮助许多用户创立长文档的摘要、获得品牌名称的灵感、找到简单查询的快速答案以及生成各种其他类型的文本。

佐治亚大学和梅奥诊所的钻研职员评价了分歧 LLM 的生物学知识和推理本领。

「我们最近发表的文章证明了人工智能对生物钻研的重大影响。」该论文的合著者 Zhengliang Liu 表示，「这项钻研诞生于 LLM 的快速采用和发展，特别是在 2022 年 11 月 ChatGPT 引人注目推出之后。这些进步被视为迈向通用人工智能（AGI）的关键一步，标志着生物学规模从传统生物技术方法向以人工智能为中心的方法论的转变。」

在最近的钻研中，该团队着手更好地了解 LLM 作为进行生物学钻研的东西的潜在价值。虽然过去的许多钻研强调这些模型在广泛规模的实用性，但它们推理生物数据和概念的本领尚未得到深入评价。

「本文的主要目标是评价和比较领先的 LLM（例如 GPT-4、GPT-3.5、PaLM2、Claude2 和 SenseNova）理解和推理生物学相干课题的本领。」Liu 说，「这是通过包含 108 个课题的多项抉择考试进行的仔细评价，涵盖分子生物学、生物技术、代谢工程和分解生物学等分歧规模。」

尝试大语言模型的生物推理本领，GPT-4、PaLM2等均在尝试之列

图示：五个 LLM 在生物尝试中的总体显露。（来源：论文）

Liu 团队计划确定当今一些主流的 LLM 如何处理和分析生物信息，同时评价它们产生相干生物学假设和解决生物学相干逻辑推理任务的本领。钻研职员使用多项抉择尝试比较了五种分歧 LLM 的显露。

「多项抉择尝试通常用于评价 LLM ，因为尝试结果可以轻松评分/评价/比较。」该论文的合著者 Jason Holmes 解释道，「对于这项钻研，生物学专家设计了包含几个子类别的 108 个课题多项抉择尝试。」

钻研职员向 LLM 询问了他们编制的尝试中的每个课题五次。然而，每次有人问课题时，他们都会改变说话方式。

「对每个 LLM 多次询问同一课题的目的是确定平均显露和答案的平均变化。」Holmes 解释道，「我们改变了说话，以免意外地将我们的结果基于导致性能变化的最佳或次优指令说话。这种方法还让我们了解在现实世界的使用中性能会如何变化，用户不会以同样的方式提出课题。」

钻研职员进行的尝试收集了分歧 LLM 在协助生物学钻研职员方面的潜在效用的见解。总体而言，他们的结果表明 LLM 对各种生物学相干课题反应良好，同时也能准确地关联植根于基础分子生物学、常见分子生物学、代谢工程和分解生物学的概念。

尝试大语言模型的生物推理本领，GPT-4、PaLM2等均在尝试之列

图示：按类别划分尝试中五个 LLM 的显露。(来源：论文)

「值得注意的是，GPT-4 在接受检查的 LLM 中显露出了卓越的性能，在使用分歧提醒的五项试验中，我们的多项抉择尝试平均得分为 90 分。」该论文的合著者 Xinyu Gong 说，「除了获得总体最高尝试分数之外，GPT-4 在整个试验中还显露出极大的一致性，突显了其与同行模型相比在生物学推理方面的可靠性。这些发现强调了 GPT-4 协助生物学钻研和教育的巨大本领。」

该钻研团队最近的钻研可能很快会激发更多的工作，进一步探索 LLM 在生物学规模的可用性。迄今为止收集的结果表明，LLM 可以成为钻研和教育的有用东西，例如支持学生的生物学辅导、创立交互式学习东西以及创立可尝试的生物学假设。

「本质上，我们的论文代表了将进步人工智能（尤其是 LLM）的本领与复杂且快速发展的生物学规模相融合的开创性努力。」Liu 说，「它标志着生物学钻研的新篇章，将人工智能不仅定位为支持东西，而且定位为导航和破译广阔而复杂的生物景观的核心要素。」

LLM 的未来发展及其对生物数据的进一步训练，可以为重要的科学发现铺平道路，同时也可以创立更进步的教育东西。该团队现在正计划在这一规模进行进一步的钻研。

在接下来的工作中，他们首先计划制定策略来克服与使用 GPT-4（支撑 ChatGPT 的 LLM ）相干的计算需求和隐私相干课题。这可以通过开发开源 LLM 来自动化基因注释和表型-基因型配对等任务来实现。

「我们将利用 GPT-4 的知识蒸馏，创立指令跟踪数据来微调 LLaMA 基础模型等本地模型。」该论文的合著者 Zihao Wu 说。

「该战略将利用 GPT-4 的功能，同时解决隐私和成本课题，使生物学界更容易使用进步的东西。此外，借助 GPT-4V 的视觉功能，我们将把钻研扩展到多模式分析，重点关注天然药物分子，例如抗癌剂或疫苗佐剂，特别是那些生物分解途径未知的分子。」

「我们将钻研它们的化学和生物分解途径以及潜在应用。GPT-4V 识别分子结构的本领将增强我们对复杂多模式数据的分析，促进我们对分解生物学药物发现和开发的理解和应用。」

论文链接：https://arxiv.org/abs/2311.07582

相干报道：https://techxplore.com/news/2023-12-biological-capabilities-large-language.html

{{userData.name}}已认证

尝试大语言模型的生物推理本领，GPT-4、PaLM2等均在尝试之列

AIGC落地实践！四招帮你快速搞定经营设想

你们有什么底气和google叫板？Perplexity AI CEO回应质疑

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

ChatGPT遇到这些人名开始自闭，OpenAI回应了

平安人寿ChatBI：大模型智能化报表的深度实践

字节跳动豆包 AI 文生图“喜提新技能”：App 可生成带有指定文字的图片

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

OpenAI 从谷歌 DeepMind 挖角三名高级工程师，专注于多模态 AI 研发

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！