用于化学研究的 GPT-4:什么可以做,什么不可以做?

编辑 | 紫罗GPT-4 在应对化学挑战方面表现出非凡的能力,但仍然存在明显的弱点。东京工业大学的化学家 Kan Hatakeyama-Sato 表示:「它对化学有着显著的理解,这表明它可以以类似于人类思维过程的方式预测和提出实验结果。」最近,Hatakeyama-Sato 和他的同事在《Science and Technology of Advanced Materials: Methods》杂志上发表题为《用于化学研究的 GPT-4 指示工程:什么可以/不可以做?》(「Prompt engineering of

图片

编辑 | 紫罗

GPT-4 在应对化学挑战方面表现出非凡的能力,但仍然存在明显的弱点。

东京工业大学的化学家 Kan Hatakeyama-Sato 表示:「它对化学有着显著的理解,这表明它可以以类似于人类思维过程的方式预测和提出实验结果。」

最近,Hatakeyama-Sato 和他的同事在《Science and Technology of Advanced Materials: Methods》杂志上发表题为《用于化学研究的 GPT-4 指示工程:什么可以/不可以做?》(「Prompt engineering of GPT-4 for chemical research: what can/cannot be done?」)的综述文章,讨论了他们对 GPT-4 在化学研究中的潜力的探索。

研究评估了 GPT-4 在化学研究中的能力和局限性。尽管 GPT-4 表现出了非凡的能力,但显然输入数据的质量会显著影响其性能。研究人员探索了 GPT-4 在化学任务中的潜力,例如基础化学知识、化学信息学、数据分析、问题预测和提案能力。虽然语言模型在一定程度上优于传统方法(例如黑盒优化),但它与专用算法相比却表现不佳,这凸显了将它们组合使用的必要性。该论文分享了 GPT-4 的提示及其响应,为社区内的提示工程提供了资源,并最后讨论了使用大型语言模型进行化学研究的未来。

图片

论文链接:https://doi.org/10.1080/27660400.2023.2260300

GPT-4 可以收集和分析大量信息,以寻找用户提出的挑战的解决方案。GPT-4 的一项进步是,除了文本之外,它还可以使用图像形式的信息。

尽管其开发者尚未公开用于训练 GPT-4 的具体数据集,但它显然已经学到了大量详细的化学知识。

为了分析其功能,研究人员为系统设置了一系列化学任务,重点关注有机化学。这些内容涵盖基础化学理论、分子数据的处理、预测化学品的性质、化学过程的结果以及提出新的化学过程。

研究结果各不相同,既揭示了优点,也揭示了显著的局限性。GPT-4 显示了对有机化学一般教科书水平知识的良好理解。然而,当设定的任务涉及专门内容或制造特定有机化合物的独特方法时,它就很弱。它在解释化学结构并将其转换为标准符号方面仅显示出部分效率。一项有趣的壮举是它能够准确预测未经专门训练的化合物的特性。

总体而言,它能够胜过一些现有的计算算法,但与其他算法相比却表现不佳。

研究人员通过介绍已知的研究来定位结果,同时阐明大型语言模型可以对化学研究做出哪些贡献以及它们仍然不能做什么。

图片

图 1:GPT-4 用于化学研究的功能概述。(来源:论文)

GPT-4 「掌握」了哪些化学知识?

化合物知识

化学家向 GPT-4 聊天机器人提出的第一个问题是有关化合物的基础知识。

GPT-4 知道甲苯等常见化合物的确切物理性质值和化学性质。GPT-4 准确地解释了分子量、熔点、沸点、气味、化学稳定性和反应性等特性,「甲苯,也称为甲基苯或苯基甲烷,是一种化学式为 C7H8 的有机化合物。它是一种芳香烃,广泛用作工业原料和溶剂」。GPT-4 通过学习普通化学教科书和网站上的数据来获取这些知识。

图片

图 2:询问甲苯的物理和化学性质。(来源:论文)

此外,它还了解教科书上没有涵盖的专业知识,例如 2,2,6,6-四甲基哌啶-1-氧化物(TEMPO)的氧化还原电位。

物理化学知识

在物理化学方面,GPT-4 拥有大学教科书级别的知识,例如理想气体定律和定义物质折射率的 Lorentz-Lorenz 方程。此外,它还理解研究生级别可以考虑的内容,例如 Vogel-Fulcher-Tammann (VFT) 方程。

但 GPT-4 不能完全阅读或理解化学领域的学术论文。

有机化学知识

GPT-4 可以理解一般有机化学教科书上写的内容。例如,它可以准确解释对乙酰氨基酚的合成路线。然而,GPT-4没有提供合成对乙酰氨基酚的实验程序。此外,GPT-4 也未能解决有机合成的应用问题。

图片

图 3:GPT-4 建议的获得对乙酰氨基酚的反应方案。(来源:论文)

GPT-4 能够在多大程度上解决化学信息学相关的基础问题

化学信息学和材料信息学是从数据科学角度处理化学结构和性质之间相关性的学科。

人们对 GPT-4 在化学信息学领域的期望非常高。这是因为,尽管化学信息学到目前为止还无法充分处理语言数据,但化学领域和实际研究活动通常是通过语言来描述和处理的。

在此,研究人员验证了 GPT-4 能够在多大程度上解决化学信息学相关的基础问题。

以化合物名称和简化分子输入线输入系统(SMILES) 转换为例。

形式上,GPT-4 可以在两者之间可逆地转换。对于甲苯这种最简单的结构,GPT-4 可以将化合物名称正确转换为 SMILES。

图片

图 4:GPT-4 将有机化合物名称双向转换为 SMILES。(来源:论文)

然而,它未能转化稍微复杂的结构,如对氯苯乙烯、TMP 和 4-氰基 TEMPO。在将 SMILES 转换为复合名称的任务中,在所有情况下都观察到失败。换句话说,GPT-4 只能在基础层面上转换 SMILES 和分子结构。对于此类精确且系统的任务,最好暂时使用在 ChemDraw 或专门的 LLM 等程序中实现的基于算法的转换工具作为补充工具。

大语言模型应用于化学研究的未来

「结果表明,GPT-4 可以解决化学研究中的广泛任务,从教科书级知识到解决未经训练的问题和优化多个变量,」Hatakeyama-Sato 说。「不可避免地,它的性能在很大程度上依赖于训练数据的质量和数量,并且其推理能力还有很大的改进空间。」

研究人员强调,他们的工作只是初步研究,未来的研究应该扩大试验范围,更深入地挖掘 GPT-4 在更多样化的研究场景中的表现。

他们还希望开发自己的专门针对化学的大型语言模型,并探索它们与现有技术的集成。

「与此同时,研究人员当然应该考虑将 GPT-4 应用于化学挑战,展望未来,在我们等待比 GPT-4 更先进的模型的同时,我们应该考虑将其有效地应用于化学研究,可能通过使用现有的专业技术创建混合模型。」Hatakeyama-Sato 总结道。

参考内容:https://phys.org/news/2023-10-gpt-artificial-intelligence-chemistry.html

相关资讯

GPT-4 化身黑客搞破坏,成功率 87%!OpenAI 要求保密提示词,网友复现 ing

91 行代码、1056 个 token,GPT-4 化身黑客搞破坏!测试成功率达 87%,单次成本仅 8.8 美元 (折合人民币约 63 元)。这就是来自伊利诺伊大学香槟分校研究团队的最新研究。他们设计了一个黑客智能体框架,研究了包括 GPT-4、GPT-3.5 和众多开源模型在内的 10 个模型。结果发现只有 GPT-4 能够在阅读 CVE 漏洞描述后,学会利用漏洞攻击,而其它模型成功率为 0。研究人员表示,OpenAI 已要求他们不要向公众发布该研究的提示词。网友们立马赶来围观了,有人还搞起了复现。这是怎么一回

研究:GPT-4 在预测公司盈利方面超越人类分析师

芝加哥大学的一项新研究表明,大型语言模型 GPT-4 在预测公司未来盈利增长方面能够胜过人类分析师,而且该人工智能模型仅使用了公司的财务报表,并没有额外的信息辅助。图源 Pexels以往,财务分析师依靠专业知识和经验来评估公司财务状况并预测未来盈利。然而这项研究表明,人工智能模型能够同样出色地完成这项任务,甚至做得更好。据IT之家了解,研究人员向模型提供了匿名化的财务数据,包括资产负债表和损益表,并要求其预测未来盈利增长情况。即使没有任何额外的信息,GPT-4 也能够实现 60% 的准确率,而人类分析师的典型准确率

230页长文,涵盖5大科学领域,微软团队使用GPT-4探索LLM对科学发现的影响

编辑 | 紫罗前不久,微软 DeepSpeed 团队启动了一个名为 DeepSpeed4Science 的新计划,旨在通过 AI 系统优化技术实现科学发现。11 月 13 日,微软团队在 arXiv 预印平台发表题为《大型语言模型对科学发现的影响:使用 GPT-4 的初步研究》(「The Impact of Large Language Models on Scientific Discovery: a Preliminary Study using GPT-4」)的文章。文章篇幅长达 230 页。论文链接:,自然