编辑 | ScienceAI
2024年3月12日,思必驰-上海交大智能人机交互联合实验室、苏州实验室共同发布了首个针对化学科学的百亿级专业化大模型ChemDFM。
模型参数现已完全开源以帮助和促进大模型辅助化学科研领域的相关研究(https://huggingface.co/OpenDFM/ChemDFM-13B-v1.0)。
此外,ChemDFM的研究论文也已作为相关领域的第一篇研究论文于arXiv预印本网站上公开发表。
论文链接:https://arxiv.org/abs/2401.14818
ChemDFM模型基于经典开源大模型LLaMa,引入了海量的化学基础与前沿知识,充分学习并掌握化学科学的专有语言与表达方式,最终以130亿的参数量在大多数化学相关的能力上超越了公认最强大的模型GPT-4。
此外,在进一步的评测中ChemDFM显示出了其他类似模型几乎不具备的结合内部知识理解和分析陌生分子的能力,实现了在面对陌生分子或者陌生反应时,结合相关的化学知识进行推理与回答。
模型构建
ChemDFM的构建主要由两个过程组成,领域预训练与指令微调,研究团队通过这两个阶段分别解决了大模型专业化过程中两个最主要的困难:通用大模型缺少专业知识以及难以理解专业语言。
通用数据所包括的化学专业知识是极其有限的,这导致了通用大模型所学习到的专业知识也极为有限。因此,研究团队收集整理了大量公开的论文数据,通过筛选最终得到了近400万篇化学及相关学科的论文。此外,考虑到论文更多的包含前沿和探索性的知识,研究团队还收集了大量化学课本及工具书等数据以提供基础性的知识。基于这些预料,研究团队构建了340亿词元的预料库对通用大模型LLaMa进行领域预训练。
除了专业知识外,具体的专业领域中往往包含迥异于自然语言的特殊表达方式或「语言」。在化学领域中,这一语言主要指的是化学分子与化学反应,他们所传达出的信息含量与密度往往远远高于自然语言。
为了帮助ChemDFM掌握化学分子与反应的理解能力,研究团队从最大的分子数据库之一——PubChem以及最大的化学反应数据库之一——USPTO中收集了大量的数据,围绕最常用的序列化表达三维分子的语法——SMILES,构建了170余万条的数据,覆盖了分子识别、性质预测、反应预测等多种不同的化学能力,用以ChemDFM的指令微调训练。
此外,自然语言的理解和对话能力是大模型能够处理和解决全新场景下的陌生问题的基础。因此,研究团队向领域预训练和指令微调的语料库中均引入了相当数量相应格式的通用数据,通过调整专业数据和通用数据的比例,最大限度的保持了ChemDFM的自然语言能力,实现了强大的结合化学知识分析陌生分子和陌生反应的能力。
客观评测
为了评估ChemDFM在化学领域的专业能力,研究团队在六种任务上对其进行了全方位的评测,全面的展示了ChemDFM在分子的识别、性质的预测、反应的理解等方面的能力,体现了模型解决化学专业问题的潜能。
评测结果显示,ChemDFM-13B在所有评测的任务中均表现优异,成绩远超LLaMa、Galactica等同等以上规模的开源大模型,在大多数任务上的成绩超过了GPT-4。考虑到GPT-4可能的模型规模,可以认为ChemDFM在化学专业领域内具有强大的理解、分析与推理能力。
主观评测
大模型辅助科学研究(AI for Science)的终极目标之一是构建能够辅助科研人员工作的智能体。要想达到这个目标,具有在真实场景下进行自由发散的对话形式人机合作的能力是必不可少的。
因此,仅能理解化学知识与化学分子是不够的,模型还需要能够识别并理解陌生分子与陌生化学反应,并运用学习到的化学知识进行分析推理。
为了验证ChemDFM及相关模型的这项能力,研究团队结合最新发表的化学论文构建了包含陌生分子与陌生反应的具体问题向大模型进行了提问,下图中展示了部分示例。
评测结果显示,同等规模以上的开源大模型仅能理解并「记忆」相关的化学知识,当问题中包含了陌生的分子或反应时,难以生成针对性的解答,更不能对相关过程背后的反应机理进行分析。
GPT-4能够在一定程度上结合具体情况做出分析,但由于GPT-4的闭源性,无法判断训练数据中是否包含相关分子或类似问题。
而ChemDFM在很好的在分析理解题目中出现的陌生分子及反应的基础上,结合学习到的化学知识进行了具体的分析和解答,并成功的给出了相应问题解答中的关键点,且会进一步尝试分析反应机理。即使机理分析存在一定的细节错误,ChemDFM还是能总体上给出正确的答案。
综上,本项评测仅有ChemDFM显示出结合化学知识对陌生分子和反应进行分析和推理并最终给出有针对性的解答的能力。
此外,ChemDFM还针对自由发散的人机对话进行了评测。在根据最新文献构建出的陌生科研情景下,ChemDFM给出了自己的建议,并根据人类的反馈进行了改进或细化,初步展示出了作为科研助手辅助科学研究的潜力。
总结和展望
ChemDFM不仅在多项不同角度的化学领域专业问题上显著提升了大模型的性能,同时展现出了在陌生场景下的自由发散的对话形式交互的强大能力。
ChemDFM初步实现了真正意义上的化学领域通用人工智能,为大模型辅助科学研究的进一步发展开启了新的探索方向和角度。
相信基于ChemDFM的进一步探索和完善,例如多模态的引入、领域工具的调用、幻觉的减少等,将加速智能化学科研助手的出现及自动化智能化的化学研究发展,从而缩短研发周期,降低研发成本,并最终助力药学、材料学等相关学科的全过程智能化以及高质高效的发展,创造不可忽视的社会效益。