编辑 | ScienceAI
2024年3月12日,思必驰-上海交大智能人机交互联合实验室、苏州实验室共同发布了首个针对化学科学的百亿级业余化大模型ChemDFM。
模型参数现已完全开源以帮助和促进大模型帮助化学科研范畴的相干钻研(https://huggingface.co/OpenDFM/ChemDFM-13B-v1.0)。
此外,ChemDFM的钻研论文也已作为相干范畴的第一篇钻研论文于arXiv预印本网站上公开发表。
论文链接:https://arxiv.org/abs/2401.14818
ChemDFM模型基于经典开源大模型LLaMa,引入了海量的化学基础与前沿常识,充分学习并掌握化学科学的专有语言与表达方式,最终以130亿的参数量在大多数化学相干的威力上超越了公认最壮大的模型GPT-4。
此外,在进一步的评测中ChemDFM显示出了其他类似模型几乎不具备的联合内部常识了解和阐明熟悉份子的威力,实现了在面对熟悉份子或者熟悉反映时,联合相干的化学常识举行推理与回答。
模型建立
ChemDFM的建立主要由两个过程组成,范畴预训练与指令微调,钻研团队通过这两个阶段分别解决了大模型业余化过程中两个最主要的困难:通用大模型缺少业余常识以及难以了解业余语言。
通用数据所包括的化学业余常识是极其有限的,这导致了通用大模型所学习到的业余常识也极为有限。因此,钻研团队收集整理了大量公开的论文数据,通过筛选最终得到了近400万篇化学及相干学科的论文。此外,考虑到论文更多的蕴含前沿和探索性的常识,钻研团队还收集了大量化学课本及工具书等数据以提供基础性的常识。基于这些预料,钻研团队建立了340亿词元的预料库对通用大模型LLaMa举行范畴预训练。
除了业余常识外,具体的业余范畴中往往蕴含迥异于自然语言的特殊表达方式或「语言」。在化学范畴中,这一语言主要指的是化学份子与化学反映,他们所传达出的信息含量与密度往往远远高于自然语言。
为了帮助ChemDFM掌握化学份子与反映的了解威力,钻研团队从最大的份子数据库之一——PubChem以及最大的化学反映数据库之一——USPTO中收集了大量的数据,围绕最常用的序列化表达三维份子的语法——SMILES,建立了170余万条的数据,覆盖了份子识别、性质预测、反映预测等多种不同的化学威力,用以ChemDFM的指令微调训练。
此外,自然语言的了解和对话威力是大模型能够处理和解决全新场景下的熟悉问题的基础。因此,钻研团队向范畴预训练和指令微调的语料库中均引入了相当数量相应格式的通用数据,通过调整业余数据和通用数据的比例,最大限度的保持了ChemDFM的自然语言威力,实现了壮大的联合化学常识阐明熟悉份子和熟悉反映的威力。
客观评测
为了评估ChemDFM在化学范畴的业余威力,钻研团队在六种任务上对其举行了全方位的评测,全面的展示了ChemDFM在份子的识别、性质的预测、反映的了解等方面的威力,体现了模型解决化学业余问题的潜能。
评测结果显示,ChemDFM-13B在所有评测的任务中均表现优异,成绩远超LLaMa、Galactica等同等以上规模的开源大模型,在大多数任务上的成绩超过了GPT-4。考虑到GPT-4可能的模型规模,可以认为ChemDFM在化学业余范畴内具有壮大的了解、阐明与推理威力。
主观评测
大模型帮助科学钻研(AI for Science)的终极目标之一是建立能够帮助科研人员工作的智能体。要想达到这个目标,具有在真实场景下举行自由发散的对话形式人机合作的威力是必不可少的。
因此,仅能了解化学常识与化学份子是不够的,模型还需要能够识别并了解熟悉份子与熟悉化学反映,并运用学习到的化学常识举行阐明推理。
为了验证ChemDFM及相干模型的这项威力,钻研团队联合最新发表的化学论文建立了蕴含熟悉份子与熟悉反映的具体问题向大模型举行了提问,下图中展示了部分示例。
评测结果显示,同等规模以上的开源大模型仅能了解并「记忆」相干的化学常识,当问题中蕴含了熟悉的份子或反映时,难以生成针对性的解答,更不能对相干过程背后的反映机理举行阐明。
GPT-4能够在一定程度上联合具体情况做出阐明,但由于GPT-4的闭源性,无法判断训练数据中是否蕴含相干份子或类似问题。
而ChemDFM在很好的在阐明了解题目中出现的熟悉份子及反映的基础上,联合学习到的化学常识举行了具体的阐明和解答,并成功的给出了相应问题解答中的关键点,且会进一步尝试阐明反映机理。即使机理阐明存在一定的细节错误,ChemDFM还是能总体上给出正确的答案。
综上,本项评测仅有ChemDFM显示出联合化学常识对熟悉份子和反映举行阐明和推理并最终给出有针对性的解答的威力。
此外,ChemDFM还针对自由发散的人机对话举行了评测。在根据最新文献建立出的熟悉科研情景下,ChemDFM给出了自己的建议,并根据人类的反馈举行了改进或细化,初步展示出了作为科研助手帮助科学钻研的潜力。
总结和展望
ChemDFM不仅在多项不同角度的化学范畴业余问题上显著提升了大模型的性能,同时展现出了在熟悉场景下的自由发散的对话形式交互的壮大威力。
ChemDFM初步实现了真正意义上的化学范畴通用人工智能,为大模型帮助科学钻研的进一步发展开启了新的探索方向和角度。
相信基于ChemDFM的进一步探索和完善,例如多模态的引入、范畴工具的调用、幻觉的减少等,将加速智能化学科研助手的出现及自动化智能化的化学钻研发展,从而缩短研发周期,降低研发成本,并最终助力药学、材料学等相干学科的全过程智能化以及高质高效的发展,创造不可忽视的社会效益。