作者 | 香港理工大学李佳潼
编辑 | ScienceAI
去年,香港理工大学研究团队开发了一个基于检索的提示范式MolReGPT,利用大型谈话模型探索份子发现,在份子和份子文本形容之间进行翻译。
近日,香港理工大学、上海交通大学和上海人工智能实行室联合发表了题为《Large Language Models are In-Context Molecule Learners》的文章,也是MolReGPT[1]的续作。
论文链接:https://arxiv.org/abs/2403.04197
模型链接:https://huggingface.co/phenixace/
介绍
近来,大谈话模型在生物化学范围展现出了优异的机能,尤其是份子-形容翻译使命[1],这减小了自然谈话形容与份子空间的差异。
但是,之前的方法要么是需要进行大量的范围预训练,要么是在份子与形容的对齐上存在过于粗糙的问题[2],要么是对大谈话模型的能力和参数规模有着严苛的要求[1]。
为了解决这些问题,我们提出了上下文份子微调(ICMA),作为一个让大谈话模型进修份子-形容对齐的新方法。
具体来说,上下文份子微调由以下三个部分组成:混杂模态上下文召回,召回后重排,和上下文份子微调。
首先,混杂模态上下文召回沿用了BM25和份子图召回分别对份子形容和份子进行召回,以增强模型的输入。此外,为了解决召回中存在的不准确、样本间过度重复等问题,我们设计了两个召回后处理方法:序列反转和随机游走,以提升召回结果的质量。最后,上下文份子微调借助于大谈话模型的上下文进修能力,生成最终的份子/份子形容。
我们在ChEBI-20[3]和PubChem324K[2]两个份子-份子形容数据集上展开实行,实行结果表明,上下文份子微调可以使得Mistral-7B在份子-份子形容上取得SOTA或接近的结果,无需范围预训练和复杂的模型结构。
我们的贡献在于:上下文份子微调不需要额外的范围预训练就可以发挥作用,为最新最先进的十亿甚至百亿参数大谈话模型在化学使命上的运用提供了新思路。与此同时,上下文份子微调通过进修上下文例子中份子形容片断与份子SMILES结构的对应关系,精细化了份子形容和份子的对齐。此外,上下文份子微调不那么依赖于模型的上下文进修和推理能力,即便是稍小的模型也能获得良好的机能增益。
方法
份子的类似性原理指出,类似的份子一般会具有类似的性质,如图1所示。借助于份子SMILES和份子形容片断的对应,我们可以基于这些共现信息大致推理出,如果有另一个类似的份子,它的SMILES片断会对应哪些相应份子形容片断,即具有什么样的结构和化学性质。
图1: 三个类似份子以及他们的份子形容。份子可以被表示为SMILES表达式或者份子图,而份子形容说明了份子的特征。这里三个份子在图结构上是类似的,份子形容中重叠的地方被蓝色和粉色标出。
因此,在这篇文章中,我们提出了上下文份子微调(ICMA),其流程如图2所示,总共三个阶段:混杂模态上下文召回,召回后重排,和上下文份子微调。
图2: 上下文份子微调(ICMA)框架。
混杂模态上下文召回
召回的质量对上下文例子的信息量至关重要,如果我们召回到的份子足够类似,那么他们在形容中的重叠就很可能会更多,这样模型就可以更好地进修到份子SMILES片断与形容片断的对应。
本文提出了混杂模态上下文召回,在份子形容召回过程中,沿用了BM25对文本模态进行召回。而在份子召回过程中,我们提出了份子图召回,从图模态来召回类似的份子。
在份子到形容使命中,ICMA首先采用份子图召回(取代了MolReGPT[1]的Morgan份子指纹)去提升份子召回的质量。份子图召回首先采用一个图神经网络去对份子图进行编码,得到份子图向量:
召回后重排
上下文份子微调
研究结果
本文的实行在ChEBI-20和PubChem324K两个数据集上展开。表2、3列出了ChEBI-20数据集上,上下文份子微调和直接微调、基线模型的效验比较。首先,在两个子使命上,上下文份子微调相较于直接微调都可以带来可观的机能增益,而相较于先前的基线模型,上下文份子微调也可以取得SOTA或者相接近的机能。
表4、5列出了PubChem324K数据集上,上下文份子微调与直接微调的效验比较,其结果与ChEBI-20的结果相类似,上下文份子微调相较于直接微调都带来了可观的表现增益。
与此同时,本文也展开了大量的实行去探究影响上下文份子微调效验的因素,集中探究了召回算法对效验的影响、上下文设置的影响、不同基座模型的影响(模型类型和模型参数量)
表6、7展示了使用不同召回算法进行上下文份子微调的效验区别,显示出BM25和份子图召回所带来的效验增益。
图3则说明了上下文设置(例子数量和截断长度)对上下文份子微调的影响,表明截断长度必须适应上下文长度,以及例子增多所可能带来的负面影响(如过多的噪声)。
图3: 模型机能随着上下文设置(例子数量和截断长度)变化的比较。
而图4则展现了上下文份子微调所具备的scaling law,更大的模型因其具有更强的上下文进修和推理能力,因而会获得更好的上下文份子微调效验。
图4: 上下文份子微调(ICMA)的scaling law,这里选取了Galactica-125M,Galactica-1.3B,和Mistral-7B进行比较。
表11、12进一步说明了上下文份子微调的通用性,可以使得不同的大模型都能够在份子-形容翻译使命上取得机能增益,而不仅仅局限于某一个或者某一类模型。
最后,如表8、9所示,消融实行也论证了召回后重排策略所带来的机能增益。
结论
本文提出了上下文份子微调,作为一个新的范式,来将大谈话模型运用到份子-形容翻译使命上,不需要额外的范围预训练和复杂的模型结构,上下文份子微调使得大谈话模型能够运用他们的上下文进修和推理能力进修到份子和形容之间的对齐,提升了大谈话模型在份子-形容翻译使命上的能力,也表明了大谈话模型是天然的上下文份子进修者。我们的方法为将十亿以上的大谈话模型运用到科学范围提供了新方法和新思路。
参考文献:
[1] Li, J., Liu, Y., Fan, W., Wei, X. Y., Liu, H., Tang, J., & Li, Q. (2024). Empowering molecule discovery for molecule-caption translation with large language models: A chatgpt perspective. IEEE Transactions on Knowledge and Data Engineering.
[2] Liu, Z., Li, S., Luo, Y., Fei, H., Cao, Y., Kawaguchi, K., … & Chua, T. S. (2023). Molca: Molecular graph-language modeling with cross-modal projector and uni-modal adapter. arXiv preprint arXiv:2310.12798.
[3] Edwards, C., Lai, T., Ros, K., Honke, G., Cho, K., & Ji, H. (2022). Translation between molecules and natural language. arXiv preprint arXiv:2204.11817.
[4] Xia, J., Zhao, C., Hu, B., Gao, Z., Tan, C., Liu, Y., … & Li, S. Z. (2022, September). Mole-bert: Rethinking pre-training graph neural networks for molecules. In The Eleventh International Conference on Learning Representations.