为百亿参数LLM化学应用提供新范式，香港理工大学提出上下文份子微调

作者 | 香港理工大学李佳潼编辑 | ScienceAI去年，香港理工大学研究团队开发了一个基于检索的提示范式MolReGPT，利用大型谈话模型探索份子发现，在份子和份子文本形容之间进行翻译。近日，香港理工大学、上海交通大学和上海人工智能实行室联合发表了题为《Large Language Models are In-Context Molecule Learners》的文章，也是MolReGPT

作者 | 香港理工大学李佳潼

编辑 | ScienceAI

去年，香港理工大学研究团队开发了一个基于检索的提示范式MolReGPT，利用大型谈话模型探索份子发现，在份子和份子文本形容之间进行翻译。

近日，香港理工大学、上海交通大学和上海人工智能实行室联合发表了题为《Large Language Models are In-Context Molecule Learners》的文章，也是MolReGPT[1]的续作。

为百亿参数LLM化学应用提供新范式，香港理工大学提出上下文份子微调

论文链接：https://arxiv.org/abs/2403.04197

模型链接：https://huggingface.co/phenixace/

介绍

近来，大谈话模型在生物化学范围展现出了优异的机能，尤其是份子-形容翻译使命[1]，这减小了自然谈话形容与份子空间的差异。

但是，之前的方法要么是需要进行大量的范围预训练，要么是在份子与形容的对齐上存在过于粗糙的问题[2]，要么是对大谈话模型的能力和参数规模有着严苛的要求[1]。

为了解决这些问题，我们提出了上下文份子微调（ICMA），作为一个让大谈话模型进修份子-形容对齐的新方法。

具体来说，上下文份子微调由以下三个部分组成：混杂模态上下文召回，召回后重排，和上下文份子微调。

首先，混杂模态上下文召回沿用了BM25和份子图召回分别对份子形容和份子进行召回，以增强模型的输入。此外，为了解决召回中存在的不准确、样本间过度重复等问题，我们设计了两个召回后处理方法：序列反转和随机游走，以提升召回结果的质量。最后，上下文份子微调借助于大谈话模型的上下文进修能力，生成最终的份子/份子形容。

我们在ChEBI-20[3]和PubChem324K[2]两个份子-份子形容数据集上展开实行，实行结果表明，上下文份子微调可以使得Mistral-7B在份子-份子形容上取得SOTA或接近的结果，无需范围预训练和复杂的模型结构。

我们的贡献在于：上下文份子微调不需要额外的范围预训练就可以发挥作用，为最新最先进的十亿甚至百亿参数大谈话模型在化学使命上的运用提供了新思路。与此同时，上下文份子微调通过进修上下文例子中份子形容片断与份子SMILES结构的对应关系，精细化了份子形容和份子的对齐。此外，上下文份子微调不那么依赖于模型的上下文进修和推理能力，即便是稍小的模型也能获得良好的机能增益。

方法

份子的类似性原理指出，类似的份子一般会具有类似的性质，如图1所示。借助于份子SMILES和份子形容片断的对应，我们可以基于这些共现信息大致推理出，如果有另一个类似的份子，它的SMILES片断会对应哪些相应份子形容片断，即具有什么样的结构和化学性质。

为百亿参数LLM化学应用提供新范式，香港理工大学提出上下文份子微调

图1: 三个类似份子以及他们的份子形容。份子可以被表示为SMILES表达式或者份子图，而份子形容说明了份子的特征。这里三个份子在图结构上是类似的，份子形容中重叠的地方被蓝色和粉色标出。

因此，在这篇文章中，我们提出了上下文份子微调（ICMA），其流程如图2所示，总共三个阶段：混杂模态上下文召回，召回后重排，和上下文份子微调。

为百亿参数LLM化学应用提供新范式，香港理工大学提出上下文份子微调

图2: 上下文份子微调（ICMA）框架。

混杂模态上下文召回

召回的质量对上下文例子的信息量至关重要，如果我们召回到的份子足够类似，那么他们在形容中的重叠就很可能会更多，这样模型就可以更好地进修到份子SMILES片断与形容片断的对应。

本文提出了混杂模态上下文召回，在份子形容召回过程中，沿用了BM25对文本模态进行召回。而在份子召回过程中，我们提出了份子图召回，从图模态来召回类似的份子。

在份子到形容使命中，ICMA首先采用份子图召回（取代了MolReGPT[1]的Morgan份子指纹）去提升份子召回的质量。份子图召回首先采用一个图神经网络去对份子图进行编码，得到份子图向量:

为百亿参数LLM化学应用提供新范式，香港理工大学提出上下文份子微调

召回后重排

为百亿参数LLM化学应用提供新范式，香港理工大学提出上下文份子微调

上下文份子微调

为百亿参数LLM化学应用提供新范式，香港理工大学提出上下文份子微调

研究结果

本文的实行在ChEBI-20和PubChem324K两个数据集上展开。表2、3列出了ChEBI-20数据集上，上下文份子微调和直接微调、基线模型的效验比较。首先，在两个子使命上，上下文份子微调相较于直接微调都可以带来可观的机能增益，而相较于先前的基线模型，上下文份子微调也可以取得SOTA或者相接近的机能。

为百亿参数LLM化学应用提供新范式，香港理工大学提出上下文份子微调

表4、5列出了PubChem324K数据集上，上下文份子微调与直接微调的效验比较，其结果与ChEBI-20的结果相类似，上下文份子微调相较于直接微调都带来了可观的表现增益。

为百亿参数LLM化学应用提供新范式，香港理工大学提出上下文份子微调

与此同时，本文也展开了大量的实行去探究影响上下文份子微调效验的因素，集中探究了召回算法对效验的影响、上下文设置的影响、不同基座模型的影响（模型类型和模型参数量）

表6、7展示了使用不同召回算法进行上下文份子微调的效验区别，显示出BM25和份子图召回所带来的效验增益。

为百亿参数LLM化学应用提供新范式，香港理工大学提出上下文份子微调

图3则说明了上下文设置（例子数量和截断长度）对上下文份子微调的影响，表明截断长度必须适应上下文长度，以及例子增多所可能带来的负面影响（如过多的噪声）。

为百亿参数LLM化学应用提供新范式，香港理工大学提出上下文份子微调

图3: 模型机能随着上下文设置（例子数量和截断长度）变化的比较。

而图4则展现了上下文份子微调所具备的scaling law，更大的模型因其具有更强的上下文进修和推理能力，因而会获得更好的上下文份子微调效验。

为百亿参数LLM化学应用提供新范式，香港理工大学提出上下文份子微调

图4: 上下文份子微调（ICMA）的scaling law，这里选取了Galactica-125M，Galactica-1.3B，和Mistral-7B进行比较。

表11、12进一步说明了上下文份子微调的通用性，可以使得不同的大模型都能够在份子-形容翻译使命上取得机能增益，而不仅仅局限于某一个或者某一类模型。

为百亿参数LLM化学应用提供新范式，香港理工大学提出上下文份子微调

最后，如表8、9所示，消融实行也论证了召回后重排策略所带来的机能增益。

为百亿参数LLM化学应用提供新范式，香港理工大学提出上下文份子微调

结论

本文提出了上下文份子微调，作为一个新的范式，来将大谈话模型运用到份子-形容翻译使命上，不需要额外的范围预训练和复杂的模型结构，上下文份子微调使得大谈话模型能够运用他们的上下文进修和推理能力进修到份子和形容之间的对齐，提升了大谈话模型在份子-形容翻译使命上的能力，也表明了大谈话模型是天然的上下文份子进修者。我们的方法为将十亿以上的大谈话模型运用到科学范围提供了新方法和新思路。

参考文献：

[1] Li, J., Liu, Y., Fan, W., Wei, X. Y., Liu, H., Tang, J., & Li, Q. (2024). Empowering molecule discovery for molecule-caption translation with large language models: A chatgpt perspective. IEEE Transactions on Knowledge and Data Engineering.

[2] Liu, Z., Li, S., Luo, Y., Fei, H., Cao, Y., Kawaguchi, K., … & Chua, T. S. (2023). Molca: Molecular graph-language modeling with cross-modal projector and uni-modal adapter. arXiv preprint arXiv:2310.12798.

[3] Edwards, C., Lai, T., Ros, K., Honke, G., Cho, K., & Ji, H. (2022). Translation between molecules and natural language. arXiv preprint arXiv:2204.11817.

[4] Xia, J., Zhao, C., Hu, B., Gao, Z., Tan, C., Liu, Y., … & Li, S. Z. (2022, September). Mole-bert: Rethinking pre-training graph neural networks for molecules. In The Eleventh International Conference on Learning Representations.

{{userData.name}}已认证

为百亿参数LLM化学应用提供新范式，香港理工大学提出上下文份子微调

登Nature子刊，中科院计算所团队开发CarbonDesign，进行准确且稳健的蛋白质序列安排

超衍射极限1.5倍，成像条件低10倍，清华、中国科学院用AI法子提高显微镜分辨率

最强文生图 AI 模型 Flux 再进化：出图速度快 6 倍，Elo 评分冲上 1153 傲视群雄

AI 架构 Transformer 再进化：谷歌新方法突破长文本处理，注意力模块内存需求可降至 1/47

最新 AI 生图模型 Flux1.1 隐藏玩法，添加单反相机文件名获得超写实图像

快手可灵 AI 新增“对口型”功能：生成人物口型与上传音频同步

Meta 用 AI 生成北极光图片，遭网友怒喷

奥特曼赢家通吃！OpenAI再揽66亿美元新融资，还不忘「狙击」一把老同事Ilya

Meta 发布 AI 视频生成器 Movie Gen：可自动生成含声音的高清视频

AI 赋能游戏开发：Valve 工程师借助 ChatGPT 改进《Deadlock》匹配算法