浙大团队发布 75 页迷信 LLM 观察,重心关注生物和化学范畴,指出七个未来发展方向

编辑 | X大型谈话模型 (LLM) 已成为增强自然谈话理解的变革力量,代表着通用人工智能的重大进步。LLM 的应用超越了传统的谈话界限,涵盖了迷信范畴各学科中开发的专业谈话系统。这也导致了迷信 LLM 的出现。作为迷信人工智能(AI for Science)范畴的一个新兴范畴,迷信 LLM 值得片面索求。然而,目前缺乏系统的、最新的观察来介绍它们。近日,来自浙江大学的研讨团队,系统地描述了「迷信谈话」的概念,同时对迷信 LLM 的最新进展进行了片面回首。鉴于迷信学科范畴广阔,该分析重心关注生物和化学范畴。这包括对

浙大团队发布 75 页迷信 LLM 观察,重心关注生物和化学范畴,指出七个未来发展方向

编辑 | X

大型谈话模型 (LLM) 已成为增强自然谈话理解的变革力量,代表着通用人工智能的重大进步。LLM 的应用超越了传统的谈话界限,涵盖了迷信范畴各学科中开发的专业谈话系统。这也导致了迷信 LLM 的出现。

作为迷信人工智能(AI for Science)范畴的一个新兴范畴,迷信 LLM 值得片面索求。然而,目前缺乏系统的、最新的观察来介绍它们。

近日,来自浙江大学的研讨团队,系统地描述了「迷信谈话」的概念,同时对迷信 LLM 的最新进展进行了片面回首。鉴于迷信学科范畴广阔,该分析重心关注生物和化学范畴。这包括对 LLM 的文本常识、小份子、大份子蛋白质、基因组序列及其组合进行深入检查,并根据模型架构、功能、数据集和评价对其进行分析。

最后,研讨职员批判性地审视当前的挑衅,并指出有希望的研讨方向以及 LLM 的进步。片面概述该范畴的技术发展,本次观察将成为研讨职员在迷信 LLM 错综复杂的范畴中索求的宝贵资源。

论文一作表示:「我们关于迷信大谈话模型的 75 页观察,特别关注生物和化学范畴。我们总结了文本、份子、蛋白质和基因组 LLM 的最新进展,更有趣的是,它们的比对。」

浙大团队发布 75 页迷信 LLM 观察,重心关注生物和化学范畴,指出七个未来发展方向

该综述以「Scientific Large Language Models: A Survey on Biological & Chemical Domains」为题,于 2024 年 1 月 26 日发布在预印平台 arXiv 上。

浙大团队发布 75 页迷信 LLM 观察,重心关注生物和化学范畴,指出七个未来发展方向

论文链接:https://arxiv.org/abs/2401.14656

目前,LLM 是处理自然谈话和收集世界常识的尖端工具。LLM 的卓越表现激发了其在当今时代演变成通用人工智能(AGI)的希望。

除了自然谈话之外,为了封装更专业的迷信常识,还开发了各种迷信谈话,如图 1 所示。

这包括迷信研讨范畴的文本表达、定义数学公式的数学谈话、表示份子结构的化学谈话(例如 SMILES),以及描述蛋白质或基因组并详细描述生物体复杂构成的生物学谈话。这些迷信谈话有其奇异的词汇,其中每个术语都具有与自然谈话完全不同的特定含义。

浙大团队发布 75 页迷信 LLM 观察,重心关注生物和化学范畴,指出七个未来发展方向

图 1:说明一般 LLM 难以有效处理迷信谈话,例如本例中的份子、RNA 和氨基酸序列。(来源:论文)

为了促进对迷信谈话的理解,研讨职员设计了针对各个迷信范畴和学科定制的迷信大谈话模型 (Sci-LLM)。作为人工智能迷信研讨中的一个新兴范畴,许多迷信 LLM 已经提出了修改后的架构、学习方法、训练语料库以及评价基准和标准。

尽管取得了显著的成就,但这些模型大多是在各自的研讨范畴内进行索求的。目前还缺乏一个片面的综述来统一这些谈话建模的进展。

专注于生物和化学范畴的 LLM

在本次观察中,研讨职员通过系统地回首迷信 LLM 的技术进步并密切参考普通 LLM 来填补这一空白。研讨重心放在生物和化学谈话上。具体来说,涵盖了份子谈话、蛋白质谈话和基因组谈话。

除了这些专门的迷信谈话之外,以自然谈话撰写的教科书、专利和研讨论文中蕴含的大量迷信常识。因此,索求侧重于迷信常识的文本 LLM,更重要的是,涵盖各种类型的迷信谈话的多模态 LLM。

在深入研讨每种谈话系统时,首先回首 LLM 架构并将其分为三类:仅编码器、仅解码器和编码器-解码器。然后报告了模型功能,并总结 Sci-LLM 可以执行的典型下游任务。在模型训练和评价方面,研讨收集了一堆常用的训练语料和评价基准。最后,研讨职员提出了迷信谈话建模的判别性和生成性任务的适当标准。

这项观察仅限于特定范围内。首先,关注迷信谈话,特别是化学和生物谈话。其次,在讨论文本 LLM 时,重心仍然是用自然谈话表达的化学和生物范畴常识。第三,技术索求主要局限于基于 Transformer 的谈话模型。

浙大团队发布 75 页迷信 LLM 观察,重心关注生物和化学范畴,指出七个未来发展方向

图 2:本次观察中 Sci-LLM 的研讨范围。专注于生物化学迷信范畴内的迷信谈话(即文本、份子、蛋白质和基因组谈话)及其组合(即多模态谈话)。(来源:论文)

这项观察的奇异界限使其有别于其他对 LLM 以及份子、蛋白质和基因组计算模型的评论。与主要以自然谈话为中心的谈话相比,研讨重心更倾向于迷信谈话。与仅关注份子、蛋白质或基因组数据的观察不同,目标是为化学和生物研讨提供谈话模型的片面视图。此外,深入研讨多模态 LLM,索求文本和份子/蛋白质/基因组谈话之间的相互作用。

该观察的贡献可总结如下:

对迷信范畴内的谈话建模进行片面回首,涵盖文本、份子、蛋白质和基因组谈话,强调特定范畴的常识。

提供了现有 Sci-LLM 的详细摘要,涵盖模型架构、功能、训练数据、评价基准和评价标准。还在图 3 中展示了 Sci-LLM 的进化树。

列举了 sci-LLM 的可用资源,在 https://github.com/HICAI-ZJU/Scientific-LLM-Survey 开源并维护相关材料,从而为该范畴的新手提供便利。

本次观察首次片面概述了多模态迷信 LLM 的设计,旨在索求各种迷信谈话之间的相互作用。

浙大团队发布 75 页迷信 LLM 观察,重心关注生物和化学范畴,指出七个未来发展方向

图 3:Sci-LLM 的进化树,由与本次观察的研讨范围相对应的五个主要分支组成。(来源:论文)

最后,研讨职员讨论了 Sci-LLM 的研讨挑衅和未来索求的潜在途径。鉴于生成式 LLM 在迷信应用中的巨大优势和日益突出的地位,讨论主要集中在这些生成式 Sci-LLM 上。这种有针对性的方法使我们能够彻底研讨生成模型在推进 Sci-LLM 范畴所提供的奇异方面和可能性。

四个关键挑衅

尽管之前的研讨在 Sci-LLM 范畴取得了显著的进步,但重要的是要承认这一研讨范畴仍处于起步阶段。在准备这项观察的过程中,研讨职员对现有研讨进行了彻底检查,并确定了一些尚未解决的关键挑衅。这些挑衅凸显了 Sci-LLM 研讨的不断发展性质,并强调了在该范畴继续索求的必要性。

1. 训练数据:数据是人工智能模型开发的基础。在索求 Sci-LLM 时,关注影响其发展和有效性的关键因素。包括:预训练数据集的规模、微调数据集的质量、缺乏跨模态数据集。

2. 架构和学习目标:虽然大多数 LLM 依靠基于 Transformer 的架构来学习谈话中的语义相关性,但这种方法可能不太适合 Sci-LLM。这种不匹配有几个原因:处理较长的序列、纳入 3D 结构信息、自回归学习目标的局限性。

3. 模型评价:LLM 的有效评价仍然是研讨重心的关键范畴。然而,Sci-LLM 的奇异性质需要采用量身定制的评价方法。

4. 道德:Sci-LLM 的开发和应用中的伦理考虑是多方面且至关重要的。首先,数据隐私和同意至关重要。其次,存在滥用信息的风险。最后,确保公平获得 Sci-LLM 的好处,防止迷信研讨和医疗保健范畴现有不平等现象加剧,是道德上的当务之急。

七个未来发展方向

为了推动人工智能驱动的迷信发现范畴的发展,提出了未来索求的七个有前景的研讨方向。

构建更大规模、高质量、跨模态的训练数据集。

将 3D 立体信息纳入迷信谈话系统。

Sci-LLM 与外部常识资源的结合。

Sci-LLM 与物理仿真交互。

使用专业工具和代理增强 Sci-LLM。

计算评价指标和基准的制定。

与人类伦理超级一致。

研讨职员表示:我们的目标是为人工智能和基础迷信界提供片面而有见地的资源,促进合作并推动「人工智能促进迷信」研讨议程。通过有效地对迷信谈话进行建模,LLM 为实现通用人工智能铺平了一条更稳定的道路。

GitHub 地址:https://github.com/HICAI-ZJU/Scientific-LLM-Survey

给TA打赏
共{{data.count}}人
人已打赏
应用

Midjourney 又变强了!一文详解新性能 Style Reference

2024-2-5 8:46:45

应用

AI贺年火了,通义千问上线一张照片生成贺年视频

2024-2-5 12:06:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索