可跨学科理解、多标准建模,MIT LAMM 团队发布微调的大谈话模型 MechGPT

编辑 | 萝卜皮 几个世纪以来,研讨职员一直在寻找连接差别范围学问的方法。随着人工智能的出现,我们现在可以试探跨范围(例如,力学-生物学)或差别范围(例如,生效力学-艺术)的关系。为了实现这一目标,麻省理工学院(MIT)原子与分子力学实验室 (Laboratory for Atomistic and Molecular Mechanics,LAMM)的研讨职员运用了经过微调的大型谈话模型 (LLM),来获取多标准资料生效的学问子集。该方法包括运用通用 LLM 从原始泉源中提炼问答对,然后进行 LLM 微调。由此产生

可跨学科理解、多标准建模,MIT LAMM 团队发布微调的大谈话模型 MechGPT

编辑 | 萝卜皮 

几个世纪以来,研讨职员一直在寻找连接差别范围学问的方法。随着人工智能的出现,我们现在可以试探跨范围(例如,力学-生物学)或差别范围(例如,生效力学-艺术)的关系。

为了实现这一目标,麻省理工学院(MIT)原子与分子力学实验室 (Laboratory for Atomistic and Molecular Mechanics,LAMM)的研讨职员运用了经过微调的大型谈话模型 (LLM),来获取多标准资料生效的学问子集。

该方法包括运用通用 LLM 从原始泉源中提炼问答对,然后进行 LLM 微调。由此产生的 MechGPT LLM 基础模型用于一系列计算实验,从而可以试探其学问检索、各种谈话任务、假设生成以及跨差别范围连接学问的能力。

尽管该模型具有一定的能力来回忆训练中的学问,但研讨职员发现 LLM 对于通过本质学问图提炼结构观点更加有意义。这些可解释的图形结构提供了解释性观点、新研讨问题的框架以及学问的视觉表示,这些学问也可用于检索增强生成。

该研讨以「MechGPT, a Language-Based Strategy for Mechanics and Materials Modeling That Connects Knowledge Across Scales, Disciplines and Modalities」为题,于 2023 年 10 月 19 日发布在《Applied Mechanics Reviews》。

可跨学科理解、多标准建模,MIT LAMM 团队发布微调的大谈话模型 MechGPT

对物理、生物和形而上学观念进行建模一直是许多学科研讨职员关注的焦点。早期的迷信家和工程师往往深深扎根于从迷信到哲学、物理到数学以及艺术的多个范围(例如伽利略·伽利莱、列奥纳多·达·芬奇、约翰·沃尔夫冈·冯·歌德),但是随着迷信的发展,专业化在如今已经占据主导地位。部分原因是跨范围积累了大量学问,这需要人类花大量的精力去研讨实践。

现在,大型谈话模型 (LLM) 的出现挑战了迷信探究的范式,不仅带来了基于人工智能/机器学习的新建模政策,而且还带来了跨范围连接学问、想法和观念的机会。这些模型可以补充传统的多标准建模,用于分层资料的分析和设计以及力学中的许多其他应用。

可跨学科理解、多标准建模,MIT LAMM 团队发布微调的大谈话模型 MechGPT

图:工作流程示意图。(泉源:论文)

在这里,LAMM 的研讨职员以最近提出的 LLM 在力学和资料研讨和开发中的用途为基础,并且基于 Llama-2 based OpenOrca-Platypus2-13B 的通用 LLM,开发了一个经过微调的 MechGPT 模型,该模型专注于模型资料生效、多标准建模以及相关学科。

选择 OpenOrca-Platypus2-13B 模型是因为其在推理、逻辑、数学/迷信和其他学科等关键任务上具有高水平的性能,能够以可管理的模型大小提供跨学科的广泛的、可转移的学问和通用观念,并提供计算效率。

LLM 在迷信范围有着强大的应用。除了能够分析大量数据和复杂系统之外,在力学和资料迷信范围,LLM 用于模拟和预测资料在差别条件下的行为,例如机械应力、温度和化学相互作用等。正如早期工作所示,通过在分子动力学模拟的大型数据集上训练 LLM,研讨职员可以开发能够预测新情况下资料行为的模型,从而加速发现过程并减少实验测试的需要。

此类模型对于分析书籍和出版物等迷信文本也非常有效,使研讨职员能够从大量数据中快速提炼关键信息和观点。这可以帮助迷信家识别趋势、模式以及差别观念和想法之间的关系,并为进一步研讨产生新的假设和想法。

可跨学科理解、多标准建模,MIT LAMM 团队发布微调的大谈话模型 MechGPT

图:用于构建 MechGPT 的自回归解码器 transformer 架构概述。(泉源:论文)

在这里,该团队将重点放在后者的开发上,并试探 MechGPT 的运用,这是基于 Transformer 的 LLM 系列中的一种生成人工智能东西,专门针对资料生效和相关的多标准方法进行了训练,从而评估这些政策的潜力。

该研讨提出的政策包括几个步骤,包括首先是蒸馏步骤,其中研讨职员运用 LLM 从原始数据块(例如从一个或多个 PDF 文件中提炼的文本)中生成问答对,然后在第二步中利用这些数据来微调模型。这里试探的初始 MechGPT 模型在资料生效的原子建模范围进行了专门训练,并证明了其在学问检索、通用谈话任务、假设生成等方面的有用性。

可跨学科理解、多标准建模,MIT LAMM 团队发布微调的大谈话模型 MechGPT

图:所运用的建模政策概述。(泉源:论文)

论文里,研讨职员介绍了总体建模政策,运用特定谈话建模政策生成数据集以从源中提炼学问,然后运用新颖的力学和资料数据集训练模型。研讨职员分析讨论了 MechGPT 的三个版本,其参数大小从 130 亿到 700 亿不等,上下文长度达到超过 10,000 个 token。

在对模型、提示以及训练方式进行一些一般性评论之后,研讨职员应用该模型并在各种设置中测试其性能,包括运用 LLM 进行本质图生成和开发有关跨学科复杂主题的观点,以及代理建模,其中多个 LLM 以协作或对抗的方式交互,以产生对主题范围或问题回答的更深入的观点。

可跨学科理解、多标准建模,MIT LAMM 团队发布微调的大谈话模型 MechGPT

图:开发本质学问图表示,以在超音速断裂和蛋白质展开机制的背景下关联超弹性。(泉源:论文)

同时,该团队进一步提供了差别抽象级别的谈话模型和多粒子系统之间的观念比较,并解释了如何将新框架视为提炼管理复杂系统的普遍关系的手段。

可跨学科理解、多标准建模,MIT LAMM 团队发布微调的大谈话模型 MechGPT

图:LLM 和多粒子模拟之间的观念类比。(泉源:论文)

总体而言,该研讨提出的工作有助于开发更强大、更通用的人工智能模型,这些模型可以帮助推进迷信研讨并解决特定应用范围的复杂问题,从而可以深入评估模型的性能。与所有模型一样,它们必须经过仔细验证,它们的有用性存在于所提出的问题的背景、其优点和缺点以及帮助迷信家推进迷信和工程的更广泛的东西中。

而且,作为迷信探究的东西,它们必须被视为理解、建模和设计我们周围世界的东西集合。随着人工智能东西的快速发展,它们在迷信背景下的应用才刚刚开始带来新的机遇。

论文链接:https://arxiv.org/ftp/arxiv/papers/2310/2310.10445.pdf

相关报道:https://twitter.com/llama_index/status/1723379654550245719

给TA打赏
共{{data.count}}人
人已打赏
应用

阿里巴巴“AI启动”战略提速,夸克发布自研大模型

2023-11-14 14:41:00

应用

鉴于LLaMA却改张量名,李开复公司大模型开源行为引争议,官方回应来了

2023-11-14 17:15:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索