编辑 | 紫罗
流程工程是化学、物理、生物流程的设计、运行、控制、优化与强化。涉及大量的工业领域,如化学、材料、农业、制药、生物技术工业等。
流程工程领域广泛使用流程流程图 (PFD) 以及流程和仪表图 (P&ID) 来表示流程流程和设备配置。然而,P&ID 和 PFD(以下称为流程图)可能包含导致安全隐患、低效操作和不必要费用的同伴。矫正和验证流程图是一个繁琐的手动流程。
来自荷兰代尔夫特理工大学的钻研职员提出了一种新颖的生成人工智能格式,用于主动识别流程图中的同伴并向用户恳求改正,即主动改正流程图。
受到用于人类谈话语法主动校对的大型谈话模型(LLM)突破的启发,钻研职员钻研了用于流程图主动校对的 LLM。模型的输入是可能同伴的流程图,模型的输入是对改正流程图的恳求。以监督的方式在分解数据集上训练其主动校对模型。
该模型在分解生成的流程图的独立测试数据集上实现了 80% 的 top-1 准确度和 84% 的 top-5 准确度。结果表明该模型可以进修主动改正分解流程图。该流程图主动校对将成为化学工程师的有用工具。
该钻研以《Toward autocorrection of chemical process flowsheets using large language models》为题,于 2023 年 12 月 5 日发布在预印平台 arXiv 上。
论文链接:https://arxiv.org/abs/2312.02873
两种工艺流程图的同伴检测和矫正格式
识别和矫正流程图中的同伴很重要,但目前是一个繁琐的手动流程。
在科学文献中,有一些关于工艺流程图的同伴检测和矫正的初始出版物。这些工作鉴于两个主要概念:(i) 鉴于划定规矩的格式和 (ii) 鉴于机器进修 (ML) 的格式。
鉴于划定规矩的格式将常见同伴的工程划定规矩编码为图形模式,然后例如通过图形操作来检测和矫正同伴。然而,这种格式依赖于图同构来查找 P&ID 图中的图模式,这在计算上是昂贵的。此外,鉴于划定规矩的格式仅限于硬编码划定规矩,难以开发、维护和扩展。
除了鉴于划定规矩的格式之外,最近还提出了一些鉴于机器进修的初始格式来进行纠错。大多数机器进修格式一次仅单独检查一个组件。因此,它们无法检测丢失的组件、不精确的毗邻或涉及两个或多个组件的工程同伴。此外,一次分析一个组件的计算成本与 P&ID 中的组件数量呈线性关系,这可能会导致大型 P&ID 的运行时间较长。
对于人类谈话的语法同伴矫正,LLM 被证明是成功的。在化学工程流程图的背景下,最近证明了 LLM 可以主动完成流程图。该技术使用 SFILES 2.0 表示法将流程图表示为字符串,并使用 Transformer 谈话模型主动完成流程图。此外,最近将 P&ID 的开发表述为机器翻译问题,其中没有控制结构的流程图被翻译为具有控制结构的流程图。
LLM 用于主动改正流程图
在该钻研中,钻研职员恳求将流程图的主动改正制定为机器翻译问题,其中潜在同伴的流程图被翻译为精确的流程图。特别是,使用流程图对训练 Transformer 谈话模型,其中输入是可能同伴的流程图,输入是精确的流程图。因此,该模型可以从完整流程图背景下的数据和同伴中进修复杂的同伴模式。对于训练,生成具有预定义同伴模式的分解流程图对。
主动校对模型鉴于使用 T5-small transformer 模型的序列到序列 Transformer 模型。模型的输入是一个流程图,以 SFILES 2.0 表示法编码为字符串。然后,模型生成一个新的流程图,它是输入的改正版本。可以通过比较模型输入和模型输入,从新流程图中得出矫正恳求。由于模型生成完整的流程图,格式不限于单个组件的修改。
图 1:Transformer 模型的主动校对格式概述。(来源:论文)
为了优化模型的超参数,钻研职员执行网格搜索。最终模型有 790 万个可训练参数。模型的 top-1 和 top-5 准确率分别为 80.1% 和 83.6%。
图 2 为来自独立测试集的说明性案例钻研的模型预测。该案例钻研流程包括与气态产物的反应,气态产物通过蒸馏塔分离成两个产物流。案例钻研的输入流程图包含两个潜在的设计同伴。首先,反应器缺少压力控制器。其次,塔前的热交换器缺少温度控制器。
图 2:由流程图模式生成的说明性案例钻研。(来源:论文)
主动校对模型会检测这两个同伴并在输入流程图中进行校对。该模型在热交换中添加了一个温度控制器,并将其毗邻到产品流和流量控制器。此外,该模型在反应器中增加了压力控制器来控制泄压。模型恳求的改正对应于目标流程图(即改正后的流程图),因此被认为是精确的模型预测。值得注意的是,可能存在输入流程图的其他可行改正。
虽然大多数模型预测是精确的,但也有一些同伴的预测。
未来探索的几个方向
总的来说,结果表明所提出的主动改正模型可以进修主动改正流程图。特别是,该模型可以添加缺失的组件/毗邻,删除组件/毗邻,甚至重新排列组件,这比以前的工作有显著的优势。
但仍然存在一些缺点和科学挑战,需要在未来的钻研中解决。
首先,当前模型仅限于流程图的拓扑信息。将来,应该将更多信息添加到模型中。例如,流程图和图神经网络的图表示是未来钻研的一个方向。
其次,当前的模型是根据分解数据进行训练的,限制了其工业应用和相关性。未来,可建立一个与行业相关的训练数据集。此外,进一步的划定规矩可以提高分解数据的质量。
第三,可以探索各种其他模型架构,例如其他 LLM、扩散模型、(变分)主动编码器或图到序列。
最后,当前的格式缺乏物理/工程知识。未来将这些知识整合到主动校对模型中。
钻研职员表示:「设想一下,我们的主动改正格式将成为化学流程工程中的标准工具,就像 Word 中的文本主动改正一样。此外,主动校对的格式可以转移到其他学科,包括机械、土木或电气工程中的技术图纸。」