Llama-2+Mistral+MPT=? 混合多个异构大模型显奇效

混合多个异构大谈话模型,中山大学、腾讯 AI Lab 推出 FuseLLM随着 LLaMA、Mistral 等大谈话模型的成功,各家大厂和初创公司都纷纷创建自己的大谈话模型。但从头训练新的大谈话模型所需要的成本十分高昂,且新旧模型之间可能存在才能的冗余。近日,中山大学和腾讯 AI Lab 的研究人员提出了 FuseLLM,用于「混合多个异构大模型」。分别于以往的模型集成和权重分开,前者需要在推理时同时部署多个大谈话模型,后者需要分开模型具备相同的结果,FuseLLM 能够从多个异构大谈话模型中外化常识,将各自的常识

混合多个异构大谈话模型,中山大学、腾讯 AI Lab 推出 FuseLLM

随着 LLaMA、Mistral 等大谈话模型的成功,各家大厂和初创公司都纷纷创建自己的大谈话模型。但从头训练新的大谈话模型所需要的成本十分高昂,且新旧模型之间可能存在才能的冗余。

近日,中山大学和腾讯 AI Lab 的研究人员提出了 FuseLLM,用于「混合多个异构大模型」。

分别于以往的模型集成和权重分开,前者需要在推理时同时部署多个大谈话模型,后者需要分开模型具备相同的结果,FuseLLM 能够从多个异构大谈话模型中外化常识,将各自的常识和才能通过轻量的中断训练转移到一个混合大谈话模型中。

该论文刚刚在 arXiv 上发布就引起了网友的大量关注和转发。

Llama-2+Mistral+MPT=? 混合多个异构大模型显奇效

有人认为,「当想要在另一种谈话上训练模型时,使用这种办法是非常有趣的」,「我一直在思考这件事」。

Llama-2+Mistral+MPT=? 混合多个异构大模型显奇效

目前该论文已被 ICLR 2024 接受。

Llama-2+Mistral+MPT=? 混合多个异构大模型显奇效

论文标题:Knowledge Fusion of Large Language Models

论文地址:https://arxiv.org/abs/2401.10491

论文仓库:https://github.com/fanqiwan/FuseLLM

办法介绍

FuseLLM 的关键在于从概率分布表征的角度来探讨大谈话模型的混合,对于同样的输入文本,作家认为由分别大谈话模型生成的表征可以反映出它们在理解这些文本时的内在常识。因此,FuseLLM 首先利用多个源大谈话模型生成表征,将它们的集体常识和各自优势外化,然后将生成的多个表征取长补短进行混合,最后经过轻量级的中断训练迁移到目标大谈话模型。下图展示了 FuseLLM 办法的概述。

Llama-2+Mistral+MPT=? 混合多个异构大模型显奇效

考虑到多个异构大谈话模型的 tokenizer 以及词表存在差异,在混合多个表征时,如何对齐分词结果是一大关键: FuseLLM 在 token 级别的完全匹配之上,额外设计了基于最小编辑距离的词表级别对齐,最大程度地保留了表征中的可用信息。

为了在结合多个大谈话模型的集体常识的同时保持其各自的优势,需要精心设计用于混合模型生成表征的策略。具体而言,FuseLLM 通过计算生成表征和标签文本之间交织熵来评估分别大谈话模型对这条文本的理解程度,然后引入了两种基于交织熵的混合函数:

MinCE: 输入多个大模型为当前文本生成的表征,输出交织熵最小的表征;

AvgCE: 输入多个大模型为当前文本生成的表征,输出基于交织熵获得的权重加权平均的表征;

在中断训练阶段,FuseLLM 使用混合后的表征作为目标计算混合损坏,同时也保留了谈话模型损坏。最终的损坏函数为混合损坏和谈话模型损坏之和。

实验结果

在实验部分,作家考虑了一个通用但具有挑战性的大谈话模型混合场景,其中源模型在结构或才能上具备较小的共性。具体来说,其在 7B 规模上进行了实验,并选择了三个具有代表性的开源模型:Llama-2、OpenLLaMA,和 MPT 作为待混合的大模型。

作家在通用推理、常识推理、代码生成、文本生成、指令跟随等场景评估了 FuseLLM,发现其相较于任何源模型和继续训练基线模型博得了显著的功能晋升。

通用推理 & 常识推理

Llama-2+Mistral+MPT=? 混合多个异构大模型显奇效

在测试通用推理才能的 Big-Bench Hard Benchmark 上,经过中断训练后的 Llama-2 CLM 相较于 Llama-2 在 27 个任务上博得了平均 1.86% 的晋升,而 FuseLLM 则相较于 Llama-2 博得了 5.16% 的晋升,显著优于 Llama-2 CLM,说明 FuseLLM 能结合多个大谈话模型的优势博得功能晋升。

在测试常识推理才能的 Common Sense Benchmark 上,FuseLLM 领先了任何的源模型和基线模型,在任何任务上都博得了最佳的功能。

代码生成 & 文本生成

Llama-2+Mistral+MPT=? 混合多个异构大模型显奇效

在测试代码生成才能的 MultiPL-E Benchmark 上,FuseLLM 在 10 个任务中,有 9 个领先了 Llama-2,博得了平均 6.36% 的功能晋升。而 FuseLLM 没有领先 MPT 和 OpenLLaMA 的原因可能是由于使用 Llama-2 作为目标大谈话模型,其代码生成才能较弱,且中断训练语料中的代码数据比例较低,仅占约 7.59%。

在多个测量常识问答(TrivialQA)、阅读理解(DROP)、内容分析(LAMBADA)、机器翻译(IWSLT2017)和定理应用(SciBench)的文本生成 Benchmark 上,FuseLLM 也在任何任务中领先了任何源模型,并在 80% 的任务中领先了 Llama-2 CLM。

指令跟随

Llama-2+Mistral+MPT=? 混合多个异构大模型显奇效

由于 FuseLLM 仅需提取多个源模型的表征进行混合,然后对目标模型中断训练,因此其也能适用于指令微调大谈话模型的混合。在评估指令跟随才能的 Vicuna Benchmark 上,FuseLLM 同样博得了出色表现,领先了任何源模型和 CLM。

FuseLLM vs. 常识蒸馏 & 模型集成 & 权重分开

Llama-2+Mistral+MPT=? 混合多个异构大模型显奇效

考虑到常识蒸馏也是一种利用表征晋升大谈话模型功能的办法,作家将 FuseLLM 和用 Llama-2 13B 蒸馏的 Llama-2 KD 进行了比较。结果表明,FuseLLM 通过混合三个具有分别架构的 7B 模型,领先了从单个 13B 模型蒸馏的效果。

Llama-2+Mistral+MPT=? 混合多个异构大模型显奇效

为了将 FuseLLM 与现有混合办法进行比较(例如模型集成和权重分开),作家模拟了多个源模型来自相同结构的底座模型,但在分别的语料库上中断训练的场景,并测试了各种办法在分别测试基准上的困惑度。可以看到虽然任何的混合技术都可以结合多个源模型的优势,但 FuseLLM 能达到最低的平均困惑度,表明 FuseLLM 具备能比模型集成和权重分开办法更有效地结合源模型集体常识的潜力。

最后,尽管社区目前已经关注大模型的混合,但目前的做法大多基于权重分开,无法扩展到分别结构、分别规模的模型混合场景。虽然 FuseLLM 只是一项初步的异构模型混合研究,但考虑到目前技术社区存在大量分别的结构和规模的谈话、视觉、音频和多模态大模型,未来这些异构模型的混合会迸发出怎样惊人地表现呢?让我们拭目以待!

给TA打赏
共{{data.count}}人
人已打赏
应用

15岁开公司,22岁再守业公司估值超20亿美金,Cohere CEO自述开挂人生

2024-1-29 10:41:00

应用

被大V推选的AI论文,被引量会翻倍?两位推特博主5年推文背后影响揭秘

2024-1-29 11:23:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索