当前大模型研究面临三大困境:算力垄断(顶尖成果集中于大厂)、成本壁垒(单次训练成本高,可能需要数千GPU小时)以及技术路径单一化(过度依赖单一模型的规模扩展)。
为突破这些限制,路由LLM(Routing LLM)范式应运而生——通过智能调度实现多个开源小模型的协同增效,以「组合创新」替代「规模竞赛」。
代码:https://github.com/MilkThink-Lab/RouterEval
论文: https://arxiv.org/abs/2503.10657
论文合集:https://github.com/MilkThink-Lab/Awesome-Routing-LLMs
路由LLM实际上是model level的MoE(Mixture-of-Experts),传统MoE通过在模型内部扩展专家网络(如稀疏激活的FFN层)提升性能,而路由LLM将完整LLM视为独立「专家」,通过预训练Router动态分配任务输入。
三个大模型=OpenAI
这种范式具有三重优势:
- 异构兼容性:支持闭源模型(如GPT-4)、开源模型(如Llama系列)及专用微调模型的混合部署。
- 多目标优化:可根据场景需求,在性能、成本、风险控制等维度实现动态权衡
- 灵活部署:可根据实际需求动态调整候选模型池,针对特定场景(如代码生成、医疗问答)快速定制专属解决方案,而无需从头训练大模型
路由LLM范式的核心机制
路由LLM系统采用「输入-路由-执行器」三级架构,其中路由层是系统的智能中枢,承担着任务分配与资源调度的核心功能:
1.输入层:接收多样化的用户请求,包括文本生成、文本摘要、代码补全等任务
2.路由层:通过预训练Router对输入进行深度分析,基于多维度特征选择最优LLM执行器
性能优先模式:识别任务领域特征,匹配性能最优的LLM(当前版本核心目标)
成本优化模式:平衡性能与计算开销,选择性价比最高的LLM(后续版本特性)
风险控制模式:通过多模型交叉验证,降低单一模型的幻觉风险(后续版本特性)
3.执行层:由候选LLM池中被选定的模型完成实际推理,并将结果返回给用户
与MoE(Mixture-of-Experts)相比,路由LLM实现了两大突破:
协作粒度:在模型级实现专家协作,而非传统MoE的层间专家扩展
系统开放性:支持跨架构、跨训练阶段的LLM协同,包括闭源模型、开源模型及专用微调模型的混合部署
这种架构使得路由LLM既能继承MoE的动态优势,又突破了其封闭性限制,为构建开放、灵活的大模型协作系统奠定了基础。
RouterEval解决了什么问题?
研究人员系统性收集、整理并开源了涵盖8567个不同LLM在12个主流评测基准(包括MMLU、GSM8K等)下的2亿条性能记录,基于这些数据构建了面向 router的基准测试平台RouterEval,创新性体现在:
- 数据完备性:覆盖从7B到数百B参数规模的LLM,涵盖通用能力、领域专长等多维度的 Benchmark,为router设计提供了全面的训练与验证数据
- 研究低门槛化:所有性能记录均已预处理完成,研究者只需训练一个分类器(即router)即可开展实验,支持在单卡GPU甚至笔记本电脑上运行,极大降低了参与门槛
- 问题范式转化:将复杂的路由LLM问题转化为标准的分类任务,使研究者可复用成熟的机器学习方法(如few-shot learning、对比学习等)快速切入
8000+模型的参数量分布
基于RouterEval的海量数据,研究团队首次揭示了Model-level Scaling Up现象:在具备一定能力的router调度下,路由LLM系统的性能可随候选LLM池的扩大而快速提升。这一现象在以往研究中难以被观察到,主要受限于候选模型数量不足(通常<20个)。
RouterEval的发现
Model level scaling up现象
利用RouterEval基准中的2亿条性能记录,研究团队构建了理论性能上限——Oracle Router(r_o)。Oracle Router是一种理想化的路由器,它能够始终为每个输入选择性能最佳的LLM,因此代表了路由LLM系统的性能上限。
为了系统研究router性能对系统整体表现的影响,研究人员定义了router性能的连续谱系r_o(p):
- 当p→1时,r_o(p)趋近于Oracle Router,代表分类性能接近理论上限
- 当p→0时,r_o(p)退化为随机router,即随机选择候选LLM
- 中间状态r_o(p)(0<p<1)模拟了不同能力水平的 router
实验结果表明:
- 强router的scaling up效应:当p>0.3时,系统性能随候选LLM数量呈明显快速上升
- 弱router的性能瓶颈:随机router(p=0)几乎未表现出scaling up现象
- 超越参考模型:一般候选LLM数量在3~10且p在0.5~0.7时,系统性能可以接近甚至超过参考模型(参考模型一般是GPT-4)
候选模型数量m = 5
弱模型逆袭效应
通过智能路由调度,多个性能一般的LLM可以协同实现超越顶级单体模型的性能表现。例如,当使用Oracle Router(r_o)调度5个在MMLU基准上单独表现仅为0.2-0.3的弱模型时,系统整体性能可跃升至0.95,显著超越GPT-4(0.86)。
这一发现为资源有限的研究者提供了新的技术路径:无需追求单一超大模型,而是通过多个中小模型的智能组合实现性能突破。
候选池规模阈值
从Model-level Scaling Up现象示意图可以看到3-10个LLM候选的时候已经可以达到非常不错的性能。而且此时的部署成本并不高,具有很高的性价比。
实验数据表明,路由LLM系统的性能提升存在明显的规模经济拐点:
- 3-5个候选LLM:可覆盖大部分常见任务需求,部署成本相比单一顶级模型低。
- 5-10个候选LLM:性能进入稳定提升期,在多数基准上可超越GPT-4等顶级单体模型
- 多于10个候选LLM:性能增益存在边际效应,每增加1个模型带来的性能提升并不大
这一发现为实际部署提供了重要指导:在大多数应用场景下,维护一个5-10个模型的候选池即可实现性能与成本的最佳平衡。
例如,在智能客服系统中,组合使用GPT-4(复杂问题)、Llama-3-8B(常规问题)和Phi-3(意图识别)三个模型,即可在保证服务质量的同时将运营成本显著降低。
主要挑战
数据壁垒
要训练出高性能的router,当前可用的性能记录数据仍然远远不足。由于大多数LLM的性能数据掌握在少数科技公司手中且未开源,这需要整个研究社区的共同努力来构建更全面的数据集。目前,可以通过迁移学习、数据增强等算法技术在一定程度上缓解数据不足的问题;
多候选分类挑战
随着候选LLM数量的增加,router需要处理的分类任务复杂度显著上升。这不仅增加了模型训练的难度,也对router的泛化能力提出了更高要求。如何在保证分类精度的同时控制计算开销,是未来研究的重点方向之一;
多目标权衡局限
虽然路由LLM理论上可以同时优化性能、计算成本和幻觉风险等多个目标,但RouterEval目前仅聚焦于性能优化。这是因为当前router的性能水平尚未达到理想状态,过早引入多目标优化可能会分散研究重点。此外,计算成本和幻觉风险等指标的数据采集难度较大,需要社区共同推动相关数据集的构建;
部署复杂度
即使获得了高性能的router,实际部署仍面临诸多挑战。多个LLM的协同运行需要解决计算负载均衡、资源动态分配、模型高效激活等系统级问题。幸运的是,实验表明仅需部署3-10个LLM即可获得优异性能,这大大降低了实际应用的复杂度。未来研究可借鉴分布式计算领域的技术成果,进一步优化部署方案。