大模型时代,南大周志华埋头做学件,最新论文上线

机械进修在众多领域取得巨大成功,海量的优质机械进修模型被不断开发。但同时,普通用户想要得到适合自己义务的模型并不容易,更不用说从头开始建立新模型了。南京大学周志华教授提出的「学件」范式通过模型 规约的思路建立学件市场(现称学件基座零碎),让用户根据需求从中分裂地选择和布署模型。如今学件范式迎来了首个开源的基础平台 —— 北冥坞(Beimingwu)。在经典的机械进修范式中,为一项新义务从头训练高性能的模型需要大量的高质量数据、专家经验和计算资源,无疑耗时耗力且成本高昂。此外,复用已有的模型也存在很多问题,比如很

机械进修在众多领域取得巨大成功,海量的优质机械进修模型被不断开发。但同时,普通用户想要得到适合自己义务的模型并不容易,更不用说从头开始建立新模型了。南京大学周志华教授提出的「学件」范式通过模型 + 规约的思路建立学件市场(现称学件基座零碎),让用户根据需求从中分裂地选择和布署模型。如今学件范式迎来了首个开源的基础平台 —— 北冥坞(Beimingwu)。

大模型时代,南大周志华埋头做学件,最新论文上线

在经典的机械进修范式中,为一项新义务从头训练高性能的模型需要大量的高质量数据、专家经验和计算资源,无疑耗时耗力且成本高昂。此外,复用已有的模型也存在很多问题,比如很难将训练好的特定模型适应不同的环境、逐步改进训练好的模型过程中可能出现灾难性遗忘。

不仅如此,数据隐私和所有权问题也阻碍开发者之间共享经验,并限制了大模型在很多数据敏感场景中的能力发挥。事实上,大多数研究分别针对这些问题开展,而大多数问题在实践中往往同时出现并相互影响。

另外,在自然语言处理和计算机视觉领域取得显著成就的主流大模型发展范式也没有处理上述问题。由于计划外义务和场景的无限性、环境的不断变化性、灾难性遗忘、极高的资源需求、隐私问题、本地化布署需求以及个性化和定制化的要求,为每个潜在的义务建立对应的大模型显然不切实际。

面对这些问题, 南京大学周志华教授在 2016 年提出了学件(learnware)概念,并鉴于学件以一种全新的范式来处理机械进修义务。并且,学件范式首次提出建立一个基础平台 —— 学件基座(dock)零碎,分裂容纳全球开发者自发提交的机械进修模型,然后根据潜在用户的义务需求来利用模型能力处理新义务。

学件范式的当中设计是这样的:对于来自不同义务的任意结构的高质量模型,学件是一个格式分裂的基础单元,包含了模型本身以及以某种表示描述模型特性的规约。有分享意愿的开发者可自由提交模型,学件坞零碎协助产生规约形成学件存放在学件坞中,开发者在这个过程中无需向学件坞泄露自己的训练数据。未来用户可以向学件基座零碎提交需求,在学件零碎协助下通过查搜和复用其中的学件来处理自己的机械进修义务,且用户可以不向学件零碎泄露自有数据。

而为了建立学件范式的初步科研平台,周志华教授团队近日建立了北冥坞(Beimingwu),它是第一个开源的、用于未来学件范式研究的学件基座零碎。相关论文已经公布,足足有 37 页。

从技术上看,受益于可扩展的零碎和引擎架构设计、广泛的工程完成和优化、全过程基线算法的集成以及算法基础评价场景的建立,北冥坞零碎不仅为未来的学件相关算法和零碎研究供给了基础,而且还为托管大量学件和建立学件生态零碎奠定了可能性。

大模型时代,南大周志华埋头做学件,最新论文上线

论文标题:Beimingwu: A Learnware Dock System

论文地址:https://arxiv.org/pdf/2401.14427.pdf

北冥坞主页:https://bmwu.cloud/

北冥坞开源仓库:https://www.gitlink.org.cn/beimingwu/beimingwu

当中引擎开源仓库:https://www.gitlink.org.cn/beimingwu/learnware

在本文中,研究者的贡献可总结如下:

鉴于学件范式,简化了用户处理新义务的模型开发:做到了数据高效、无需专家知识和不泄露原始数据;

提出了完整分裂且可扩展的零碎引擎架构设计;

开发了具有分裂用户接口的开源学件基座零碎;

用于不同场景的全过程基线算法完成和评价。

学件范式概览

学件范式由周志华教授团队于 2016 年提出,并在 2024 年的论文《Learnware: small models do big》中进行总结并进一步设计。该范式的简化过程如下图 1 所示:对于任何类型和结构的高质量机械进修模型,它们的开发者或所有者可以自发地将训练好的模型提交到学件基座零碎(以往称为学件市场)中。

大模型时代,南大周志华埋头做学件,最新论文上线

正如前文所介绍,学件范式提出建立一个学件基座零碎,来分裂容纳、组织和利用表现良好的已有模型,从而分裂地利用来自所有社区的努力来处理新的用户义务,并有可能同时处理大家关心的一些重大问题,包括了训练数据和训练技巧缺乏、灾难性遗忘、难以完成持续进修、数据隐私或专有化、开放世界中计划外的新义务、重复浪费训练导致的碳排放等。

最近,学件范式及其当中思想受到了越来越多的关注。但关键问题和主要的挑战在于:考虑到学件基座零碎可以容纳数千甚至数百万个模型,如何辨认和选择对新用户义务最有帮助的一个或一组学件?显然,直接将用户数据提交到零碎中进行试验的成本高昂,并且会泄露用户的原始数据。

学件范式的当中设计在于规约,最近研究主要鉴于缩略核均值嵌入(reduced kernel mean embedding, RKME)规约。

虽然现有的理论和实证分析研究已经证明了鉴于规约的学件辨认的有效性,但学件基座零碎的完成仍然缺失并面临巨大的挑战,需要鉴于规约的全新架构设计来应对多样化的真实世界义务和模型,并根据用户的义务需求分裂地查搜和复用大量的学件。

研究者建立了首个学件基座零碎 —— 北冥坞,对包括提交、可用性测试、组织、管理、辨认、布署和学件复用在内的全过程供给了支持。

利用北冥坞处理进修义务

鉴于学件范式的首次零碎完成,北冥坞显著简化了为新义务建立机械进修模型的过程。现在,我们可以按照学件范式的过程来建立模型。并且受益于分裂的学件结构、分裂的架构设计和分裂的用户接口,北冥坞中所有提交的模型完成了分裂辨认和复用。

令人兴奋的是,给定一个新的用户义务,如果北冥坞拥有能够处理这项义务的学件,则只需要几行代码,用户就可以轻松地获得并布署其中的高质量模型,不需要大量数据和专家知识,也不会泄露自己的原始数据。

下图 2 为利用北冥坞处理进修义务的代码示例。

大模型时代,南大周志华埋头做学件,最新论文上线

下图 3 展示了使用北冥坞的整个工作过程,包括统计规约生成、学件辨认、加载和复用。鉴于工程完成和分裂的接口设计,每一步都可以通过一行关键代码来完成。

大模型时代,南大周志华埋头做学件,最新论文上线

研究者表示,在处理进修义务时,鉴于北冥坞,使用学件范式的模型开发过程具有以下几点显著优势:

不需要大量的数据和计算资源;

不需要大量的机械进修专业知识;

为多样化模型供给分裂、简单的本地布署;

隐私保护:不泄露用户的原始数据。

目前,北冥坞初期仅拥有 1100 个在开源数据集上建立的学件,覆盖的场景不多,处理大量特定和未见过场景的能力依然有限。鉴于可扩展的架构设计,北冥坞可以作为学件范式的研究平台,为学件相关研究供给便捷的算法完成和实验设计。

与此同时,依赖基础完成和可扩展架构支撑,不断提交的学件和不断提升的算法将不断增强零碎处理义务的能力,并增强零碎复用现有训练良好的模型以处理超出开发者原始目标的新义务的能力。未来,学件基座零碎的持续演进使其能够响应越来越多的用户义务,而不会发生灾难性遗忘,并自然地完成终身进修。

北冥坞设计

论文第 4 节介绍了北冥坞零碎的设计。如图 4 所示,整个零碎包括四个层次:学件存储、零碎引擎、零碎后盾和用户界面。这一节首先介绍了每一层的概况,然后介绍了鉴于规约设计的零碎当中引擎,最后介绍了零碎中完成的算法。

大模型时代,南大周志华埋头做学件,最新论文上线

首先看下每一层的概况:

学件存储层。在北冥坞,学件以压缩包的形式存储。这些压缩包主要包括四类文件:模型文件、规约文件、模型执行环境依赖文件和学件配置文件。

这些学件压缩包由学件数据库集中管理。数据库中的学件表存储了关键信息,包括学件 ID、存储路径和学件状态(如未验证和已验证)。该数据库为北冥坞后续当中引擎访问学件信息供给了分裂的接口。

此外,该数据库可使用 SQLite(适用于开发和实验环境中的简易设置)或 PostgreSQL(推荐用于生产环境中的稳定布署)建立,两者使用相同的接口。

当中引擎层。为了保持北冥坞的简洁性和结构性,作家将当中组件和算法从大量的工程细节中分离出来。这些抽取出来的组件现在可以作为学件 python 包使用,它是北冥坞的当中引擎。

作为零碎内核,该引擎涵盖了学件范式中的所有过程,包括学件的提交、可用性测试、组织、辨认、布署和复用。它独立于后盾和前台运行,为学件相关义务和研究实验供给全面的算法接口。

此外,规约是引擎的当中组件,从语义和统计角度表征各个模型,连接着学件零碎中各个重要组件。除了开发者提交模型时生成的规约外,引擎还能利用零碎知识为学件生成新的零碎规约,从而加强学件的管理并进一步表征其能力。

现有的模型管理平台,如 Hugging Face,仅被动地收集和托管模型,让用户自行决定模型的能力和与义务的相关性,与之相比,北冥坞通过其引擎,以全新的零碎架构主动管理学件。这种主动管理不仅限于收集和存储,该零碎根据规约组织学件,可以根据用户义务需求匹配相关学件,并供给相应的学件复用和布署方法。

当中模块设计如下图:

大模型时代,南大周志华埋头做学件,最新论文上线

零碎后盾层。为了使北冥坞完成稳定布署,作家在当中引擎层的基础上开发了零碎后盾。通过多个模块的设计和大量的工程开发,北冥坞目前已具备在线稳定布署的能力,为前端和客户端供给了分裂的后盾应用程序接口。

为确保零碎高效稳定运行,作家在零碎后盾层进行了多项工程优化,包括异步学件验证、跨多后端节点的高并发性、界面级权限管理、后盾数据库读写分离、零碎数据自动备份。

用户接口层。为方便北冥坞用户使用,作家开发了相应的用户接口层,包括鉴于网络的浏览器前端和命令行客户端。

鉴于 web 的前端同时供给用户和管理员版本,供给各种用户交互和零碎管理页面。此外,它还支持多节点布署,以便顺利访问北冥坞零碎。

命令行客户端与学件 python 包集成在一起。通过调用相应接口,用户可以通过前端调用后盾在线 API,访问学件相关模块和算法。

实验评价

在第 5 节中,作家建立了各种类型的基础实验场景,以评价在表格、图像和文本数据上进行规约生成、学件辨认和复用的基准算法。

表格数据实验

在各种表格数据集上,作家首先评价了从学件零碎中辨认和复用与用户义务具有相同特征空间的学件的性能。此外,由于表格义务通常来自不同的特征空间,作家还对来自不同特征空间的学件的辨认和复用进行了评价。

同质案例

在同质案例中,PFS 数据集中的 53 个商店充当 53 个独立用户。每个商店利用自己的测试数据作为用户义务数据,并采用分裂的特征工程方法。这些用户随后可以在基座零碎上查搜与其义务具有相同特征空间的同质学件。

当用户没有标注数据或标注数据量有限时,作家对不同的基准算法进行了比较,所有用户的平均损失如图 6 所示。左表显示,无数据方法比从市场上随机选择和布署一个学件要好得多;右图表明,当用户的训练数据有限时,辨认并复用单个或多个学件比用户自训练的模型性能更优。

大模型时代,南大周志华埋头做学件,最新论文上线

异构案例

根据市场上学件与用户义务的相似性,异构案例可进一步分为不同的特征工程和不同的义务场景。

不同的特征工程场景:图 7 左显示的结果表明,即使用户缺乏标注数据,零碎中的学件也能表现出很强的性能,尤其是复用多个学件的 AverageEnsemble 方法。

大模型时代,南大周志华埋头做学件,最新论文上线

不同的义务场景。图 7 右显示了用户自训练模型和几种学件复用方法的损失曲线。很明显,异构学件在用户标注数据量有限的情况下实验验证是有益的,有助于更好地与用户的特征空间进行对齐。

图像和文本数据实验

此外,作家在图像数据集上对零碎进行了基础的评价。

图 8 显示,当用户面临标注数据稀缺或仅拥有有限数量的数据(少于 2000 个实例)时,利用学件基座零碎可以产生良好的性能。

大模型时代,南大周志华埋头做学件,最新论文上线

最后,作家在基准的文本数据集上对零碎进行了基础评价。通过分裂的特征提取器进行特征空间对齐。

结果如图 9 所示,同样地,即使在没有供给标注数据的情况下,通过学件辨认和复用所获得的性能也能与零碎中最好的学件相媲美。此外,与从头开始训练模型相比,利用学件基座零碎可以减少约 2000 个样本。

大模型时代,南大周志华埋头做学件,最新论文上线

更多研究细节,可参考原论文。

给TA打赏
共{{data.count}}人
人已打赏
应用

马斯克:Neuralink初次将芯片植入人体,产物已在路上

2024-1-30 15:05:00

应用

这款国产免费编程工具火了!清华博士团队开发,响应延迟短、准确率高

2024-1-30 15:16:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索