广告推荐系统的表现直接影响用户体验和商业收益,如何在海量数据中精准捕捉用户需求并提供个性化推荐,成为广告推荐场景面临的重要挑战。为了解决该场景中的数据稀疏、冷启动等问题,腾讯机器学习平台部对 AutoML 相关技术进行了深入的研究,发表了一系列具有创新性的学术论文。
一、AutoML 技术背景
AutoML 自动化机器学习,是一个旨在简化和自动化机器学习模型开发过程的领域。它通过提供工具和技术,如特征评估、自动化结构搜索等使得非专业人士也能有效地使用机器学习,降低能力门槛;同时通过自动化流程、超参数搜索调优等帮助算法工程师有效提高工作效率。
在广告推荐场景中,AutoML 具有重要意义,主要体现在高效性、资源优化和灵活性等方面。它能够自动化模型选择、超参数调优和特征工程,显著减少人工干预和时间成本,使团队能够快速响应用户需求和市场变化。此外,AutoML 帮助团队有效利用计算资源,避免在不必要的实验上浪费时间,从而集中精力在最有潜力的模型和特征上。通过自动探索多种模型和算法,AutoML 能够找到最适合当前数据和业务需求的解决方案,提升推荐的准确性和相关性。同时,它降低了技术门槛,使非专业人员也能参与模型开发,促进跨部门协作和创新。最后,AutoML 支持持续的模型更新和优化,确保推荐系统始终保持高效和准确,并提供可解释性功能,帮助团队理解模型决策过程,从而更好地调整广告策略和优化用户体验。
腾讯机器学习平台致力于通过 AutoML 的研究与探索,为用户提供通用的 AutoML 能力,以提升用户的使用效率和体验,从而更好地赋能广告推荐系统。我们希望通过 AutoML 能力的引入,简化模型开发流程,使用户能够更快速地构建和优化广告推荐模型,最终实现更精准的广告投放和更优质的用户体验。
二、AutoML 研究探索
1. BiGNAS(AAAI'25)
Behavior Importance-Aware Graph Neural Architecture Search for Cross-Domain Recommendation
本文提出了一种新的跨域推荐系统框架,称为行为重要性感知图神经网络架构搜索(BiGNAS)。现有的基于图神经网络(GNN)的 CNR 方法虽然能够捕捉复杂的用户 - 物品交互,但通常依赖于手动设计的架构,BiGNAS 旨在解决推荐系统中的数据稀疏性和冷启动问题。BiGNAS 通过两个关键组件实现了创新:跨域定制超网络(Cross-Domain Customized Supernetwork)和基于图的行为重要性感知器(Graph-Based Behavior Importance Perceptron)。超网络作为一次性、无需重训练的模块,能够自动搜索每个域的最佳图神经网络(GNN)架构,减少了手动设计的复杂性。行为重要性感知器则通过辅助学习动态评估源域行为的重要性,从而提升目标域的推荐效果。
实验结果表明,BiGNAS 在多个基准数据集和大规模行业广告数据集上均优于现有的最先进方法。这项研究首次联合优化 GNN 架构和行为数据重要性,为跨域推荐提供了新的思路和有效的解决方案。
2. One-Shot NAS (WWW'23)
Automatic Feature Selection By One-Shot Neural Architecture Search In Recommendation Systems | Proceedings of the ACM Web Conference 2023
本文提出了一种基于一次性神经架构搜索(One-Shot NAS)的自动特征选择方法。推荐系统的性能依赖于特征的质量和选择,而传统的特征选择方法依赖人工,耗时且计算资源消耗大。本文设计了一个新框架,通过 NAS 自动识别最优特征。首先构建一个候选特征集合,然后利用一次性架构搜索技术快速评估不同特征组合的性能。通过训练一个共享的神经网络,在不同架构之间共享权重,能够在一次训练中评估多个架构,即快速评估各种特征组合,无需重新训练,从而显著降低计算开销。在特征选择过程中,模型会根据预定义的性能指标,如准确率和召回率评估不同特征组合的贡献。通过实时反馈,搜索算法能够优化特征选择,最终识别出最具影响力的特征。这种自动化的特征选择过程使得推荐系统能够更好地捕捉用户偏好,提高推荐的准确性。
本文为推荐系统中的特征选择提供了一种高效的自动化解决方案,实验结果显示,该方法在多个推荐任务中表现优异,能够有效选择出对推荐效果影响最大的特征。
3. AutoPooling (WSDM'24)
AutoPooling: Automated Pooling Search for Multi-valued Features in Recommendations | Proceedings of the 17th ACM International Conference on Web Search and Data Mining
本文提出了 AutoPooling 自动化池化搜索方法,旨在优化推荐系统中多值特征的处理。在推荐系统中,如何有效处理多值特征(如用户的兴趣标签、商品的属性等)是一个重要的挑战。传统的池化方法往往依赖于手动设计,难以适应不同数据集和任务的需求。为了解决这一问题,AutoPooling 通过自动化池化策略的搜索,优化了多值特征的表示。AutoPooling 通过引入一种自动化搜索机制,能够在多种池化策略中进行选择和组合,从而找到最适合特定任务的池化方法。该方法利用强化学习、进化算法等技术,自动探索不同的池化配置,评估其在推荐任务中的表现。这种自动化的过程不仅提高了池化策略的选择效率,还能够根据数据的特性动态调整池化方式。此外,AutoPooling 还考虑了多值特征之间的关系,通过设计灵活的池化结构,能够更好地捕捉特征之间的相互作用。这种方法的灵活性使得它能够适应各种推荐场景,从而提升模型的整体性能。
实验结果表明,AutoPooling 在多个基准数据集上均取得了显著的性能提升,超越了传统的池化方法。AutoPooling 可以与现有的推荐算法无缝集成,作为特征处理的一个模块,提升整体推荐系统的性能。通过自动化池化搜索,AutoPooling 为推荐系统中的多值特征处理提供了一种高效且实用的解决方案,推动了推荐算法的进一步发展。
4. AdaS&S
[2411.07504] AdaS&S: a One-Shot Supernet Approach for Automatic Embedding Size Search in Deep Recommender System
本文提出了 AdaS&S,一种自动化搜索深度推荐系统中 embedding 层大小的方法。在深度推荐系统中,embedding 层的大小对模型的性能起着关键作用。然而,手动选择合适 embedding 大小通常需要大量的实验和经验,既耗时又低效。为了解决这一问题,AdaS&S 采用一次性超网络(One-Shot Supernet)策略,旨在自动化 embedding 大小的搜索过程。AdaS&S 通过构建一个超网络,能够在同一模型中同时训练多个 embedding 大小的配置。这种共享权重的机制使得不同 embedding 大小的模型可以高效地进行训练,从而显著减少了训练时间和计算资源的消耗。通过快速评估不同 embedding 大小对模型性能的影响,AdaS&S 能够自动选择最优的配置,提升推荐系统的效果。此外,AdaS&S 引入了自适应搜索策略,根据模型在验证集上的表现动态调整嵌入大小的搜索范围。这种灵活性使得该方法能够在不同的数据集和任务中表现出色,适应性强。
实验结果表明,AdaS&S 在多个基准数据集上均取得了优异的性能,显著提升了推荐系统的效果,同时降低了超参数调优的复杂性。通过自动化嵌入大小的搜索,AdaS&S 为深度推荐系统的优化提供了一种高效且实用的解决方案,推动了相关领域的研究进展。
5. FlexHB
[2402.13641] FlexHB: a More Efficient and Flexible Framework for Hyperparameter Optimization
本文提出了一种名为 FlexHB 的超参数优化框架,旨在显著提升优化过程的效率和灵活性。传统的超参数优化方法往往面临着计算资源消耗过大和搜索空间不够灵活的问题,这使得在实际应用中难以快速找到最佳的超参数配置。为了解决这些问题,FlexHB 巧妙地结合了贝叶斯优化和超带宽(Hyperband)策略,通过动态调整资源分配,能够快速评估不同超参数配置下模型的性能,从而有效缩短优化所需的时间。FlexHB 的灵活性体现在其对多种模型和任务的支持,用户可以根据具体需求自定义搜索空间和评估策略。这种个性化的设置使得优化过程更加贴合实际应用场景,能够更好地满足不同用户的需求。此外,FlexHB 还通过智能的资源管理,确保在优化过程中能够高效利用计算资源,降低不必要的浪费。
实验结果表明,FlexHB 为超参数优化提供了一种高效且灵活的解决方案。在多个基准数据集上的测试中,FlexHB 显著提高了超参数优化的效率和效果,成功降低了时间和计算成本。这一框架不仅提供了有效的超参数调优工具,也为未来的超参数优化研究开辟了新的方向。