华为盘问提议新范式MMQS入选WWW 2024,解锁鉴于人类反馈的多模态盘问提议

在信息时代,搜寻引擎成为人们检索信息不可或缺的工具。然而传统的鉴于关键词的搜寻方法要求用户准确表达搜寻需求,因此有一定寻衅。为了改善用户体验,盘问提议系统崭露头角。这些系统通过分析用户当前的盘问输入,生成相关的提议,减轻用户的搜寻负担。文本盘问提议(TQS)和视觉盘问提议(VQS)是两种已经深入研究的盘问提议系统。TQS 根据用户当前的盘问生成一系列关键词,辅助用户更清晰地表达搜寻计划。而 VQS 通过将视觉示例与提议一起呈现,提高了用户理解上下文的才能。然而这些系统的局限在于主要依赖用户的文本输入,而图象中蕴含丰

在信息时代,搜寻引擎成为人们检索信息不可或缺的工具。然而传统的鉴于关键词的搜寻方法要求用户准确表达搜寻需求,因此有一定寻衅。为了改善用户体验,盘问提议系统崭露头角。这些系统通过分析用户当前的盘问输入,生成相关的提议,减轻用户的搜寻负担。文本盘问提议(TQS)和视觉盘问提议(VQS)是两种已经深入研究的盘问提议系统。TQS 根据用户当前的盘问生成一系列关键词,辅助用户更清晰地表达搜寻计划。而 VQS 通过将视觉示例与提议一起呈现,提高了用户理解上下文的才能。

然而这些系统的局限在于主要依赖用户的文本输入,而图象中蕴含丰富信息。在某些情况下,用户可能更愿意通过拍摄照片进行搜寻,而不是通过文字表述清楚。例如,假设用户在骑自行车时自行车出了故障。在这种情况下,用户直觉的搜寻方式可能是迅速拍摄一张自行车的照片以盘问解决方案,而不是依赖 TQS 或 VQS 用文本描述当前的问题。如果用户在搜寻框中键入 “自行车”,提供的提议可能是 “自行车扑克”、“自行车店” 和 “自行车泵”,这些都与用户计划不相关。

此外,为了进一步提升盘问提议的质量,系统不仅应该提供修理自行车的指导,还应该提供其他有用信息,比如附近的自行车修理点以及自行车频繁故障的可能原因。这些多样的选择允许用户有效地探索他们可能需要的信息。

为了解决这个问题,华为中央软件院新加坡搜寻技术团队在该文中提出了一个新的多模态盘问范式 MMQS,允许用户通过图象,获得多模态的盘问提议,提高了搜寻的灵活性和准确性。目前该工作已被互联网领域顶会 WWW 2024 接收。

华为盘问提议新范式MMQS入选WWW 2024,解锁鉴于人类反馈的多模态盘问提议

论文链接:https://arxiv.org/abs/2402.04867

华为盘问提议新范式MMQS入选WWW 2024,解锁鉴于人类反馈的多模态盘问提议

多模态盘问提议 MMQS

在这项工作中,作家以用户盘问图象为输入,并生成盘问提议以响应用户的搜寻计划。鉴于盘问提议旨在帮助用户启动搜寻引擎,MMQS 的设计聚焦于两个关键特性。

意向性:MMQS 的主要目标是有效捕捉用户的搜寻计划,推断出难以用言语表达的隐含信息需求。

多样性:MMQS 生成涵盖盘问图象不同方面的盘问提议,从而扩展搜寻空间。

寻衅与创新点剖析

MMQS 问题的构建引入了一系列需要创新解决方案的寻衅。其中的寻衅问题包括:

1. 数据收集:整合包含文本和视觉信息的多模态数据带来了独特的数据准备寻衅,这涉及生成图象 – 提议对,这在许多公开可用的图象 – 文本数据集(例如,COCO Captions 或 Flickr30k Entities)中并不常见。此外,标注用户计划可能是耗时的,缺乏清晰的指导方针。为了保证 MMQS 的成功,对于数据收集、自动配对和可靠注释的有效策略变得至关重要。

2. 意向性和多样性的捕捉:从盘问图象中推断用户计划并生成多样化的提议是一项复杂的工作。这需要理解视觉上下文和图象与文本提议之间的关联。在生成的提议中同时实现意向性和多样性需要精心设计的技术,以与用户计划对齐并避免冗余。

针对以上问题作家提出了以下创新方案:

GPT 协助下的自动化数据采集:作家利用当前 GPT 语言生成的才能,自动化收集图象 – 提议对和鉴于潜在点击的用户计划注释。采用鉴于阈值的机制,有选择地涉及对置信度较低提议的手动工作,保证在数据标注过程中在自动化和人工输入之间取得平衡。

华为盘问提议新范式MMQS入选WWW 2024,解锁鉴于人类反馈的多模态盘问提议

作家通过参数实验发现,当阈值设为 0.6 时基本能产生和人类标注数据接近的优化效果,但是极大缓解了标注工作量大约 46.9%

鉴于多智能体人类反馈的强化学习框架 RL4Sugg:框架内包括两个智能体协同工作:Agent-I 负责意向性,Agent-D 负责多样性。Agent-I 首先生成一组有意向的候选提议,包括专为此工作定制的 RewardNet 和 PolicyNet。RewardNet 利用多工作学习对图象 – 提议对进行对齐,并为这些对分配奖励。然后,通过人类反馈的强化学习(RLHF)对 PolicyNet 进行训练,以增强提议的意向性。Agent-D 从候选池中选择多样性提议,旨在与 Agent-I 协作,保证在端到端训练中明确优化意向性和多样性。

华为盘问提议新范式MMQS入选WWW 2024,解锁鉴于人类反馈的多模态盘问提议

为什么要使用多智能体?作家在 MMQS 工作中给出了讨论为什么要同时使用 Agent-I 和 Agent-D,而不是修改 Agent-I 来处理意向性和多样性两个方面 — 在解决该研究中 MMQS 工作时需要满足两个重要的特性:意向性和多样性。特别是这两个特性呈现出一些正交关系(依据消去实验结果),同时将它们融入统一的 Agent 框架中面临寻衅。

华为盘问提议新范式MMQS入选WWW 2024,解锁鉴于人类反馈的多模态盘问提议

通过在表格中的实证研究结果,当专门训练 Agent-I 执行这个工作时,观察到该 Agent 倾向于生成高度有意向性但重复的提议。因此,这种方法允许 Agent 通过利用重复的捷径从 RewardNet 获得高分,导致多样性显著下降。为了克服这个局限,使用两个独立的 Agent 来处理这两个不同的特性。具体而言,Agent-I 负责优化意向性,而 Agent-D 致力于增强多样性。这种战略性的分工使得能够通过应用多智能体强化学习明确优化 MMQS 工作中的意向性和多样性,保证对该工作的更全面的解决方案。

RL4Sugg 支撑应用场景:作家在两种搜寻引擎场景中探索了 RL4Sugg 的才能:(1)生成型和(2)检索型。

在(1)中,RL4Sugg 可以利用其语言生成才能,从 LLMs 中生成自然的盘问提议,以响应用户在不同领域的图象盘问。

在(2)中,RL4Sugg 专注于为具有较窄焦点的特定领域提供盘问提议,如电子商务购物网站,其中盘问提议仅限于它们的商品,并可以提前准备。它利用 PolicyNet 的两塔结构来表示图象和语言的才能。盘问提议以向量表示存储在数据库中,而鉴于向量的检索,如 HNSW,增强了搜寻效率。在推理过程中,RL4Sugg 提取用户的图象表示,并检索具有高相似性的盘问提议。值得注意的是,这种方法提供了多种优势,包括高效的盘问响应,通过预计算和存储盘问提议在数据库中,可以提前保证这些提议的质量。

RL4Sugg 解决冷启动问题:由于 RL4Sugg 依赖于注释者的反馈来理解搜寻的意向性,当学到的知识对在线用户盘问不足时,RL4Sugg 可能会面临潜在的冷启动问题,即在推荐提议时缺乏足够的学到的知识。为了解决这个问题,作家采用在线学习的方法,通过不断对两个 Agent 的优化方程进行微调,利用新记录的盘问图象和用户点击的提议,保证模型的策略保持最新以适应在线使用。在实验中作家验证了这种方法,结果显示用户体验提高了 8.3%,表明这一策略在实际应用中产生了积极的影响。

华为盘问提议新范式MMQS入选WWW 2024,解锁鉴于人类反馈的多模态盘问提议

实验结果

生成 & 检索工作有效性测试:作家进行实验证明了在生成和检索工作方面模型的有效性。该模型在 Business 数据集上进行微调(文中报告了具体参数),并在 ImageNet 上进行了直接测试以验证其可迁移性。对于生成工作,作家在 Business 和 ImageNet 数据集上盘问了 300 张图象,RL4Sugg 在 DCG 方面优于所有基线模型,表现出很强的可迁移性。最佳基线模型 Flamingo 的 DCG 为 0.73(比 RL4Sugg 低 18%)。所有模型在多样性方面表现相似,除了 BLIP-2 偶尔生成同义的盘问提议,以及 LLaVA 倾向于生成较长的提议。由于盘问提议鉴于包含必要实体和常见语法结构的盘问图象,所有模型的总体多样性值并不很高。对于检索工作,RL4Sugg 在两个数据集上的 PNR 和 Recall 均优于其他两个基线模型。

华为盘问提议新范式MMQS入选WWW 2024,解锁鉴于人类反馈的多模态盘问提议

Case study:作家在公开数据中展示了 RL4Sugg 图象到提议生成的零样本才能。其中选择与 Flamingo 进行比较,因为它在基线中表现最佳。可观察到盘问提议涵盖了盘问图象的各种计划。

在样例图中,潜在的计划可能涉及清理或整理脏冰箱的工作。值得注意的是,可观察到 RL4Sugg 在 RLHF 训练后有效地捕捉到了这一直观计划。此外,RL4Sugg 可以准确地捕捉到一个高计划的盘问,如 “破碎的 iPhone 手机”。

华为盘问提议新范式MMQS入选WWW 2024,解锁鉴于人类反馈的多模态盘问提议

团队介绍

该工作由华为新加坡中央软件院团队独立完成,团队以深耕 AI 基础软件作为目标,聚焦大模型基础软件技术创新研究,包括多智能体、多模态提示及检索增强生成(RAG)等前沿基础技术研究和才能构建,致力于构建鉴于强大算力和大模型的应用技术,以推动 AI 基础软件的发展。

给TA打赏
共{{data.count}}人
人已打赏
工程

谷歌提出全新RLHF格式:清除赞美模型,且无需匹敌性训练

2024-2-15 16:00:00

工程

OpenAI赋予ChatGPT影象性能,由你掌控

2024-2-15 17:38:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索