一直以来,引荐零碎领域面临模型线上线下效果差距大的痛点问题,昂贵的线上 A/B 尝试成本使得广大研究人员望而却步,也造成学术界的引荐零碎研究与工业界的实际应用间的巨大割裂。随着大谈话模型展现出类人的逻辑推理和理解能力,鉴于大谈话模型的智能体(Agent)能否摹拟实在用户的交互举动,从而构建一个可靠的虚拟引荐 A/B 尝试场景,以帮助引荐研究的应用落地,是一个急迫、重要且极具经济价值的问题。
为了回答这个问题,来自新加坡国立大学 NExT++ 尝试室团队构建了 Agent4Rec,一个由 1000 名 agents 构成的影戏引荐零碎摹拟器。这些 agent 由实在用户初始化,由 ChatGPT-3.5 驱动,根据用户喜爱与特点,对封装的不同引荐算法和其引荐的影戏做出个性化反应。这些个性化反应摹拟实在用户在引荐零碎中的举动,包括观望或拒看影戏,给影戏评分,翻到下一页影戏引荐列表,疲倦度估计,因不满意或疲惫揳入引荐零碎,给引荐算法进行评价等。广泛的尝试评估表明,Agent4Rec 里的 agent 能大概率反映实在世界的用户举动。
论文链接:https://arxiv.org/abs/2310.10108
代码链接:https://github.com/LehengTHU/Agent4Rec
1.Agent4Rec 平台构建
Agent4Rec 中的每一个用户,也即 agent,由 profile module、memory module、action module 构成。作家使用 MovieLens-1m 中的实在用户数据初始化 agent 档案。根据用户的历史交互生成 agent 的影戏偏好,根据用户的历史活跃度、从众性和观影多样性生成 agent 的交互特征。
引荐零碎将采取逐页引荐的方式,根据特定的引荐算法向用户引荐影戏列表。仿照实在的手机 APP 引荐场景,每页将展示 4 部影戏。每部影戏的信息包括影戏名、历史评分、影戏简介等。每个 agent 将根据自身的影戏喜爱、疲惫程度以及个人记忆对引荐的影戏做出反应,如观望或评价影戏。同时,历史引荐内容和 agent 举动将被存储在记忆中,agent 通过 reflection 的方式总结对引荐零碎的满意度和自身的疲惫程度。Agent 在每一页引荐结束后,都根据自身满意度和疲倦度,采用翻到下一页或者揳入引荐零碎。在用户揳入零碎之后,采访用户揳入引荐零碎的原因和对引荐影戏的评价。
2.Agent 举动摹拟实在性检验
用大谈话模型智能体摹拟人类举动最关键的问题,在于评估 agent 能够多大程度的摹拟用户的实在喜爱。Agent4Rec 在引荐场景下首次给出了一个尝试级别的回答。
为了衡量用户的影戏喜爱能否被 agent 正确捕捉,作家首先让 agent 对用户交互过的尝试集中的影戏和随机采样的负样本影戏进行喜爱与否判断。结果表明,agent 能够捕捉约 70% 的用户喜爱。
在验证了 agent 的影戏喜爱合理性的基础上,1000 个 agent 被投放到逐页引荐场景下,agent 可以采用提前揳入引荐零碎,或在达到 5 页之后强制揳入,同时 Agent 对采用观望的影戏进行 1 到 5 分的评分。下图尝试结果表明 agent 的评分与实在数据中的用户评分呈现分布一致性。
为了验证 Agent4Rec 作为 A/B 尝试平台的可能性,作家将 5 个常见的引荐策略部署到 Agent4Rec 平台,收集 agent 反馈(平衡观影比例、平衡喜爱数、平衡喜爱比例、平衡揳入页数、用户平衡满意度)。下表结果表明,鉴于算法的引荐零碎(MF、MultVAE、LightGCN)表现大幅优于鉴于策略的引荐零碎(Random、Pop)。且总体而言,LightGCN 的表现优于其他算法。这一结果证明,agent 能对不同的引荐零碎的引荐结果进行分辨。在未来,一个精心设计的鉴于大谈话模型的引荐零碎摹拟器或许能够充当理想的离线 A/B 尝试平台,并给出符合企业需求的用户评价指标。
仿照现实生活中引荐零碎会根据用户反馈进行更新的场景,作家在完成一轮引荐之后,将 agent 采用的高分影戏或未观望的影戏以正样本加入训练集,重新训练引荐零碎,并将重新训练的引荐算法再次部署到 Agent4Rec 平台。结果表明,将 agent 采用的高分影戏对引荐零碎进行再训练,在离线指标与摹拟的 “在线” 指标上均得到了提升。而将 agent 不喜欢的影戏作为数据增强则在大多数情况下起到了负向的效果。这从侧面说明 agent 的举动与实在用户举动对齐。
同时,引荐零碎中的实在用户往往具有不同的特点,如活跃性、从众性和观影多样性等。作家根据数据集中用户的不同统计信息,将 agent 在每个特点上分为 3 组并给出不同的用户画像。在摹拟完成后,收集 agent 的交互次数、agent 评分与用户历史评分的均方误差、agent 交互影戏种类数这三个指标,作为 agent 活跃性、从众性、观影多样性特点衡量。尝试结果表明,在三个组间 agent 的平衡表现符合预期,存在显著差异。
在个体层面,agent 的表现也与实在用户呈现一致性。以下图中的用户观影多样性为例,每个用户的实在观影种类数与 Agent4Rec 中的 agent 所观望的影戏种类数呈现一致趋势。
作家还通过消融尝试研究了不同特点初始化对 agent 举动起到的作用。下述尝试结果表明,没有个性化的特点初始化,agent 的举动呈现趋同,与现实生活中的实在用户举动长尾分布有别。
3. 探索引荐零碎中尚未解决的问题
获得一个实在的引荐零碎摹拟器,将极大地帮助引荐研究工作的推进。鉴于 Agent4Rec 对用户较大程度的实在举动摹拟,作家探索了两个有意思的待解决问题。
首先,作家利用 Agent4Rec 平台收集多维度引荐数据,探究引荐零碎中潜在的因果关系。作家选取 5 个引荐零碎中常见的变量:影戏质量、影戏盛行度、影戏曝光率、影戏浏览量、影戏评分,通过 DirectLiNGAM 建模一个带权有向无环因果图,分析这 5 个变量间的因果关系。下述因果图的左半部分说明,影戏评分只受影戏质量与影戏盛行度的正向影响。因果图的右半部分说明影戏的质量和盛行度将共同影响影戏的曝光率,进而影响影戏被点击次数。这反映了引荐零碎中的的盛行度偏差效应:更盛行的物品被更多曝光,进一步导致物品盛行度环路放大效应。
作家还进一步探究了引荐零碎中信息茧房问题。作家不断将 agent 采用的物品作为正样本加入训练集,训练新的引荐算法并收集 agent 反馈。随着摹拟与重新训练的轮数增多,引荐零碎对个体用户引荐的第一大类影戏的比例逐渐上升,且引荐零碎对个体用户引荐的平衡影戏种类数下降。这一现象表明,用户接受的信息种类将在引荐算法的干预下越来越单一。
4. 总结与展望
本篇工作探索了鉴于大谈话模型的智能体(Agent)摹拟实在引荐场景下用户举动的可能性。尽管大谈话模型仍存在诸如幻觉在内的种种问题,但 Agent4Rec 上的多智能体仍在多个方面展现出了和实在用户群体一致的举动。期待在未来,一个精心设计的鉴于大谈话模型的 agent 平台,能够足够实在地摹拟引荐场景的各个维度,为学术界和工业界的研究提供更多便利。