一. 论文简介
本文给大家介绍一篇刚被 ACM 旗舰期刊 ACM Computing Surveys (CSUR) 接收的鉴于会话保举体系 (Session-based Recommender Systems (SBRS)) 的综述长文。ACM Computing Surveys 是计算机学科最具影响力的期刊之一,其最新影响因子为 7.99,为中科院认定的一区 Top 期刊,CORE Rank A* 期刊,主要发表计算机科学畛域较有代表性的综述论文。
文章题为《A Survey on Session-based Recommender Systems》,论文一作为麦考瑞大学博后Shoujin Wang,钻研方向为数据挖掘,机器学习以及保举体系 。这篇文章是鉴于会话的保举体系方向的一篇较为体系全面的综述文章。全文共 39 页,包含 11 个 sections、4 幅插图、11 张表格和 163 篇该畛域内有代表性的参考文献。该文鉴于作者长期的积累和思考,对鉴于会话保举体系这一保举体系子畛域进行了全面而深入的梳理和总结。
该文对目前文献中存在的各种各样的对问题的定义进行了统一的形式化,体系地定义了鉴于会话保举体系的场景,任务和基本问题以及基本要领。作者从数据特色的角度出发,体系分析了 session 数据所特有的基本特色,以及他们给保举任务带来的寻衅。然后体系而全面地对这一畛域当前的进展进行了归纳总结,包括对要领的分类和比较,对每类要领基本思想和特色的阐述。梳理和总结了鉴于会话保举体系的主要应用场景,代表性算法和公开的数据集,并提供了开源链接。最后分享了本畛域的未来可能的钻研方向。
该文由浅入深,语言力求通俗易懂,举例丰富,既有深入的理论分析,又有应用,算法和数据集,既适合科研工作者阅读,也适合工程人员阅读。作者希望该文能给相关的钻研人员提供一个对该畛域钻研的主要问题以及涉及的各个方面、主要寻衅和进展一个全面而综合的了解,同时给未来的钻研提供一些启发。
论文预印版链接:
https://www.researchgate.net/profile/Shoujin-Wang/research
https://arxiv.org/abs/1902.04864
二. 论文解读
0. 摘要
在当今的信息过载和数字经济时代,保举体系在消费、服务和决策制定等方面正发挥着日益重要的作用。近些年来,鉴于会话的保举体系(session-based recommender systems (SBRSs)) ,作为保举体系的一种新的范式,正在兴起。不同于其他传统的保举体系,如鉴于内容的保举体系和协同过滤保举体系,通常建模用户的长期和静态的偏好,鉴于会话的保举体系旨在捕获用户短期和动态的偏好来给用户提供更实时和精准的保举服务。这些保举服务能对用户不断发展和变化的会话上下文场景具有较好的敏感性。尽管鉴于会话的保举体系已经被广泛钻研,目前既没有对鉴于会话的保举体系的一个统一的问题定义和陈述,也没有对鉴于会话的保举体系的特色和寻衅的一个深入阐述。通常,人们并不太清楚鉴于会话的保举体系的寻衅被解决到什么程度了,以及这一畛域的总体钻研概况是什么样的。
这篇全面综述通过深入探索和讨论鉴于会话的保举体系所涉及的主体 (比如会话),举动(比如用户对东西的点击),以及他们的特性(比如会话的长度) 来解决上述问题。钻研者提出了一个通用的鉴于会话的保举体系的问题陈述,概括和总结了这一畛域多样化的数据特色和寻衅,并且定义了一个分类要领来对该畛域内代表性的钻研进行分类。钻研者讨论了鉴于会话的保举体系在现实场景中的主要应用畛域,整理了典型的算法和常用的数据集。最后钻研者讨论了在这个充满活力的钻研畛域内的新的钻研机会。
1. 引言
保举体系已经发展成为人们进行快速有效选择和决策的一个基本工具。它已经渗透到我们日常生活的方方面面,包括生活、工作、学习、娱乐、社交和商业运营。保举体系的作用在数字经济中和信息日益过载的时代显得尤为重要,因为用户通常需要从大量的和快速增长的内容、产品和服务(统称为东西 (item))中选择他们所需要的。因此,各种各样的保举体系钻研畛域兴起并取得了成功,比如鉴于内容的保举体系,协同过滤保举体系和混合型保举体系。
然而,这些保举体系倾向于利用所有的用户与东西之间的交互信息来学习每个用户对东西的长期和静态的偏好。这种做法通常是建立在一个隐含的假设之上的,那就是一个用户的所有的历史交互举动对他当前的偏好是同等重要的。这可能与现实不相符合,主要原因有两点:
首先,一个用户对东西的选择不仅依赖于他长期以来形成的偏好,而且依赖于他短期的最近的偏好和跟时间相关的上下文场景(比如他最近浏览或者购买过的东西)。这种短期偏好通常隐含在用户的最近发生的与东西的交互举动之中,而这类最近的交互举动通常仅占用户所有交互举动的很小一部分。
其次,一个用户对东西的偏好通常是动态变化而非静止的,它会随着时间的推移而演变。
近些年来,为了弥补上述不足,鉴于会话的保举体系 (session-based recommender systems (SBRSs)) 悄然兴起,并引起了越来越多的关注。不同于上述保举体系,鉴于会话的保举体系从用户在交易过程中产生的会话 (session) 数据来挖掘和学习用户的偏好。每一个会话包含在一段连续的时间段内发生的多个「用户–东西交互举动」,比如某用户在一次交易会话 (比如从登录电商平台的账号到退出账号这段时间)中购买了一篮子东西。通过将每一个会话作为最基本的输入数据单元,一个鉴于会话的保举体系能够从一个用户的最近产生的会话中捕获他的短期偏好,以及从一个会话到另一个会话之间的偏好的变化,从而进行更精准和实时的保举。
在本文中,钻研者用鉴于会话的保举体系来指代那些所有以 session 数据为中心来保举当前会话里的下一个东西,接下来的所有东西以及下一个会话里的所有东西的保举体系。这个定义包括了有些文献中的一些狭义的鉴于会话的保举体系,它们只保举当前会话里的下一个东西。
对于鉴于会话的保举体系,文献中存在各种各样不同的工作。这些工作通常用不同的词语来描述,建立在不同的场景设置和假设之上,针对不同的应用畛域。比如,Hidasi et al. 在匿名会话数据上建立了一个鉴于会话的保举体系。他们通过假设会话内部的交互举动之间存在严格的先后顺序来预测用户接下来想要点击的东西或者想看的电影。Hu et al. 则在非匿名会话数据上建立了另一个鉴于会话的保举体系来保举用户下一个可能想购买的东西,他们没有假设会话内部存在严格的顺序。Jing et al. 则鉴于非匿名会话数据设计了一个鉴于会话的保举体系来保举用户想要听的下一首歌或者想看的下一部电影,他们假设会话内部存在顺序。
虽然鉴于会话的保举体系广泛存在于各个畛域并且很多相关的钻研都已经开展了,但是在这个畛域还存在很多的由不同的描述,假设,场景设置和应用畛域导致的不一致性。而且,没有一个统一的框架可以对现有的工作进行分类,对于鉴于会话的保举体系也还没有统一的问题陈述。更重要的是,没有人对鉴于会话的保举体系的特色(包括问题和数据方面的), 寻衅和钻研进展进行体系的讨论,也没有人对代表性的和最先进的要领进行体系的分类。这些缺陷限制了鉴于会话的保举体系的理论发展和实际应用。为了弥补上面提到的不同方面的缺陷,本文对鉴于会话的保举体系提供了一个综合而体系性的概览和综述。
本文的主要贡献如下:
钻研者提供了一个统一的框架来对鉴于会话的保举体系的相关工作进行分类,从而有效的缓解了这一畛域内的不一致性。
钻研者首次为鉴于会话的保举体系提出了一个统一的问题陈述,在该陈述中,一个鉴于会话的保举体系是建立在以下几个正式的概念之上的:用户、东西、动作、交互和会话。
钻研者对会话数据的基本特色以及它给鉴于会话的保举体系带来的寻衅提供了一个综合的概览。据了解,这是该畛域内的第一次这样的描述。
钻研者对鉴于会话的保举体系的各类要领进行了体系的分类和比较,从而可以看出该畛域的各个寻衅被解决到什么程度了,以及该畛域当前的进展如何。
钻研者对每一类要领简单介绍了主要的技术细节,从而给读者对鉴于会话的保举体系的当前进展提供一个深入的了解。
钻研者分析和讨论了鉴于会话的保举体系的主要的实际应用畛域和场景、收集和整理了典型算法的开源代码和常用的公开数据集。
最后,钻研者讨论和分享了鉴于会话的保举体系的一些开放的钻研问题和可能的钻研方向。
2. 相关工作
文献中存在各种不同的既关于鉴于会话的保举体系,也关于序列保举体系的钻研。序列保举体系是与鉴于会话的保举体系紧密相关但不同的畛域。即使在鉴于会话的保举体系中也存在很多不同的子畛域,比如下一个东西保举、下一个购物篮保举等。因此,很多用不同词语描述的不同的工作混杂在一块,导致整个畛域内没有一个统一和一致的描述,很容易让人混淆。在这一节,钻研者首先澄清鉴于会话的保举体系和序列保举体系的概念以及他们之间的差异,然后提出一个整体框架来统一组织鉴于会话的保举体系内的各种不同钻研,最后阐述这篇综述跟已有的相关综述之间的差异。
2.1 鉴于会话的保举体系 vs. 序列保举体系
2.2 统一组织鉴于会话的保举体系相关工作的框架
根据保举任务的不同,鉴于会话的保举体系可以划分为对当前会话内下一个交互举动(通常是下一个东西)的保举,对当前会话内剩余所有交互举动的保举和对下一个会话的保举。
2.3 相关的综述(详见原文)
3. 鉴于会话的保举体系问题陈述
一个保举体系可以看作一个体系,它包含多个基本主体:用户、东西、他们间的交互举动。这些基本的主体和举动构成会话的基本组成部分,而会话是鉴于会话的保举体系的核心主体。因此钻研者首先介绍这些主体和举动的定义及属性,然后在他们基础之上定义鉴于会话的保举体系的钻研问题。这些定义和属性将进一步用来对鉴于会话的保举体系进行刻画和分类。
3.1 用户以及用户的属性
3.2 东西以及东西的属性
3.3 举动以及举动的属性
3.4 会话以及会话的属性
3.5 鉴于会话的保举体系的钻研问题陈述
4. 特色和寻衅
鉴于会话的保举体系建立在会话数据之上,不同类型的会话数据通常具有不同的特色,这些特色本质上给鉴于会话的保举体系带来了不同的寻衅。本节首先描述根据会话 (session) 的属性所划分的不同类型的会话数据,然后讨论每一类会话数据的特色和寻衅。
4.1 与会话长度相关的特色和寻衅
4.2 与会话内部顺序相关的特色和寻衅
4.3 与举动类型相关的特色和寻衅
4.4 与用户信息相关的特色和寻衅
4.5 与会话数据结构相关的特色和寻衅
5. 鉴于会话保举体系要领的分类和比较
5.1 鉴于会话保举体系要领的分类
根据采用的技术,鉴于会话保举体系要领可以分为 3 大类:传统要领,鉴于嵌入表征学习的要领,鉴于神经网络的要领。这 3 大类又可以进一步分为 8 类。
5.2 不同类要领之间的比较
6. 传统的鉴于会话保举体系要领
传统要领采用传统的数据挖掘或者机器学习技术来挖掘会话数据内部的相关性,从而进行会话保举。传统要领主要包含 4 类:
6.1 鉴于模式 / 规则挖掘的要领
6.2 鉴于最近邻模型的要领
6.3 鉴于马尔科夫链的要领
6.4 鉴于生成式概率模型的要领
6.5 传统要领之间的比较
7. 鉴于嵌入表征学习 (latent representation) 的要领
7.1 鉴于潜在因子 (latent factor) 模型的要领
7.2 鉴于分布式表征 (distributed representation) 的要领
7.3 鉴于嵌入表征学习的要领间的比较
8. 鉴于深度神经网络的要领
8.1 鉴于基本的深度神经的要领
8.1.1 鉴于 RNN 的要领
8.1.2 鉴于 MLP 的要领
8.1.3 鉴于 CNN 的要领
8.1.4 鉴于 GNN 的要领
8.2 鉴于高级模型的要领
8.2.1 鉴于注意力模型的要领
8.2.2 鉴于记忆网络的要领
8.2.3 鉴于混合专家模型的要领
8.2.4 鉴于生成模型的要领
8.2.5 鉴于强化学习的要领
8.3 鉴于深度神经网络的要领间的比较
9. 鉴于会话保举体系的应用,算法和数据集
9.1 鉴于会话保举体系的应用
鉴于会话保举体系已经被广泛应用于现实世界的各个畛域和场景当中,来使客户和企业获利。下表总结了这些传统的和新兴的应用畛域。
9.2 开源算法和公开数据集
9.2.1 开源算法整理
9.2.2 公开数据集整理
10. 展望和未来的钻研方向
10.1 考虑一般用户偏好的鉴于会话保举体系
10.2 考虑更多场景及上下文影响因素的鉴于会话保举体系
10.3 考虑跨域信息的鉴于会话保举体系
10.4 考虑更多用户举动模式的鉴于会话保举体系
10.5 考虑约束条件的鉴于会话保举体系
10.6 交互式的鉴于会话保举体系
10.7 在线或者流式的鉴于会话保举体系
11. 结论
在本文中,钻研者对当前的鉴于会话的保举体系的最具代表性的工作进行了体系而广泛的调研。钻研者提出了一个统一的框架来把这个畛域内各种各样的工作归结为 3 大类,同时提出了一个统一的问题陈述来消除该畛域内存在的各种不一致性,以减少读者的疑惑。钻研者透彻地分析了会话数据的独有特色以及他们给鉴于会话的保举体系所带来的寻衅。钻研者提出了一个分类机制来对现有的鉴于会话的保举体系的要领进行分类,阐述了每一类要领的核心思想和一些关键的技术细节。此外钻研者讨论了鉴于会话的保举体系的实际应用畛域和场景,收集和整理了一些典型的算法和数据集。最后钻研者讨论了该畛域一些可能的钻研方向。关于鉴于会话的保举体系的钻研正方兴未艾,大量的新技术和新要领正在不断涌现出来。钻研者希望这篇综述能给读者在关于这个畛域的主要问题,关键寻衅,最新进展以及主要要领和应用等方面带来一个综合而全面的了解。
相关综述文章:
[1] Shoujin Wang, Liang Hu, Yan Wang, Xiangnan He, Quan Z. Sheng, Mehmet A. Orgun, Longbing Cao, Francesco Ricci, Philip S. Yu. Graph Learning based Recommender Systems: A Review. In Proceedings of the 30th International Joint Conference on Artificial Intelligence (IJCAI 2021 Survey Track), 1-9, 2021. Preprint version: https://www.researchgate.net/profile/Shoujin-Wang
[2] Shoujin Wang, Liang Hu, Yan Wang, Longbing Cao, Quan Z. Sheng, Mehmet A. Orgun. Sequential Recommender Systems: Challenges, Progress and Prospects. In Proceedings of the 28th International Joint Conference on Artificial Intelligence (IJCAI 2019 Survey Track), 6332-6338, 2019. Preprint version: https://www.researchgate.net/profile/Shoujin-Wang
部分参考文献:
Shoujin Wang, Longbing Cao, Yan Wang, Quan Z. Sheng, Mehmet A. Orgun, Defu Lian. A Survey on Session-based Recommender Systems. ACM Computing Surveys (CSUR 2021), 1-39, (accepted).
Shoujin Wang, Liang Hu, Yan Wang, Xiangnan He, Quan Z. Sheng, Mehmet A. Orgun, Longbing Cao, Francesco Ricci, Philip S. Yu. Graph Learning based Recommender Systems: A Review. In Proceedings of the 30th International Joint Conference on Artificial Intelligence (IJCAI 2021 Survey Track), 1-9, 2021.
Shoujin Wang, Liang Hu, Yan Wang, Longbing Cao, Quan Z. Sheng, Mehmet A. Orgun. Sequential Recommender Systems: Challenges, Progress and Prospects. In Proceedings of the 28th International Joint Conference on Artificial Intelligence (IJCAI 2019 Survey Track), 6332-6338, 2019.
Shoujin Wang, Liang Hu, Yan Wang, Quan Z. Sheng, Mehmet A. Orgun, Longbing Cao. Modeling Multi-Purpose Sessions for Next-Item Recommendations via Mixture-Channel Purpose Routing Networks. In Proceedings of the 28th International Joint Conference on Artificial Intelligence (IJCAI 2019), 6332-6338, 2019.
Shoujin Wang, Liang Hu, Longbing Cao, Xiaoshui Huang, Defu Lian, Wei Liu. Attention-based Transactional Context Embedding for Next-item Recommendation. In Proceedings of the 32nd AAAI Conference on Artificial Intelligence (AAAI 2018), 2532-2539, 2018.
Shoujin Wang, Liang Hu, Longbing Cao. Perceiving the Next Choice with Comprehensive Transaction Embeddings for Online Recommendation. In Proceedings of the 28th Joint European Conference on Machine Learning and Knowledge Discovery in Databases (ECML-PKDD 2017), 285-302, 2017.
Shoujin Wang, Liang Hu, Yan Wang, Quan Z. Sheng, Mehmet A. Orgun, Longbing Cao. Intention Nets: Psychology-inspired User Choice Behavior Modeling for Next-basket Prediction. In Proceedings of the 34th AAAI Conference on Artificial Intelligence (AAAI 2020),6259–6266, 2020.
Liang Hu, Longbing Cao, Shoujin Wang, et al. Diversifying Personalized Recommendation with User-session Context. In Proceedings of the 26th International Joint Conference on Artificial Intelligence (IJCAI 2017), 1858-1864, 2017.