随着互联网技术的迅速发展,尤其是移动互联网的兴起,新产生的信息呈现爆炸式的增长。为了更好地解决信息获取中的信息过载(Information Overload)和长尾问题(Long Tail),引荐零碎应运而生,目前基本上已经成为了各种产品的标配功能。引荐零碎是信息过滤零碎的一个分支,它可以自动地挖掘用户和东西之间的联系。具体来说,它试图鉴于用户本身的多维度属性数据(如年龄、地域、性别等)以及行为数据的反馈(如点击、收藏、点赞、购买等),结合东西自身属性数据(如标题、标签、类别、正文等),以预测用户对待引荐东西的评分或偏好。从用户的角度来看,引荐零碎是鉴于用户个人的兴趣偏好举行千人千面的自动引荐,则有助于缓解信息过载问题。从东西的角度来看,其自身属性及对应的交互行为差异,通过各种引荐方式是可以触达到对其更感兴趣的用户群体中,缓解了曝光不足带来的长尾问题。从企业的角度来看,引荐零碎带来了更好的产品交互方式,达到了沉浸式体验的效果,从而进一步提升了用户的黏性,并最终大幅度提升了转化收益。
图1 达观智能引荐零碎
在智能引荐ToB企业服务领域,达观数据已经有了10余年的引荐技术沉淀和上千家客户的行业应用实践经验。早在2012年的时候,由达观数据创始人陈运文博士带领团队参加了在伦敦举办的EMI数据黑客竞赛并获得了国际冠军,该竞赛主要是围绕音乐引荐场景,如何鉴于用户听歌行为等数据举行分析挖掘来对预测用户兴趣偏好并举行歌曲引荐。经过激烈鏖战,由他们开发的智能引荐零碎对500万听歌用户的数据举行建模,根据每个用户的个性化兴趣偏好从数十万首歌曲库中为每个用户生成千人千面的歌曲引荐结果,引荐精度力克包括来自剑桥大学、牛津大学、密歇根大学等等的300多支参赛队伍,一举获得冠军。达观智能引荐鉴于前沿的人工智能和大数据分析挖掘技术,经过多年的产品打磨和持续的行业应用探索,累计服务客户数量达到了上千家。(https://www.datagrand.com/products/recommend/)
鉴于过滤思想的引荐要领
经过多年的引荐零碎理论发展,已经产生了三代主要的引荐零碎。第一代引荐零碎(1995-2005),主要包括三种要领:鉴于内容过滤的要领、鉴于协同过滤的要领和混合要领,技术上主要是规则统计和机器进修。第二代引荐零碎(2003-2014),主要是鉴于时间、位置、用户组评分等特性上下文,对这一代引荐零碎的研究目前仍在举行中。第三代引荐零碎的研究更侧重在鉴于默示进修的语义模型以及在引荐过程中会有较多的关于学问组件的利用。
01鉴于协同过滤的引荐要领
协同过滤要领(Collaborative Filtering,CF)是一种传统的引荐要领,体现的是群体智慧,它鉴于用户的兴趣偏好和与东西的历史交互行为举行引荐。这种要领可以分为鉴于记忆的要领和鉴于模型的要领。而鉴于记忆的要领可以分为两类:鉴于用户的(User-based CF)和鉴于东西的(Item-based CF)。鉴于内存的要领最流行的算法是KNN算法,该算法利用了一些传统的相似性度量,如 Pearson、Spearman、Cosine、Jaccard 等。另一方面,在鉴于模型的要领中,最常用的是矩阵分解(MF)及其变体(NMF、SVD)。目前,又出现了一些新的鉴于模型的协同过滤要领,如贝叶斯、鉴于聚类的、鉴于规则的和鉴于图的引荐要领。协同过滤主要存在两个问题:当用户与东西之间的交互很少时用户数据的稀疏性,以及冷启动问题(新用户和新东西)。另外就是是传统的引荐技术没有利用引荐场景中的诸多语义信息、关键字瓜葛和层次结构。
02鉴于内容过滤的引荐要领
鉴于该要领的引荐零碎通过进修和用户过去偏好的东西在内容特性方面比较相似的新东西举行引荐。这类要领可以分为鉴于案例推理(case-based reasoning)和鉴于属性(attribute-based)的技术。鉴于案例推理的技术主要是引荐与用户过去喜欢的东西高度相关的东西。相比之下,鉴于属性的技术鉴于将东西属性与用户属性相匹配来举行引荐结果生成。大多数鉴于内容过滤的引荐零碎利用的模型包括:关键字匹配或向量空间模型(VSM)、鉴于词频-逆文档频率(TF-IDF)加权、主题建模等。鉴于内容过滤的引荐要领,引荐出来的东西具有较高的文本相关性,同时可以很好的解释引荐结果,但是引荐出来的结果往往惊喜度较差,同时文本特性较为稀疏时也会影响相关性的计算。
03鉴于人口统计信息过滤的引荐要领
该要领的主要思想是具有某些共同个人属性(性别、年龄、国家等)的用户也具有共同偏好这一事实。鉴于此,这些零碎可以通过根据人口统计属性对用户举行分类来生成引荐结果。当东西的信息量很有限时,这些要领特别有用。该要领的一个优点是它不需要用户对鉴于内容和协同过滤要领所必需的东西举行评分或者有交互反馈。然而,这种类型的引荐方式的主要问题,一是由于涉及安全和隐私问题,为用户收集完整的信息是不切实际的;二是该要领向相关人口统计群体的用户引荐相同的商品,个性化程度受限。
04鉴于上下文感知过滤的引荐要领
该类引荐零碎结合场景上下文信息举行引荐。这种要领假设当前引荐场景的上下文是用一组预定义的可观察属性定义的,其结构不会随着时间的推移而发生显着变化。所谓的上下文信息主要包括时间、位置或者其他人(如朋友、亲戚或同事)。这些上下文信息为引荐结果的生成提供了额外的信息,相对于仅考虑用户或者东西自身信息,会有更多的补充。
05鉴于学问过滤的引荐要领
该类引荐零碎主要是鉴于领域学问考虑如何引荐以满足用户的兴趣偏好。这些零碎应该利用三种类型的学问:关于用户的学问、关于东西的学问以及关于东西与用户需求之间对应瓜葛的学问。总体上来说,该要领主要是依靠学问图谱来为引荐零碎更多的辅助信息以提升引荐精准度。后面会展开来详细介绍。
06混合过滤的引荐要领
这些零碎通常将协同过滤与内容过滤或协同过滤与任何其他引荐要领相结合举行引荐。结合的目标是利用每种要领的优势以提高整体零碎性能和引荐效果。目前,一些关于混合要领的工作包括鉴于深度进修要领、贝叶斯网络、聚类、潜在特性和图结构等等。近年来,鉴于深度神经网络的要领,如 DNN 、Wide & Deep、DeepFM在排序进修(Learn to Rank,LTR)方面取得了令人瞩目的表现。这些要领遵循嵌入(Enmbedding)和多层感知机(Multilayer Perceptron,MLP)范式,其中大规模稀疏特性首先嵌入到低维向量中,然后毗邻在一起输入多层感知器以进修特性之间的非线性瓜葛。先进的LTR要领发现了从用户的历史行为中提取用户兴趣以举行排名的有效性。具体来说,DIN(Deep Interest Network)利用注意力机制从用户对候选东西的历史行为中进修用户兴趣的默示。DIEN(Deep Interest Evolution Network)利用循环神经网络来捕捉用户兴趣的演变。DMT(Method Deep Multifaceted Transformers)利用多个转换器对用户的不同行为序列举行建模。
总体上来说,引荐算法是引荐零碎的核心元素。鉴于协同过滤的引荐方式是以交互数据中用户或东西的相似性对用户兴趣偏好举行建模,而鉴于内容过滤的引荐要领则主要是利用东西的内容特性。鉴于协同过滤的引荐零碎已被广泛应用,因为它们可以有效地捕获用户偏好,并且可以在多种场景中可以快速方便的实现,而无需像鉴于内容过滤的引荐零碎中提取各种特性。然而,鉴于协同过滤的引荐要领存在数据稀疏和冷启动问题。为了解决这些问题,已经提出了很多类型的混合引荐零碎来统一交互级相似性和内容级相似性。在这个过程中,也探索了多种类型的辅助信息,例如东西属性、评论数据、用户的社交网络等等。实践证明,混合引荐零碎通常可以获得更好的引荐结果,并且近年来越来越受欢迎。
学问图谱概述
学问图谱(Knowledge Graph,KG)是一种描述实体或概念并利用不同类型的语义瓜葛将它们毗邻起来的结构。2012 年,Google提出术语“学问图谱”来指代语义学问在网络搜索中的利用,目的是提高搜索引擎的能力,增强用户的搜索体验。在“学问图谱”一词流行之前,DBPedia和其他链接数据集是由语义Web技术和Berners-Lee提出的链接数据设计问题生成的。如今,KG已经在业界获得了广泛关注并举行了大规模的零碎应用。在过去的数年中,越来越多的语义数据遵循关联数据原则,通过将来自不同主题领域的各种信息(如人、书籍、音乐、电影和地理位置)毗邻到一个统一的全球数据空间中来发布。这些异构的数据相互联系,形成了一个巨大的信息资源库,称为学问库。已经构建了几个典型的学问库,包括YAGO、NELL、DBpedia、DeepDive等学术项目,以及微软的Satori、谷歌的Knowledge Graph等商业项目。利用来自学问库的异构毗邻信息有助于深入了解单个领域的数据难以发现的问题。
以下是部分学问库介绍:
Freebase是一个非常实用的并且可拓展的元组数据库零碎,旨在成为世界学问的公共存储库。它的设计灵感来自广泛利用的信息社区,如语义网和维基百科。Freebase 中的数据是结构化的,通过协作创建的方式生成。它支持高度多样化和异构的数据,并具有高可扩展性。Freebase 目前包含125000000+ 元组、4000+类型和 7000+属性。MQL (Metaweb Query Language)作为一种对数据执行查询和操作的语言,通过鉴于HTTP协议的图查询(graph-query)API可以实现对Freebase的读写操作。MQL为Freebase中的元组数据提供了易于利用的面向对象的接口,它的产生旨在促进通过协作方式创建鉴于 Web 的面向数据的应用程序。
DBpedia是从111种语言的维基百科版本中提取结构化数据来构建的一个大规模多语言学问库。从英文版维基百科中抽取的最大DBpedia学问库包含4亿多条事实数据,用于描述370万种事物。从其它的110个维基百科版本中抽取的DBpedia学问库总共包含14.6亿事实数据,描述1000万种额外事物。DBpedia将27种不同语言版本的维基百科信息框(infoboxes)映射到一个单一的共享本体中,该本体由320个类和1650 个属性组成。这些映射是通过世界范围内的众包工作创建的,从而可以很好的融合来自不同维基百科版本的学问。该项目定期发布所有DBpedia学问库以供下载,并通过本地DBpedia章节的全球网络提供对111种语言版本中的14 种语言版本的SPARQL查询访问。除了定期发布之外,该项目还维护一个实时学问库,该学问库会在维基百科中的页面发生更改时举行更新。DBpedia设置了2700万个RDF链接,指向30多个外部数据源,从而使来自这些源的数据能够与DBpedia数据一起利用。
YAGO是由德国马普研究所研制的链接数据库。YAGO主要集成了Wikipedia、WordNet和GeoNames三个来源的数据。YAGO建立在实体和瓜葛之上,目前包含超过 100 万个实体和 500 万个事实,1.2亿条三元组学问,包括 Is-A 层次结构以及实体之间的非分类瓜葛,事实已自动从Wikipedia中提取并与 WordNet统一。YAGO将WordNet的词汇定义与Wikipedia的分类体系举行了融合集成,使得YAGO具有更加丰富的实体分类体系。YAGO还考虑了时间和空间学问,为很多学问条目增加了时间和空间维度的属性描述。
学问图谱本质上是一种鉴于图的数据结构,是一种揭示实体之间瓜葛的语义网络。通俗来讲,就是把不同种类的信息毗邻在一起得到的一个语义瓜葛网,学问图谱以结构化的方式描述客观世界,沉淀背景学问,将信息学问默示成更接近人类认识世界的形式,已经被广泛应用于搜索引擎、智能引荐、智能问答、语言理解、决策分析等领域。
图2 达观学问图谱功能展示
达观学问图谱,是达观数据公司面向各行业学问图谱应用而推出的新一代产品,其整合了学问图谱的设计、构建、编辑、管理、应用等全生命周期实现,鉴于客户的多源异构数据整合构建学问中台,可以实现从业务场景出发到生成图谱、再到实现鉴于图谱的应用,显著提高了各行业中学问图谱的落地效率和效果。
学问图谱和引荐零碎
传统的引荐零碎更多的是将用户和东西之间的显式或隐式反馈作为输入,这带来了两个问题:
在实际场景中,用户和东西之间的交互信息特别稀疏。例如,一个在线购物应用可能包含数十万的商品,而用户实际购买的商品数量可能仅有数百。利用如此少量的行为反馈数据来预测大量未知信息会显着增加算法过拟合的风险。
对于新用户和新东西的引荐,由于缺乏历史交互信息,零碎引荐的精准度就会受到极大的负面影响。解决稀疏性和冷启动问题的一种常见要领是在引荐算法的输入中引入额外的辅助信息,例如用户属性、项目属性和上下文信息等等。
近年来,将学问图谱作为辅助信息引入引荐零碎已经成为了工业界和学术界的研究热点。KG一方面可以提供丰富的领域学问作为补充信息来克服协同过滤和鉴于内容过滤的引荐要领所面临的问题;另一方面,引荐零碎可以利用 KG 中存在的语义瓜葛来提高其准确性并增加引荐东西的多样性。具体来说,KG 引荐利用了代表用户的实体、要引荐的东西及其交互之间的联系。引荐零碎利用各种毗邻来识别目标用户可能感兴趣的东西集合。因此,复杂的瓜葛默示为鉴于KG的引荐零碎提供了额外的有价值的信息,以在节点之间应用推理来发现新的毗邻。相反,一般来说,鉴于特性向量的经典引荐要领会忽略这种毗邻,这可能会导致整体的引荐性能欠佳,尤其是在数据稀疏的情况下。
融入学问图谱的引荐零碎
KG是一个异质图,节点默示实体,边缘默示实体之间的瓜葛。东西及其属性可以映射到 KG 中,以表征东西之间的相互瓜葛。此外,用户及其信息也可以集成到KG中,这就使得用户和东西之间的瓜葛以及用户偏好可以更准确地捕获。
一般来说,鉴于KG的引荐要领,第一步需要构建KG,可以是东西学问图谱(Item Knowledge Graph,IKG),也可以是用户东西学问图谱(User-Item Knowledge Graph,UIKG)。
关于IKG。在IKG中,东西和他们关联的实体(如东西属性)作为节点,而边可以默示东西的属性级瓜葛(如品牌、类别等),也可以默示为用户相关的瓜葛(如“都浏览”、“都购买”)。
关于UIKG。在UIKG中,用户、东西和他们相关的实体都是节点,边可以默示用户和东西之间的瓜葛(如点击、收藏、购买等)。
以IKG的构建为例,东西首先映射到外部 KG 以找到它们的关联实体,然后从 KG 中提取关联实体的多跳邻居,并形成引荐零碎的子图。当然也可以不需要依赖外部KG,可以鉴于所提供的数据中的辅助信息来构建KG。可解释的引荐零碎是近年来的另一个热门研究方向。一方面,在引荐结果呈现的实现如果可以向用户提供适当的引荐解释,则用户可以相对更好地接受引荐结果。另一方面,也可以更深入地了解引荐算法。与传统的引荐零碎相比,鉴于学问图谱的引荐零碎呈现了毗邻用户和东西的多种实体和瓜葛,并且能够很好地展示推理过程。
鉴于学问图谱的引荐要领,按照如何应用学问图谱数据,可以分为三类,分别是鉴于嵌入的要领、鉴于毗邻的要领和鉴于流传的要领。
01鉴于嵌入的要领
鉴于嵌入(Enbedding-based)的要领主要思想是利用KG中大量的事实学问来进一步地丰富用户和东西的多维度默示,其中主要包括两大基础模块,一个是图嵌入模块,用于进修KG中实体和瓜葛的默示,也就是需要应用学问图嵌入(Knowledge Graph Embedding,KGE)算法将KG编码为低秩嵌入,KGE算法可以分为两类:平移距离模型,如TransE、TransH、TransR、TransD等,以及语义匹配模型,如 DistMult。另外一个是引荐模块,鉴于进修到的特性用于预测用户对东西的偏好。鉴于这两个模块在整个引荐框架中的关联方式的差异,鉴于嵌入的要领可以进一步细分为两阶段进修的要领、联合进修的要领和多任务进修的要领。该类要领面临的挑战包括如何利用合适的KGE要领以获得实体的嵌入默示以及如何将进修到的实体嵌入默示集成到引荐模块中。
图3 DKN框架
(1)两阶段进修要领两阶段进修要领是指分别对图嵌入模块和引荐模块举行训练。第一步,利用KGE算法进修实体和瓜葛的嵌入默示,接着,将预训练好的图相关嵌入连同其它的用户特性和东西特性输入到引荐模型举行用户兴趣预测。图3是用于新闻引荐的DKN(Deep Knowledge-aware Network)两阶段进修框架图。在第一阶段,提取新闻标题中的实体并将其映射到 Satori KG以挖掘新闻之间的学问级瓜葛。DKN 通过将用KCNN进修到的句子的文本嵌入默示和通过TransD将新闻内容中的实体的学问级嵌入二者结合来对新闻举行建模。为了捕捉用户对新闻的动态兴趣,通过引入注意力机制,聚合用户的历史点击新闻的嵌入来进修用户的默示。
两阶段进修要领易于实现,其中 KG 嵌入通常被视为后续引荐模块的额外特性。另一个好处是可以在没有交互数据的情况下进修 KG 嵌入,因此,大规模交互数据集不会增加计算复杂度。此外,由于KG通常是稳定的,一旦进修好了嵌入默示,就没有必要频繁更新嵌入默示。但是,通过 KGE 模型优化的实体嵌入更适合于图内应用,例如 KG补全。由于 KGE 模块和引荐模块是松耦合的,因此进修到的嵌入也可能不适合后续的引荐任务。
图4 CKE引荐零碎流程
(2)联合进修法另一个趋势是以端到端(end-to-end)的训练方式联合进修(Joint Learning)图嵌入模块和引荐模块。这样,引荐模块可以指导图嵌入模块中的特性进修过程。CKE(Collaborative Knowledge Base Embedding)统一CF框架中的各种类型的辅助信息,包括东西的属性级特性、文本特性和视觉特性。属性级特性用TransR编码以从KG中进修结构学问,而文本特性和视觉特性用自动编码器举行提取。这三个特性进修模块的目标函数加上引荐模块共同进修模型参数。
联合进修要领可以举行端到端的训练,并且可以利用 KG 结构对引荐零碎举行正则化。然而,在实际应用过程中,需要对不同目标函数的组合举行微调。
图5 MKR框架及交叉压缩单元示例
(3)多任务进修法最近的一个研究方向是采用多任务进修(Multi-Task Learning)的策略,在KG相关任务的指导下训练引荐任务。动机是用户-东西交互二分图中的东西及其在 KG 中的关联实体可能共享相似的结构。因此,东西和实体之间低级特性的转移有助于促进引荐零碎的改进。MKR(Multi-task feature learning approach for Knowledge graph enhanced Recommendation)由一个引荐模块和一个KGE模块组成。这两个模块不是将 KG 嵌入输入到引荐模块中,而是独立的,并通过交叉压缩单元举行毗邻以共享学问。引荐模块被训练以估计用户对候选东西的偏好,而KGE模块被训练来估计给定头部实体和三元组中的尾部实体默示。具体来说,引荐模块鉴于MLP以获得最终用户默示。最终的东西默示由L层交叉压缩单元及其在KG中的相关实体来举行细化。利用非线性函数估计用户对候选东西的偏好程度。
通过应用多任务进修策略,有助于防止引荐零碎过拟合,提高模型的泛化能力。然而,与联合进修要领类似,它需要努力在一个框架下集成不同的任务。综上,尽管两阶段进修要领易于实现,但进修到的实体嵌入可能不适合引荐任务,联合进修要领通过端到端训练进修优化的实体嵌入,多任务进修要领通过从KG相关任务中转移学问进一步提高模型的泛化能力。但是,它需要大量的实验来找到不同目标函数的最佳组合。
02鉴于毗邻的要领
鉴于毗邻(Connection-based)的要领利用图中的毗邻模式来指导引荐。相关的大多数工作都利用UIKG来挖掘图中实体之间的瓜葛。探索KG中的毗邻信息有两种主要要领。第一个方向是利用图中的元结构,包括元门路和元图,来计算实体之间的相似度。鉴于元结构的相似性可以作为用户和东西默示的约束,也可以用于预测用户对交互历史中相似用户或相似东西的兴趣偏好。第二种解决方案是将用户-东西对或东西-东西对之间的毗邻模式编码为向量,可以集成到引荐框架中。这种要领也叫鉴于门路嵌入的要领。这种要领的挑战包括:1)如何为不同的任务设计合适的元门路;2)如何对实体之间的毗邻模式举行建模。(1)鉴于元结构的要领
鉴于元结构(Meta-structure based)的要领的一种实现是利用不同元门路中实体的毗邻相似性作为图谱正则化项来约束用户和东西的默示。其动机是鉴于元门路的实体相似度越高,则在潜在空间中越接近。目标函数如式(1)所示:
其中LRec默示引荐零碎的目标函数,常见的选择是矩阵分解。相似性约束LSim指导用户嵌入和东西嵌入的进修。为了度量图中实体之间的毗邻相似性,通常利用PathSim, 如式(2)所示:
其中Pm~n是实体m和n之间的一条门路。通常利用三种类型的实体相似性,具体如下:(a)用户-用户相似度,目标函数如式(3)所示:
其中||Ui-Uj||F默示矩阵 Frobenius 范数, ɵ=[ɵ1,ɵ2,…..ɵL]默示每个元门路的权重,U=[u1,u2,…,um]默示所有用户的潜在向量,S[1-(i,j)]默示用户i和j在元门路中的相似度得分。如果用户共享鉴于元门路的高相似性,则用户-用户相似性会迫利用户的嵌入在潜在空间中接近。
(b)东西-东西相似度,目标函数如式(4)所示:
其中 V=[v1,v2,…,vn]默示所有东西的潜在向量.与用户-用户相似度类似,如果东西的鉴于元门路的相似度很高,则东西的低秩默示应该是接近的。
(c)用户-东西相似度,目标函数如式(5)所示:
如果鉴于元门路的相似度很高,则用户-东西相似度项将迫利用户和东西的潜在向量彼此接近。
除了以上三种相似度的要领以外,鉴于元结构的要领也可以利用实体相似度来预测用户对未评分东西的兴趣,这可以作是KG中的偏好融合。综上,上述要领首先从交互矩阵及其鉴于元结构的相互相似性中进修用户和东西的潜在向量,然后鉴于增强的默示举行预测。也可以直接利用相似用户评分的加权集合来预测对未评分项目的偏好。鉴于元结构的要领是可以解释的,因为这些手动设计的元结构通过匹配候选东西与交互东西或目标用户之间的元结构来为引荐零碎提供更多参考信息。
鉴于元结构的要领易于实现,大多数工作都是鉴于模型复杂度相对较低的MF技术。然而,元门路或元图的选择需要领域学问,并且这些元结构对于不同的数据集可能会有很大差异。此外,在某些特定场景下可能不适合应用鉴于元结构的要领。例如,在新闻引荐任务中,属于一个新闻的实体可能属于不同的域,这使得元门路设计变得困难。
(2)鉴于门路嵌入的要领
鉴于元结构的要领的一个问题是毗邻模式没有明确建模,这使得很难进修用户-东西对和毗邻模式之间的相互影响。但是,鉴于门路嵌入的要领可以显式地进修毗邻模式的嵌入。通过进修毗邻UIKG中的用户-东西对或IKG 中的东西-东西对的门路的显式嵌入,以便直接建模用户-东西或东西-东西瓜葛。以UIKG中的瓜葛建模为例,假设KG中有K条毗邻ui和Vj的门路,门路p的嵌入默示为hp,则可以通过式(6)获得ui和Vj之间交互的最终默示:
其中g(∙)是从每个门路嵌入中汇总信息的函数,常见的选择是最大池化操作或加权求和操作。然后,ui和Vj的偏好可以通过式(7)建模:
其中f(∙)是映射用户-东西对之间的交互默示以及用户-东西对嵌入到偏好分数的函数。
引荐结果可以通过检查每个元门路的权重来解释。较高的元门路权重意味着目标用户和候选东西之间的这种瓜葛在做出决策时更重要。鉴于门路嵌入的要领将用户-东西对或东西-东西对的毗邻模式编码为潜在向量,从而可以考虑目标用户、候选东西和毗邻模式的相互影响.此外,大多数模型能够通过计算合适的门路并选择显著门路来自动挖掘毗邻模式,而无需预定义的元结构的帮助。因此,它很可能捕捉到富有表现力的毗邻模式。但是,如果图中的瓜葛很复杂,则图中可能的门路数量可能会增长到很大。随意实际上,不可能利用大规模 KG 中每个实体对的所有门路,这可能会阻碍模型的性能。综上,鉴于毗邻的要领在很大程度上依赖于毗邻模式。但是元门路的默示能力是有限的,这阻碍了传统的鉴于元结构的要领的性能。鉴于门路嵌入的要领进一步克服了鉴于元结构的要领的另一个缺点,即需要领域学问和人工配置门路。这些要领枚举可能的门路并显式建模用户-东西对或东西-东西对之间的瓜葛。然而,鉴于门路嵌入的要领在一定程度上牺牲了可扩展性,因为这些模型相对复杂,在枚举门路和进修默示时需要更多的计算。
03鉴于流传的要领
鉴于嵌入的要领利用学问图谱中的语义瓜葛来丰富用户和东西的默示,但难以捕捉实体之间的高阶瓜葛。鉴于毗邻的要领利用图中的毗邻信息来指导引荐,但是,通过将复杂的用户东西毗邻模式分解为单独的线性门路,不可避免地会丢失信息。为了充分利用 KG 中的信息,鉴于流传的要领集成实体和瓜葛的默示以及高阶毗邻模式,以实现更个性化的引荐。鉴于流传的要领的主要想法是嵌入流传,其中常见的实现方式是鉴于 GNN 技术。这些要领通过聚合KG 中多跳邻居的嵌入默示来细化实体默示。然后,可以利用用户和潜在项目的丰富默示来预测用户的偏好。
根据在消息流传过程中细化的实体类型产的差异可以进一步的举行细分为三类。这种要领的挑战包括:
如何为不同的邻居分配适当的权重
如何在不同的瓜葛边上流传消息
如何提高模型的可扩展性
(1)用户嵌入默示的细化根据用户的交互历史细化用户嵌入默示。先是构建IKG利用多个瓜葛将交互东西和候选东西毗邻起来。则用户可以默示为他们交互东西及其多跳邻居的组合。具体来说,交互历史中的东西被选为流传过程的种子。然后,沿图中的链接提取多跳三元组集合S[k-ui](k=1,2,…,H),其中S[1-ui]是三元组集(eh,r,et),头部实体是用户ui的交互过的东西列表。进修用户默示ui的过程可以表述为如下两步:
(a)通过聚合三元组集合S[k-ui](k=1,2,…,H)的每一层中的实体来计算用户的嵌入默示o[k-u]。
(b)合并o[k-u](k=1,2,…,H),得到最终的用户嵌入默示ou。
由于流传过程是从用户交互过的东西开始,到远邻结束,这个过程可以看作是在IKG中逐层向外流传用户的偏好。因此,这些要领可以解释为沿着 KG 中的门路从历史兴趣中流传用户的偏好。
在这些要领中,边权重在IKG 中是明确的。因此,可以选择毗邻候选东西和交互项目的显著门路,并作为引荐结果的解释。尽管这些工作同时利用了实体嵌入和高阶毗邻信息,但只有用户嵌入默示在流传过程中得到更新。
(2)东西默示的细化上面介绍了通过在图中向外聚合实体来优化用户嵌入默示。另一种方式是通过聚合项目Vj的多跳邻居N[k-u](k=1,2,…,H)在IKG中向内的嵌入默示来进修候选东西Vj的高阶默示。在向内流传过程中,采用图注意力机制,其中不同邻居的权重是由用户和瓜葛来确定的。主要是考虑到用户对不同的瓜葛是有不同的偏好的,从而可以确定KG的信息流。
每一轮流传过程默示为如下两步:
(a)通过式(8)聚合实体ei的近邻:(b)利用h—1阶邻居嵌入和自嵌入更新实体的h阶默示,如式(9)所示:
其中e[0-i]代表实体的初始默示,e[h-i]代表实体的h阶默示,它是实体初始默示和来自h跳邻居的默示的混合。聚合函数将N个邻居映射到向量∈Rd,更新函数g(∙)是一个非线性函数:Rd ⨉ Rd → Rd。通过迭代地重复这个过程H次,候选东西的默示则包含了来自H跳邻居的信息。综上,通过IKG中的向内流传来细化东西的嵌入默示。然而,类似于在 KG 中向外聚合的用户细化,只有一种类型的实体被细化。(3)用户和东西默示的细化在UIKG中的流传过程中,用户、东西及其关联实体都毗邻在一个图中,用户-东西对之间的交互作为一种瓜葛。用户嵌入和东西嵌入可以在流传过程中利用其对应的邻居举行细化,如式 (8) 和 (9) 所示。
与IKG中的流传类似,UIKG中边的权重也是由用户确定的。因此,这些模型可以通过检查毗邻目标用户和候选东西的显著门路来为引荐结果提供解释。由于用户被合并为一种类型的节点,因此解释更加直观,因为每个交互东西的贡献都是可用的。通过将用户纳入KG,可以更大程度地探索高阶毗邻模式。缺点是图中的瓜葛越多,会带来不相关的实体,可能会误导用户在聚合过程中的偏好。综上,鉴于流传的要领通常计算成本高。随着图变大,模型变得难以收敛。为了提高效率,可以利用更快的图卷积运算,并且通常在每一层中应用邻域采样。但是,随机抽样不可避免地会导致信息丢失,无法充分挖掘图中的学问。
04鉴于KG的引荐要领总结
通过上述鉴于嵌入要领、鉴于毗邻要领和鉴于流传要领的介绍,可知鉴于嵌入的要领是最灵活的要领。一方面,利用KGE模块对KG举行编码相对容易,并且进修到的嵌入可以自然地融入到用户默示或项目默示中。而在鉴于毗邻的要领中,在图中定义元门路或元图可能很繁琐。对于鉴于流传的要领,需要仔细设计聚合和更新部分。另一方面,鉴于嵌入的要领适用于大多数应用场景,因为外部学问通常在不同的任务中可用。相反,在鉴于元结构的要领中,元门路对于不同的应用场景通常是多种多样的,并且不能泛化到新的数据集。此外,对于特定场景,如新闻引荐,很难定义元门路并应用鉴于元结构的要领。同时,鉴于门路嵌入的要领和鉴于流传的要领都不适用于具有大规模数据集的引荐场景,因为在枚举门路和邻居时计算复杂度可能会变得很大。此外,门路的质量和数量对于鉴于毗邻的要领至关重要,因此,稀疏数据集可能无法提供足够的门路来挖掘此类要领的瓜葛和模型兴趣。然而,鉴于嵌入的要领和鉴于毗邻的要领都未能充分探索KG中的信息。近年来,随着GNN技术的发展,鉴于流传的要领已成为一种新的研究趋势。此外,鉴于毗邻的要领和鉴于流传的要领都可以用KG中的门路来解释,而鉴于嵌入的要领解释起来不太直观。
鉴于KG引荐的可解释性
KG中包含有大量的辅助信息可以用于引荐结果的解释,主要有以下几种要领:
01瓜葛嵌入的注意机制
这种要领主要应用于鉴于嵌入的要领。注意力机制应用于KG中实体之间瓜葛的嵌入。从不同瓜葛的注意力权重,可以得到每类东西属性对目标用户的意义。因此,这种技术可以为引荐提供偏好级别的解释。
02定义元门路或者元图
所选东西与目标用户或交互东西之间的瓜葛可以分解为若干元门路或元图的组合。通过将元门路或元图转换为可理解的规则,零碎可以提供解释。
03门路嵌入的注意机制
对于门路嵌入要领,毗邻目标用户和候选东西的特定门路的权重可通过注意力机制获得。每条门路的权重可以代表每条门路对用户的相对重要性。因此,可以根据图中的显著门路来提供解释。
04UIKG中的强化进修
通过利用强化进修技术在UIKG中训练代理,可以挖掘毗邻用户东西对的实际门路。它可以直接显示KG中的推理过程,而不是为已经选择的引荐结果寻找事后解释。因此,推理过程对于目标用户来说是精确且值得信赖的。
05提取边缘权重
鉴于流传的要领需要在聚合过程中为每种类型的邻居分配用户特定的权重。边权重控制图中实体之间的信息流,可以反映KG中每种瓜葛的重要性。此外,KG中实体之间的边权重也可以从注意力权重或进修瓜葛矩阵中获得。因此,可以通过找到毗邻候选东西和目标用户的显著门路或多跳邻居中的交互东西来生成解释。
未来展望
通过前面的介绍可以知道,鉴于KG的引荐零碎在引荐精准度和引荐结果可解释性方面具有诸多优势。在学术界和工业界也已经提出了很好的模型以充分利用KG中的辅助信息举行个性化精准引荐。但是在一些方向上依然还有很多工作值得深入研究,主要体现在:
01 动态引荐
尽管具有GNN或GCN架构的鉴于KG的引荐零碎取得了良好的性能,但训练过程非常耗时。因此这样的模型可以被视为静态偏好引荐。然而,在某些场景下,例如在线购物、新闻引荐等,用户的兴趣会很快受到社交事件等的影响。在这种情况下,利用静态偏好建模的引荐可能不足以理解实时兴趣。为了捕捉动态偏好,利用动态图网络可能是一种解决方案。
02 跨域引荐
在跨领域引荐的也有一些研究进展,主要是交互数据在各个领域是不平衡的。例如,在亚马逊平台上,图书子集大于其他域。通过迁移进修技术,可以共享来自具有相对丰富数据的源域的交互数据,以便在目标域中举行更好的引荐。
03 学问增强语言默示
为了提高各种 NLP 任务的性能,有一种趋势是将外部学问集成到语言默示模型中,使学问默示和文本默示可以相互提炼。将学问增强文本默示策略应用于鉴于文本的引荐任务中,可以更好地举行默示进修,以提供更准确的引荐。 参考文献[1] Bollacker K, Evans C, Paritosh P, et al. Freebase: a collaboratively created graph database for structuring human knowledge[C]//Proceedings of the 2008 ACM SIGMOD international conference on Management of data. 2008: 1247-1250.
[2] Lehmann J, Isele R, Jakob M, et al. Dbpedia–a large-scale, multilingual knowledge base extracted from wikipedia[J]. Semantic web, 2015, 6(2): 167-195.[3] Suchanek F M, Kasneci G, Weikum G. Yago: a core of semantic knowledge[C]//Proceedings of the 16th international conference on World Wide Web. 2007: 697-706.
[4] Bordes A, Usunier N, Garcia-Duran A, et al. Translating embeddings for modeling multi-relational data[J]. Advances in neural information processing systems, 2013, 26.
[5] Wang Z, Zhang J, Feng J, et al. Knowledge graph embedding by translating on hyperplanes[C]//Proceedings of the AAAI conference on artificial intelligence. 2014, 28(1).
[6] Lin Y, Liu Z, Sun M, et al. Learning entity and relation embeddings for knowledge graph completion[C]//Twenty-ninth AAAI conference on artificial intelligence. 2015.
[7] Ji G, He S, Xu L, et al. Knowledge graph embedding via dynamic mapping matrix[C]//Proceedings of the 53rd annual meeting of the association for computational linguistics and the 7th international joint conference on natural language processing (volume 1: Long papers). 2015: 687-696.
[8] Yang B, Yih W, He X, et al. Embedding entities and relations for learning and inference in knowledge bases[J]. arXiv preprint arXiv:1412.6575, 2014.
[9] Zou X. A survey on application of knowledge graph[C]//Journal of Physics: Conference Series. IOP Publishing, 2020, 1487(1): 012016.
[10] Q. Guo et al., “A Survey on Knowledge Graph-Based Recommender Systems,” in IEEE Transactions on Knowledge and Data Engineering, vol. 34, no. 8, pp. 3549-3568, 1 Aug. 2022, doi: 10.1109/TKDE.2020.3028705.
[11] Chicaiza J, Valdiviezo-Diaz P. A comprehensive survey of knowledge graph-based recommender systems: Technologies, development, and contributions[J]. Information, 2021, 12(6): 232.
[12] Choudhary S, Luthra T, Mittal A, et al. A survey of knowledge graph embedding and their applications[J]. arXiv preprint arXiv:2107.07842, 2021.
[13] Gao Y, Li Y F, Lin Y, et al. Deep learning on knowledge graph for recommender system: A survey[J]. arXiv preprint arXiv:2004.00387, 2020.
[14] Wang H, Zhang F, Xie X, et al. DKN: Deep knowledge-aware network for news recommendation[C]//Proceedings of the 2018 world wide web conference. 2018: 1835-1844.
[15] Zhang F, Yuan N J, Lian D, et al. Collaborative knowledge base embedding for recommender systems[C]//Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining. 2016: 353-362.
[16] Wang H, Zhang F, Zhao M, et al. Multi-task feature learning for knowledge graph enhanced recommendation[C]//The world wide web conference. 2019: 2000-2010.
作者简介
于敬,达观数据联合创始人,搜索引荐图谱产品团队的总负责人。同济大学计算机硕士,上海市青年科技启明星、上海市五一劳动奖章、上海市职工优秀创新成果奖、ACM CIKM算法竞赛国际冠军等奖项荣誉获得者。国际计算机学会(ACM)会员、中国计算机学会(CCF)高级会员、上海计算机学会(SCS)会员。曾先后在盛大创新院、盛大文学和腾讯文学从事技术研发工作,在智能引荐、搜索引擎、机器进修、大数据技术等领域有丰富的研究和工程经验,拥有十余项授权专利。