深度推荐系统论文模板

3个回答默认排序

默认排序

按时间排序

特力小屋

已采纳

论文：地址：论文题目：《xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems》为什么要介绍这篇论文呢，因为面试的时候面试官提到了这篇论文还要我推导公式，但是我自己忘了，太尬了，所以决定来复习下了。。。在前面的文章里面，我们介绍过DeepFM，在这篇论文中，FM将不同特征进行了自动交叉，如果不用FM的话，就需要工作人员自己进行手工特征交叉任务。对于预测性的系统来说，特征工程起到了至关重要的作用。特征工程中，挖掘交叉特征是至关重要的。交叉特征指的是两个或多个原始特征之间的交叉组合。在广告系统中，CTR是一个重要的评价指标，而在ctr预估任务中，各种特征都是至关重要的，有时候多加一个特征都可以让整个广告的ctr提高一点。但是在特征有限的系统中，该如何去挖掘那些潜在交叉特征呢？挖掘交叉特征主要依靠人工提取，这种做法主要有以下三种缺点： 1）重要的特征都是与应用场景息息相关的，针对每一种应用场景，算法工程师们都需要首先花费大量时间和精力深入了解数据的规律之后才能设计、提取出高效的高阶交叉特征，因此人力成本高昂； 2）原始数据中往往包含大量稀疏的特征，例如用户和物品的ID，交叉特征的维度空间是原始特征维度的乘积，因此很容易带来维度灾难的问题； 3）人工提取的交叉特征无法泛化到未曾在训练样本中出现过的模式中。基于以上的分析，我们就必须要设计一种能自动进行特征交叉任务的网络来替代手工制作的交叉特征，让模型的泛化能力更强。在deepfm，dcn中都有自动特征交叉的模块，值得一提的是，在这些模型中，特种的交叉是发生在bit级别的，也就是bit wise级别的特征交叉。什么是bit wise级别的特征交叉呢？举个例子，比如特征1 = (a,b,c)，特征2 = (d,e,f) 那么他们之间的bit wise的特征交叉就是f（w1*a*d, w2*b*e, w3*c*f）比如在DCN中：可以看到在Cross Network中，特征向量的交叉是bit wise的交叉方式，就是每个level的x都和x0进行bit wise级别的交叉。另一种特征交叉的方式有vector wise的交叉方式，这种交叉方式的表述为f(w(a*d, b*e,c*f)),可以看到这两个特征是先进行内积操作后才和权值矩阵进行运算的，所以是vector wise的交叉方式。论文中还提到了两个定义： explicitly VS implicitly 显式的特征交互和隐式的特征交互。以两个特征为例xi和xj，在经过一系列变换后，我们可以表示成 wij * (xi * xj)的形式，就可以认为是显式特征交互，否则的话，是隐式的特征交互。老规矩，先上模型：先看图c，xdeepfm是通过一个CIN将得到的向量concat后送到DNN中做ctr预估，这篇论文的关键就是整个CIN了，CIN全称是Compressed Interaction Network，下面来详细介绍下CIN是怎么做的。为了实现自动学习显式的高阶特征交互，同时使得交互发生在向量级上，文中首先提出了一种新的名为压缩交互网络（Compressed Interaction Network，简称CIN）的神经模型。在CIN中，隐向量是一个单元对象，因此我们将输入的原特征和神经网络中的隐层都分别组织成一个矩阵，记为X0和 Xk。其中，每个Xk都是从上一个的Xk-1推导而来的： ps：面试的时候这个公式没推导清楚，还是好好讲一下这个公式的计算过程吧。。 CIN的计算分为两个步骤，第一个是利用和来计算我们看这个图：我们要弄明白的计算过程，就要先知道几个概念。 inner product：(a,b,c) . (1,2,3) = （1*a,2*b,3*c） outer product: (a,b,c) 。(1,2,3) =[ [ 1a,2a,3a] , [1b,2b,3b], [1c,2c,3c] ] 弄清楚这两个概念后就可以来看看这个的计算过程了。首先，我们明确计算方向，我们是沿着D这个方向来计算外积的，所以计算出来的z的深度是D，这个是没有问题的。那么在沿着D上面的截面的计算方式就是我们上面说的outer product的方式来计算了。注意，计算D上每一个维度的切面的时候都是每个维度上单独计算的，举个例子： = [a,b,c], [1,2,3], [d,e,f] = [x,y,z], [4,5,6] 那么z的计算就为（先忽略w，后面再介绍w的使用）我们沿着D这个维度，需要计算三个切面。第一个切面：需要计算(a,1,d) 和（x,4）的外积：计算的结果为:[[a*x,1*x,d*x] ,[a*4,1*4,d*4]] ,shape = 2*3 第二个切面：需要计算(b,2,e)和(y,5)的外积：第三个切面同理，就不列出结果了。三个切面计算玩，我们就得到了shape为3*2*3的。这个计算过程还可以用一张图形象的表示出来：这里的计算跟上面是一样的，也可以计算每个d维向量的内积然后拼接成柱状体。对于每个切面，我们对这个切面进行加权求和得到一个值，权值矩阵W也成为卷积核的shape跟切面的shape大小一样，我们总共有D个切面，所以就有D个值，这样，我们就将一个三维向量转化成了一维向量：在上面这张图中，我们可以清楚的知道，如果有个卷积核w，我们就可以得到个向量，也就是得到了下一个X: ，这个X的维度为 *D。 CIN的宏观框架可以总结为下图：我们总共需要进行k个CIN过程的计算，得到k个一维向量。可以看出，它的特点是，最终学习出的特征交互的阶数是由网络的层数决定的，每一层隐层都通过一个池化操作连接到输出层，从而保证了输出单元可以见到不同阶数的特征交互模式。同时不难看出，CIN的结构与循环神经网络RNN是很类似的，即每一层的状态是由前一层隐层的值与一个额外的输入数据计算所得。不同的是，CIN中不同层的参数是不一样的，而在RNN中是相同的；RNN中每次额外的输入数据是不一样的，而CIN中额外的输入数据是固定的，始终是X0。 CIN计算交叉特征的方式是vector wise的， x1，h的计算方式为： x2，h的计算方式为： xk，h的计算方式：所以是vector-wise的计算方式。这个结构其实跟DeepFM是一样的，左边是交叉特征的计算过程，右边是DNN部分。CTR计算方式为：损失函数为：我们今天介绍的xDeepFM模型，这个模型跟我们之前学习的DeepFM还有DCN是一个类型的网络，都是交叉特征+DNN组成，在xDeepFM中主要是CIN的推导是重点，只要掌握了CIN的计算过程就知道了这篇论文的核心：vector-wise方式的特征交叉。

229 评论 1小时前发布

半调子810

此前整理过KDD21上工业界文章，本文主要整理和分类了Recsys 2021的Research Papers和Reproducibility papers。按照推荐系统的研究方向和使用的推荐技术来分类，方便大家快速检索自己感兴趣的文章。个人认为Recsys这个会议重点不在于”技术味多浓”或者”技术多先进”，而在于经常会涌现很多新的观点以及有意思的研究点，涵盖推荐系统的各个方面，例如，Recsys 2021涵盖的一些很有意思的研究点包括：

还有些研究点也是值得一读的，比如推荐系统中的冷启动，偏差与纠偏，序列推荐，可解释性，隐私保护等，这些研究很有意思和启发性，有助于开拓大家的研究思路**。

下面主要根据自己读题目或者摘要时的一些判断做的归类，按照推荐系统研究方向分类、推荐技术分类以及专门实验性质的可复现型文章分类，可能存在漏归和错归的情况，请大家多多指正。

信息茧房/回音室(echo chamber)/过滤气泡(filter bubble) ，这3个概念类似，在国内外有不同的说法。大致是指使用社交媒体以及带有算法推荐功能的资讯类APP，可能会导致我们只看得到自己感兴趣的、认同的内容，进而让大家都活在自己的小世界里，彼此之间难以认同和沟通。关于这部分的概念可参见知乎文章：。有四篇文章探讨了这样的问题。

此次大会在探索与利用上也有很多探讨，例如多臂老虎机、谷歌的新工作，即：用户侧的探索等。

涉及排序学习的纠偏、用户的偏差探索等。

Debiased Explainable Pairwise Ranking from Implicit Feedback

Khalil Damak, Sami Khenissi, and Olfa Nasraoui

Mitigating Confounding Bias in Recommendation via Information Bottleneck

Dugang Liu, Pengxiang Cheng, Hong Zhu, Zhenhua Dong, Xiuqiang He, Weike Pan, and Zhong Ming

User Bias in Beyond-Accuracy Measurement of Recommendation Algorithms

Ningxia Wang, and Li Chen

利用图学习、表征学习等做冷启动。

Cold Start Similar Artists Ranking with Gravity-Inspired Graph Autoencoders

Guillaume Salha-Galvan, Romain Hennequin, Benjamin Chapus, Viet-Anh Tran, and Michalis Vazirgiannis

Shared Neural Item Representations for Completely Cold Start Problem

Ramin Raziperchikolaei, Guannan Liang, and Young-joo Chung

涉及离线或在线评估方法，准确性和多样性等统一指标的设计等。

Evaluating Off-Policy Evaluation: Sensitivity and Robustness

Yuta Saito, Takuma Udagawa, Haruka Kiyohara, Kazuki Mogi, Yusuke Narita, and Kei Tateno

Fast Multi-Step Critiquing for VAE-based Recommender Systems

Diego Antognini and Boi Faltings

Online Evaluation Methods for the Causal Effect of Recommendations

Masahiro Sato

Towards Unified Metrics for Accuracy and Diversity for Recommender Systems

Javier Parapar and Filip Radlinski

涉及session维度的短序列推荐；使用NLP中常用的Transformers做序列推荐的鸿沟探讨和解决，这个工作本人还挺感兴趣的，后续会精读下！

结合联邦学习做隐私保护等。

Black-Box Attacks on Sequential Recommenders via Data-Free Model Extraction

Zhenrui Yue, Zhankui He, Huimin Zeng, and Julian McAuley

Large-scale Interactive Conversational Recommendation System

Ali Montazeralghaem, James Allan, and Philip S. Thomas

EX3: Explainable Attribute-aware Item-set Recommendations

Yikun Xian, Tong Zhao, Jin Li, Jim Chan, Andrey Kan, Jun Ma, Xin Luna Dong, Christos Faloutsos, George Karypis, S. Muthukrishnan, and Yongfeng Zhang

Towards Source-Aligned Variational Models for Cross-Domain Recommendation

Aghiles Salah, Thanh Binh Tran, and Hady Lauw

利用视觉信息做推荐。

Ambareesh Revanur, Vijay Kumar, and Deepthi Sharma

Huiyuan Chen, Yusan Lin, Fei Wang, and Hao Yang

探讨了美食场景下，多用户意图的推荐系统的交互设计。

“Serving Each User”: Supporting Different Eating Goals Through a Multi-List Recommender Interface

Alain Starke, Edis Asotic, and Christoph Trattner

涉及传统协同过滤、度量学习的迭代；新兴的图学习技术、联邦学习技术、强化学习技术等的探索。

Matrix Factorization for Collaborative Filtering Is Just Solving an Adjoint Latent Dirichlet Allocation Model After All

Florian Wilhelm

Negative Interactions for Improved Collaborative-Filtering: Don’t go Deeper, go Higher Harald Steck and Dawen Liang

ProtoCF: Prototypical Collaborative Filtering for Few-shot Item Recommendation

Aravind Sankar, Junting Wang, Adit Krishnan, and Hari Sundaram

知识图谱的应用以及图嵌入技术和上下文感知的表征技术的融合，这两个工作个人都挺感兴趣。

Antonio Ferrara, Vito Walter Anelli, Tommaso Di Noia, and Alberto Carlo Maria Mancino

Marco Polignano, Cataldo Musto, Marco de Gemmis, Pasquale Lops, and Giovanni Semeraro

涉及训练、优化、检索、实时流等。

Jeremie Rappaz, Julian McAuley, and Karl Aberer

Reproducibility papers可复现实验性质的文章，共3篇。分别探索了：序列推荐中的采样评估策略；对话推荐系统中生成式和检索式的方法对比；神经网络推荐系统和矩阵分解推荐系统的对比。

通过论文的整理和分类，笔者也发现了一些自己感兴趣的研究点，比如：推荐系统的回音室效应探讨文章；Transformers在序列推荐和NLP序列表征中的鸿沟和解决文章：Transformers4Rec；图嵌入表征和上下文感知表征的融合文章；NCF和MF的实验对比文章；

174 评论 9小时前发布

你好，朋友们

论文：论文题目：《Neural Graph Collaborative Filtering》论文地址：本论文是关于图结构的协同过滤算法，在原始的矩阵分解和基于深度学习的方法中，通常是通过映射描述用户（或物品）的现有特征（例如ID和属性）来获得用户（或物品）的嵌入。从而利用user和item的embedding进行协同召回。但是作者认为这种方法的固有缺点是：在user与item的interaction数据中潜伏的协作信号（collaborative signal）未在嵌入过程中进行编码。这样，所得的嵌入可能不足以捕获协同过滤效果。让我们一起来看一下本论文是怎么利用数据中潜伏的协作信号的吧。推荐算法被广泛的运用在各个领域中，在电商领域，社交媒体，广告等领域都发挥着至关重要的作用。推荐系统的核心内容就是根据用户以前的购买和点击行为来评估用户对一个物品的喜爱程度，从而针对每个用户进行个性化推荐。协同过滤算法认为历史行为相似的用户之间的兴趣是相同的，所以给用户推荐的是同类型用户的爱好，也就是UserCF，而ItemCF给用户推荐的是跟历史行为相近的物品。传统的协同过滤方法要么是基于矩阵分解，要么是基于深度学习的，这两种方法都忽略了一个非常关键的信息---user和item交互的协作信号，该信号隐藏在user和item的交互过程中。原始的协同过滤方法忽略了这种信息，所以在进行user 和 item representation时就不足以较好的进行embedding。本论文通过将用户项交互（更具体地说是二分图结构）集成到embedding过程中，开发了一个新的推荐框架神经图协同过滤（NGCF），该框架通过在其上传播embedding来利用user-item图结构。这种方法在用户项目图中进行高阶连通性的表达建模，从而以显式方式将协作信号有效地注入到embedding过程中。在介绍模型之前先来讲解一下什么是useritem interaction以及什么是高阶的useritem interaction。我们先看左边的图，这个图就是useritem interaction，u1是我们待推荐的用户，用双圆圈表示，他交互过的物品有i1，i2，i3。在看右边这个树形结构的图，这个图是u1的高阶interaction图，注意只有l > 1的才是u1的高阶连接。观察到，这么一条路径，u1 ← i2 ← u2，指示u1和u2之间的行为相似性，因为两个用户都已与i2进行了交互。而另一条更长的路径，u1←i2←u2←i4暗示u1可能会点击i4，因为他的相似用户u2之前已经购买过i4。另一方面，用户u1在l = 3这一层会更倾向于i4而不是i5，理由是i4到u1有两条路径而i5只有一条。当然这种树结构是不可能通过构建真正的树节点来表示的，因为树模型比较复杂，而且结构很大，没法对每个用户构建一个树，这样工作量太大了。那么怎么设计模型结构可以达到跟这个high-order connectivity的效果呢，这个就要运用到神经网络了。通过设计一个embedding propagation layer来表示这种embedding 在每个层之间的传递。还是拿上面那张图举例子，堆叠两层可捕获u1←i2←u2的行为相似性，堆叠三层可捕获u1←i2←u2←i4的潜在推荐以及信息流的强度（由层之间的可训练权重来评估），并确定i4和i5的推荐优先级。这个跟传统的embedding是一样的，都是对原始的userID和itemID做embedding，跟传统embedding不同的地方是，在我们的NGCF框架中，我们通过在用户-项目交互图上传播embedding来优化embedding。由于embedding优化步骤将协作信号显式注入到embedding中，因此可以为推荐提供更有效的embedding。这一层是本文的核心内容，下面我们来进行详细的解读。从直观上来看，用户交互过的item会给用户的偏好带来最直接的依据。类似地，交互过某个item的用户可以视为该item的特征，并可以用来衡量两个item的协同相似性。我们以此为基础在连接的用户和项目之间执行embedding propogation，并通过两个主要操作来制定流程：消息构建和消息聚合。 Message Construction(消息构建) 对于连接的user-item对(u,i)，我们定义从i到u的消息为：其中ei是i的embedding，eu是u的embedding，pui是用于控制每次传播的衰减因子，函数f是消息构建函数，f的定义为：其中W1和W2用来提取有用的embedding信息，可以看到W2控制的i和u直接的交互性，这使得消息取决于ei和eu之间的亲和力，比如，传递更多来自相似项的消息。另一个重要的地方是Nu和Ni，pui = 1/ 。Nu和Ni表示用户u和item i的第一跳邻居。从表示学习的角度来看，pui反映了历史item对用户偏好的贡献程度。从消息传递的角度来看，考虑到正在传播的消息应随路径长度衰减，因此pui可以解释为折扣因子。 Message Aggregation 聚合方法如下：其中表示在第一嵌入传播层之后获得的用户u的表示。激活函数采用的是leakyrelu，这个函数适合对pos和neg信号进行编码。另一个重要的信息是 ,它的定义如下：这个信息的主要作用是保留原始的特征信息。至此，我们得到了，同样的方法，我们也能获得，这个都是first order connectivoty的信息。根据前面的计算方式，我们如果将多个Embedding Propagation Layers进行堆叠，我们就可以得到high order connectivity信息了：计算方式如下：当我看到这里的时候，我的脑子里产生了一个大大的疑惑，我们在计算第l层的eu和ei时都需要第l-1层的信息，那么我们怎么知道ei和eu在第l层是否存在呢？也就是说出现u侧的总层数l大于i侧总层数的时候，我们如何根据第l-1层的ei来计算第l层的e呢？经过思考，我感觉应该是这样的，训练样本应该是一条path，也就是这个例子是u1 ← i2 ← u2 ← i4这条path，所以可以保证u1跟i4的层数l是一样的，所以不存在上面那个层数不匹配的问题。 ps:看到后面的实验结果才知道L是固定的所以每一层都不会缺失。还有一个就是，不同层之间的W是不一样的，每一层都有着自己的参数，这个看公式就知道，理由就是我们在提取不同层信息的时候需要不同的W进行信息提取。另一个疑惑是pui到底是不是每一个l层都一样？这里看公式好像就是指的是第一跳的Nu和Ni进行就计算的结果。这部分内容是为了在进行batch训练的时候进行矩阵运算所推导的数学过程，其实跟之前我们讲的那个过程在数学上的计算是完全一样的，你想象一下，如果不用矩阵进行运算，在训练过程中要如何进行这么复杂的交互运算。当进行了l层的embedding propagation后，我们就拥有了l个eu和l个ei，我们将他们进行concate操作：这样，我们不仅可以通过嵌入传播层丰富初始嵌入，还可以通过调整L来控制传播范围。最后，我们进行内积计算，以评估用户对目标商品的偏好：采用的是pair-wise方式中的bpr loss：

182 评论 12小时前发布

深度推荐系统论文模板

3个回答 默认排序 默认排序 按时间排序

相关问答

学术论文

向你推荐

热门问题

3个回答默认排序

默认排序

按时间排序