帅哥啦阿妹
论文地址: 看完MMoE后接着看这一篇,进一步加深对MMoE的理解 2020.2.18 9次。从19年9月出来后,不到半年能引用9次,算是相当不错了 同样没往arXiv上挂,中了19年9月的RecSys。同样是G家出品,来自YouTube那边,10个作者中英混合。一作 赵哲 PHD毕业于密歇根大学,和MMoE的一作马家祺一个学校的,本文是赵哲最近在google任research scientist完成的。 本文应用于YouTube的多目标排序系统。主要面对两个问题,第一个就是存在多个相互竞争的排序目标,第二个就是用户反馈中隐含了选择偏见。为了解决这些问题,本文用MMoE优化多目标排序,用W&D减轻选择偏见。 现实世界的大规模视频推荐系统存在的挑战,包括: 1 不同的有时甚至相互冲突的优化目标。例如除了观看之外,还希望推荐用户评价高并与朋友分享的视频。 2 系统中的隐式偏见。例如用户点击并播放一个视频可能是因为其排序靠前而不是用户真的最喜欢它。因此使用从当前系统生成的数据训练模型将产生偏差,从而导致反馈循环效应。 为了解决这些挑战,本文提出的模型如图1所示。它继承自Wide & Deep,采用了MMoE进行多任务学习。此外,还引入了一个浅层塔来消除选择偏差。 具体来说,首先将多个目标分为两组:1)互动目标,例如点击,与推荐视频的参与程度 2)满意度目标,例如点赞,评分。使用MMoE来学习多目标,混合专家架构将输入层模块化为专家,每一个聚焦于输入的不同方面。这提升了从多种模态生成的复杂特征空间学习到的表示。接着利用多门网络,每个目标选择专家来决定是否与其他专家共享。 为了消除偏差,提出了如图1左侧所示的浅层塔结构,它以与选择偏差相关的特征作为输入,例如排序顺序。输出是一个标量,作为主模型最终预测的一个偏置项。 本文主要贡献如下: 工业推荐系统的主要挑战是可扩展性。主要依赖隐式反馈。 举个例子,一个用故可能点击了一个item,最终却不喜欢它。用户仅仅对点击过或有交互过的item才能进行评分。 用户和当前系统会有选择偏差,例如,一个用户点击过一个item只是因为它被当前系统选出来了,即使它不是整个库中最有用的一个。因此,基于当前系统生成的数据来训练新模型会导致偏向当前系统,引起反馈循环效应。 《Evaluating the accuracy of implicit feedback from clicks and query reformulations in web search》这篇07年的文章最先分析了隐式反馈中的位置偏差和展现偏差。 一个最常用的实践是在训练时将位置作为模型的输入特征,在预测时将其移除。 除了之前提到的挑战,现实世界的大规模推荐系统还有如下因素需考虑: 采用多种候选生成算法,每一种作为查询视频和候选视频之间相似度的一方面。 排序系统学习两种类型的用户反馈:1)交互行为,例如点击和观看。2)满意度行为,例如点赞和退出。将排序问题建模为多目标分类问题和回归问题的组合。本文采用point-wise的方法,主要是出于性能的考虑,pair-wise和list-wise限制了系统的可扩展性。 为了描述方便,本文将所有目标分为两类:互动目标和满意度满标。互动目标包括点击和观看,将点击定义为二分类任务,将观看时长定义为回归任务。类似的,对于满意度目标,将是否喜欢视频定义为二分类任务,将打分定义为回归任务。分类任务用交叉熵损失,回归任务用平方损失。 对于每个候选,使用加权乘法形式的组合函数输出组合分数,这些权重是在考虑最佳用户互动和用户满意度之上手动调节的。 MMoE是一种软参数共享模型,其核心理念是用MoE层替代共享ReLu层,同时为每个任务增加一个单独的门网络。 本文提出增加的专家位于共享隐层之上,如图2b所示,这是因为MoE层能从输入中学习到模块化信息。当直接在输入层或较低的隐层使用时,可以更好地模拟多模态特征空间。然而,直接应用MoE层在输入层将显著增加模型的训练和预测成本,这通常是因为输入层的维度远高于隐层的维度。 公式这里基本上就照搬MMoE原作的公式了,值得注意的是,与Hilton等人在17年提出的稀疏门控网络(在该网络中,专家的数量可能很多,并且每个训练样本仅利用顶级专家)相反,本文使用的专家相对较少。这是因为为了鼓励通过多个门控网络来共享专家并提升训练效率。 在YouTube的排序系统中,查询是当前观看的视频,候选是相关的视频,用户通常会倾向点击并播放展示位于前列的视频,而忽略了他们本身真正的偏好,无论是与观看视频的相关性还是用户偏好来说都是这样。建模并消除选择偏差可以提升模型质量,并打破选择偏差带来的反馈循环问题。 本文模型采用类似Wide & Deep架构,将模型分为两个部分,主塔的用户效用部分和浅层塔的偏差部分。具体来说,用诸如位置特征等偏差特征训练浅层网络,之后将其与主模型相加作为最终的logit,如图3所示。 训练时,所有曝光位置的都使用,用10%的丢弃率丢弃改特征,以防止模型过度依赖位置特征。在serving时,位置特征被视为缺失。将位置特征与设备特征交叉的原因是,在不同类型的设备上观察到不同的位置偏差。 对于本文模型和基线模型,训练都是一直持续的。离线实验监控的指标是AUC和平方损失。在线实验做A/B测试,同时考虑serving时的性能开销。 如图2a所示,出于性能考虑,本文的MMoE层共享一个底层隐藏层,而不是直接共享输入层。 如表1所示。 如图5所示,绘制了每个任务每个专家在softmax门网络上的累积概率。可以看到一些互动任务同其他共享任务共享多个专家。而满意度任务倾向于共享一个小子集上的专家。 另外,本文也验证了直接在输入层上使用MMoE,发现在线实验结果与图2b相比并没有显著差异。 这一节介绍了MMoE的一个坑,hinton等人在17年的《Outrageously large neural networks: The sparsely-gated mixture-of-experts layer》指出softmax门网络会有不平衡的专家分布问题,即门网络闭合时专家上的多数值都为0。本文发现有20%的几率会出现这种极化现象。为解决该问题,在门网络上使用dropout,通过以10%的几率将专家的利用率设置为0并重新归一化softmax输出,本文消除了们门网络的极化问题。 如图6所示,位置越前CTR越高。在更前面更高的CTR综合了item是更相关的以及位置偏差的影响。 方法A:直接使用位置特征作为输入 方法B:对抗学习 本文感觉行文有点啰嗦,许多相同的话在不少地方重复。读这篇前一定要先读MMoE的原作,因为这篇基本上就是MMoE的应用,加了个偏置网络用来消除偏置,如果只有MMoE,这篇文章铁定发不出去。另外本文有不少小trick可以借鉴,比如MMoE的专家不能从太底层开始,比如训练时丢弃10%的偏差特征,比如用设备与位置做特征交叉等等。另外,从实验上来看,指标的相对提升也没有特别明显。 YouTube排序系统中的多目标问题和训练数据偏置问题 应用MMoE,和偏置网络分别解决,最后融合在一起 只在YouTube自己的数据上做了实验,给出的提升是相对提升,感觉不是很大 最后多目标分数的融合还是根据经验手调的 拿来主义,工程应用论文 MMoE论文笔记
maggie13050
Neural Collaborative Filtering vs. Matrix Factorization Revisited
这是一篇引起轰动的论文,motivation就是NCF[2]在推荐系统的引用量太高了(2427+),作者通过实验与分析,说明 dot product在推荐系统的计算相似度任务里效果比MLP更好 ,大家别被带偏了。
Dot Product就是矩阵分解,
; 与 可以理解成user与item的embedding。
MLP是用神经网络计算,先随机初始化user与item的embedding,然后concat起来经过DNN学习得到偏好得分,
GMF是[2]提出的 与 的element-wise的加权Dot product,是矩阵分解的泛化版本。
NeuMF把embedding的一部分用来做MLP,一部分用来做GMF。
作者经过试验证明,经过调参的Dot product效果远好于MLP以及NCF提出的NeuMF(MLP+GMF)。
作者分析了,GMF引入了权重参数 ,如果L2正则化不加上 ,实际上学习没有任何效果;引入更多的参数,实际上需要更多数据来学习。
作者构造了一些Dot Prodcut的数据,用MLP去学习。
从实验结果中可以看出,MLP的学习误差非常大,RMSE大于0.02;说明如果问题的归纳偏置(induction bias,即问题的假设)是Dot Product的,MLP是不能很好地学习出来的。
作者举了几个例子,虽然MLP是万能模拟器,但是在很多领域是不能取代特定的归纳偏置的,比如CNN里的卷积、池化;RNN的参数共享;transformer结构等。在推荐系统里,可能归纳偏置就是Dot Product。 也可以看出,大部分情况下是从MLP往特定结构走,而不是往回走(再搞一个大新闻)。
思考: (1)看论文不可尽信,要有自己的思考,更要动手去实践。 (2)不要总想搞一个大新闻,要多思考问题的本质。
[1] Rendle, Steffen, et al. "Neural collaborative filtering vs. matrix factorization revisited." Fourteenth ACM Conference on Recommender Systems. 2020.
[2] He, X., Liao, L., Zhang, H., Nie, L., Hu, X., and Chua, T.-S. Neural collaborative filtering. In Proceedings of the 26th International Conference on World Wide Web (Republic and Canton of Geneva, Switzerland, 2017), WWW ’17, International World Wide Web Conferences Steering Commit- tee, pp. 173–182.
什么是sci论文?首先sci是一种科学引文索引,而sci论文就是被科学因为索引检索收录的文章,对于sci论文,相信国内的很多作者都不陌生,即使是从来没有发表过s
1、写好论文。 2、选择合适的期刊,根据论文的内容进行选择。如果不知道选什么可以看看参考的文献中是否有类似的,并且应该根据文章的水平选择学术水平相符的期刊。 3
在日常生活中,无论是评职称还是大学生毕业都离不开发表论文.在公开发行的学术期刊上发表论文,成为职称评选硬性条件之一,可以说发表论文,在职称评审中占据非常重要的作
1.写作一篇大概2000-2500字符的论文(一个版面的量,如果感觉太短,可以根据所需来写,不过版多,费用也就高了)论文要求论证有理有据,语句通畅,没有语病,和
论文地址: 看完MMoE后接着看这一篇,进一步加深对MMoE的理解 2020.2.18 9次。从19年9月出来后,不到半年能引用9次,算是相当不错了