关于主题模型的一个论文笔记

3个回答默认排序

默认排序

按时间排序

tonyxiaozb

已采纳

本文是滴滴发在KDD2020的paper。文中指出用户响应预测的困难在于模型需要考虑真实物理环境中的历史信息和实时事件信息。本文提出了使用动态构建的异构图来编码事件的属性和事件发生的周围环境。除此之外，文中提出了一种多层图神经网络模型来学习历史行为和周围环境对于当前事件的影响，生成有效的事件表示来改善相应模型的准确性。首先文中定义了几个术语：PreView, Request, Cancel_Order, Finish_Order PreView指的是用户确定起点和终点，页面上会显示出路线，服务类型，估计价格。Request指的是用户点击按钮，触发打车事件。Cancel_Order指的是司机到达前用户取消订单。Finish_Order指的是司机将用户送到目的地，用户付钱，完成整个交易流程。本文的目标是对PreView事件建模，估计用户点击Request按钮的概率。上图表示一个用户的打车流程。文中使用名词POI(Point Of Interest)来表示地图上所有可能的上车和下车点。如上图所示，不同的用户行为同时发生在各个不同的POIs. 用户是否会点击Request按钮会由很多因素来决定。一些因素是显式的，可以直接从数据源中获取，比如用户当前位置和上车点位置的距离，天气，时间等；一些因素是隐式的，比如用户对于等待的意愿，用户对于这笔花销的意愿，用户对于路线的满意程度等等，这些特征很难直接获取。一种解决方案是从历史数据和当前时间的观测中引入一些代替的特征，比如用户行为历史中和交易相关的行为，当前实时物理环境中发生的一些事件等等。比如用户在当前PreView之前可能已经完成了多个订单，我们可以使用这些历史信息来捕捉用户的潜在特征，比如用户对于服务类型的偏好，用户对于花销的意愿程度等等。具体的，用户更倾向于对那些和之前已经完成的PreView类似的PreView发起Request。同样的，我们也可以从用户没有完成的PreView中来抽取负特征。为了计算PreView之间的相似性，文中提出使用从历史数据中学习到的embedding。除此之外，我们希望embedding能够捕捉当时周围环境的供求情况。为了达到这一目的，文中提出利用周边地区同时发生的一些事件。比如周边地区有许多需求没有被满足，那么当前的供求关系是不平衡的。再比如周边地区有许多取消订单，那么路况可能是拥挤的，或者期望等待时间很长。由此可见，一些历史数据和当前正在发生的实时数据都能为预测模型提供信息。然而，历史数据和实时数据对于当前分析事件的相关程度是不同的，因此引入异构图来表示这些关系。在动态异构图中embed实时事件的挑战在于： 1)对于每个新发生的事件，需要对于这个时间动态构建一个图，包括收集相关乘客的历史事件，以及周边区域发生的事件。 2)图中的实体和关系是异构的。比如时间有PreView,Request等，事件之间的关系有相同的乘客，相同的起点等。 3)对于我们关注的事件，不同的实体和不同的关系的影响的重要性程度也是不同的。 4)对于大规模实时事件进行建模。文中并没有采用在训练阶段embed item的做法，而是提出了一种新的框架来实时生成事件的表示，使得能够捕捉用户行为和周围环境的动态变化。每个实体的embedding以一种基于GNN的inductive的方式生成。（实体包括事件，物品，用户行为等）整个方法主要包括以下几个步骤： 1)为每个事件构建一个动态异构图。 2)使用文中提出的异构图embedding算法来生成事件的embedding。 3)基于实体的embedding进行实时预测。文中提出了一个概念叫heterogeneous session(h-session)。比如在一次打车的行为过程中，在PreView事件之后，可能会有Request, Finish_Order, Cancel_Order等，这些事件就属于一个h-session，描述了用户一次完整的打车行为。构建完异构图后，文中提出了一种新的图学习算法REGNN(Real-time Event Graph Neural Network)来生成事件的embedding。对于每个需要预测的实时事件，动态创建一个异构图，图中包括了相关h-session中的事件和其他相关的实体。图中的边表示了节点之间各种复杂的关系，包括时间顺序上的关系，空间位置的关系，以及其他的逻辑关系。上图记录了文中用到的一些符号表示。定义图G=(VG,EG,OV,RE),节点映射函数VG->OV，边映射函数EG->RE，VG中的每个节点对应OV中的一种类型，EG中的每条边对应RE中的一种类型。当|OV|=1并且|RE|=1时，图为同构图；否则，图为异构图。问题定义，PreView Conversion Prediction. given PreView事件 PT = (p,o,d,T), T表示时间，o表示起点，d表示终点，p表示用户。目标是估计用户p触发事件Request的概率yT，通过embedding一系列历史的动态异构图[G_PT, G_PT-1,..., G_PT-N+1]，G_Pt表示事件Pt的动态异构图，t=T-N+1,...,T. G_P中包含了不同类型的事件和物品，embedding模型的目标是学习一个函数给出一个时间序列信息和(1)中获得的embedding，上层模型的目标是学习一个模型Gθ，其中θ是参数来预测yT。 T为timestamp，Et表示时间t事件的embedding，N表示时间序列的长度。首先介绍real-time event embedding框架。考虑对于PreView最相关的属性：乘客，时间戳，起点，终点。从乘客的角度，可以从其历史行为事件中获得信息。从起点和终点的角度，可以通过综合这两个地点的事件信息获得空间的表示。整个工作流图如上所示。 •given PreView事件PT=(p,o,d,T)，根据下面的流程生成异构图： 1)乘客视角：挑选乘客一周内在时间T之前最近的Np个PreView事件（包括Request, Finish_Order, Cancel_Order）。对于这些事件在图中创建相关的邻居节点，关于乘客p的这个子图记为HetGp,T。 2)起点和终点视角：在同时发生的PreView事件中，挑选在时间戳T之前x分钟内的和PT相同起点的PreView事件，包括它们相关的Request, FInish_Order, Cancel_Order事件。这些事件添加到图中作为起点子图HetGo,T.另一方面，以相同的方式构建终点子图HetGd,T. 3)为了整合历史PreViews的时空信息，用RNN学习历史事件序列的hidden state，以键值对的方式存储它们。因此，事件序列的下一个序列能够快速的预测和更新。 •根据这些事件和当前事件PT之间的关系，添加相关类型的边。比如属于同一个h-session这种关系，或者是各自属于的h-session之前有序列关系等。 •在构造的异构子图上，使用REGNN来生成PT的实时事件embedding。 •最后，生成的事件embedding作为下游预测任务的输入。上图展示了PreView模型的具体细节。最下面三层是三个GAT，分别对应不同的粒度(GAT within h-session, GAT across h-sessions within the same subgraph, GAT across subgraphs)，之后接GRU层，接MLP层，最后给出预测。 PT的动态异构图G_PT由三种子图组成分别表示乘客子图，起点子图和终点子图。+表示图的join操作，定义为G=G1+G2, G1=(V1,E1), G2=(V2,E2),那么G的节点为V1∪V2，G的边为E1∪E2. 三个子图的构建过程如下: •inside h-session.连接同一session中的事件来构建子图。 •across h-session.为了分析前面的h-session对于目标PreView的影响，添加前面h-session到目标PreView之间的边。然而，不同的h-session起到的影响效果是不同的，因此边的类型也是不同的， PT表示在时间T的PreView，使用最近的N个h-session来构建关于PT的图。对于三种level，使用了三种不同的embedding模型。 •GATs inside h-session. 上式中○+符号表示concatenate，OV表示一个h-session中不同类型的事件，K表示heads的总数（GAT中的head，即一条边上做几次attention）。h(1)h_s表示做一次GAT之后h-session的隐状态，h(0)h_s表示h-session的初始状态，用PreView事件的节点特征进行初始化。（P,R,F,C分别代表PreView,Request,finish,cancel） •GATs across h-session. 在不同的h-session之间执行attention操作。对于不同子图中的h-session，GAT如下 Np,No,Nd分别表示乘客子图，起点子图，终点子图中不同的时间戳的总数。需要注意的是t从0开始，即加上了self attention. GATp的操作如下，GATo和GATd类似。各符号的意义和前面类似。 •GATs across subgraphs. 最终综合三个子图，计算最后的embedding。具体式子如下， OG表示不同类型的异构子图。其余符号和前面的类似。利用RNN对用户过去的PreView之间的时序依赖建模。文中使用了GRU ET是在时间T进行global attention得到的最终embedding，也就是(7)中的hgPT. 最终的损失函数

87 评论 1小时前发布

好吃鬼玲

本文主要复述论文["Exploring Pre-trained Language Models for Event Extraction and Generation"] 的内容，以便自我回顾，也希望可以给大噶带来帮助~ 这篇文章研究事件抽取的角度是从有标签的训练数据描述的，以往的EE任务依赖于人工标注数据，而不充分的训练数据会影响模型的效果。文章采用了一个预训练语言模型来提取事件触发词，通过角色预测分离方法来处理角色抽取任务中的角色重叠问题，并利用Bert模型的Masked LM来自动生成标签数据。该模型在ACE05数据集上的表现，事件抽取任务上达到了的F1值，角色抽取任务上达到了的F1值。 ACE05数据集上10%的事件有角色重叠问题，例句 The explosion killed the bomber and three shoppers 中 killed 触发事件，元素 the bomber 既可以触发角色，又有角色。之前的工作中会将该元素第一次被预测到的角色类型判定为分类好的角色标签，而没有考虑该角色在多个角色类型中的概率。监督学习下的事件抽取依赖于大量人工标注的数据集，而ACE数据集当中给出的事件标签数量有限。为了解决这一问题，之前也有工作通过远程监督的方法来生成事件类型标签扩充训练集，但这一方法也是依赖于源数据集的数量与质量。论文提出了预训练语言模型，利用从语料库中获得的知识来进行事件生成。预训练语言模型包括事件抽取模型与角色抽取模型，角色重叠问题通过计算角色类型与事件类型之间的关系，来重置角色分类的概率值。事件类型标签也是通过这个预训练语言模型实践，将原训练集作为样本，通过参数替换和辅助token重置这两步生成新的事件类型。事件抽取部分是直接用Bert模型得到词向量表示，最后加个分类器完成触发词的提取。值得说明的是，这里每个token的输入由三部分组成： word embedding + segment + position ，整个模型基于句子级别，这里的 segments 设为0。其他设定则与Bert保持一致。对于第一阶段提取到的触发词，这里会提取与其相关的成分的所有可能角色。作者总结的元素提取有三个难点：1.元素对触发词的依赖性；2.元素大多由长名词短语构成；3.角色重叠。模型框架设定与前一阶段相似，也是需要注意的一点：特征表示输入的 segment 将触发词所在的span设为1。分类器则是设为所有角色标签的集合，即为对每个元素判断所有角色类型的概率，并在其分类器上设置一个二元组，用来判定该角色下的token的span，该跨度由 (start, end) 组成。通过对每种可能的角色标签进行计算，改善角色重叠问题。判定角色的span，也就是如何更准确得到每个token的 (start, end) 域值。首先，对于每一个token ，经softmax分别计算在角色下的起始点的概率与结束点的概率：论文中处理一个元素有多种角色时应该被分类的角色标签，依据了同一事件中每种角色出现的可能性会大不相同这一事实。因此文中给出了当前角色在一个事件中的重要性判定条件：RF-IEF（这一定义与词频的TF-IDF类似），。由这一指标可以得到角色在事件类型中的重要程度：生成新的标签是将原有数据集作为样本，通过模型学习到新的之前没有标签的词并加入到训练集中，以起到扩充语料的作用。这里是采用了Bert的Mask预训练方法，通过两个步骤：1.句中的元素替换为有相同角色标签的其他元素；2.利用Bert的fine-tune替换触发词的辅助token。这里需要注意的几点： 1.辅助token是原有样本数据集里未被识别成触发词或角色的token，除了词、数字，还可以包括标点。 2.元素替换是将具有相同角色标签的元素进行代换。因此需要预先统计所有的实体以及对应标签构成 {arg : role} 字典集，并且这个字典集不包括有角色重叠的元素。 3.这里的数据集扩充并非给没有标签的数据加上标签，而是保持触发词与角色的个数不变，通过辅助元素的替换将触发词与角色所在句子的成分做更改，获得同样有标签的句子，以达到数据集的扩充。这篇论文比较有趣的一点是他统计了所有角色与事件类型之间的关系RF-IEF，虽然相较于以前的工作，这里会需要把多种不同标签都给计算一遍，但通过人为处理也是一个不错的选择。我认为理解这篇文章的难度在于需要掌握Bert的原理，由于我之前也没好好研究过这个，所以看起来也特别费劲，事实证明Bert是真的很优秀，这里的触发词识别与分类模块就将F1值提高了10个百分点。句子生成这块我觉得也是和Bert的Masked预训练原理结合的很巧妙，大多与Bert有关的我就没有描述了，这里贴一个 Bert模型讲解，可以迅速上手~ 还是新手，水平有限，若有错误还望不吝赐教~

350 评论 3小时前发布

为何不信2013

本文主要复述论文["Modeling Relational Data with Graph Convolutional Networks"] 的主要内容，以便自我回顾，也希望可以给大噶带来帮助~ 感谢小姐妹带我读论文~

本论文介绍的是关系图卷积网络模型（R-GCN），并在两个已知的知识库上实现关系预测与实体分类。R-GCN是在GCN的基础上优化得到的神经网络模型，原来的GCN处理的是具有拓扑结构的数据集之间的单关系，R-GCN则可以处理知识库中的多关系数据特征。与仅解码器的基准对比，改模型在FB15K-237上有的改进。

论文中考虑两个基本的SRL任务：关系预测（丢失三元组的恢复）和实体分类（为实体分配类型或分类属性）。在这两种情况下，通过图结构编译器可以获得丢失的信息。比如，知道Mikhail Baryshnikov是在Vaganova学院接受教育的，这意味着Mikhail Baryshnikov应该有标签person，其三元组 (Mikhail Baryshnikov, lived in, Russia)属于知识图。

图卷积神经网络应用在具有拓扑结构的图数据集上，其与CNN的计算方式类似，滤波器参数在图中的所有位置或者说所有局部位置都可共享，目标是学习图 G=(V, E) 上的特征映射。定义卷积网络中的第层，其向前传播的非线性激活方程可表示为其中 H(0)=X,H(L)=Z 。 X∈(N×D) 是节点特征向量的输入矩阵，N为节点数，D为特征维数。 Z∈(N×F) 为输出矩阵，为图结构的邻接矩阵，描述每个节点的度数。是非线性激活函数，比如 ReLu 。是当前层的权重矩阵。上式的传播规则有两个限制：一是节点本身的信息量未被计入，二是A本身未被正则化，直接进行矩阵运算会改变特征向量的域。 Kipf & Welling (ICLR 2017)提出了矩阵的对称归一化，对第一个问题引入节点自环，即此时的；对第二个问题引入节点度的对角化矩阵，由可以实现节点特征的归一化。实际上，借鉴对拉普拉斯矩阵的标准化公式可以更好的描述邻接矩阵的动态特性，其中。

此处引入拉普拉斯矩阵进行归一化的行为我不是很理解，关于谱论的知识我也没有补，想要深入探讨的旁友可以参阅其他资料，此处发一个GCN传播规则的解释的链接，大嘎可以参考参考---- GCN的空间域理解

那么带入之后我们就可以得到下列的前向传播公式：其中，是的节点度矩阵。再应用Weisfeiler-Lehman算法到这个GCN模型上，可以得到下式中以向量形式表示的传播规则。是边的归一化常数，也就是经该算法得到的对邻接矩阵进行对称归一化的变体。则是对当前节点i得到的邻居节点j的特征向量，并经过 hash(·) 进行特征更新。

GCNs可以有效获取局部图特征，在图分类、基于图的半监督学习模型中得到改进。作者对于R-GCNs定义了下述的传播准则：

多关系模型中的参数数量和关系数量增长很快，在计算过程中很容易导致稀疏关系矩阵的过度拟合。论文中引入了两种正则化权重矩阵的方式：基函数分解和块对角分解。奇函数分解可以看做是不同关系类型之间有效权重共享的一种形式，对于每个定义形式为（3）式，其作为基础变换，仅系数依赖于。

整个模型采用堆叠层，即上一级的输出作为下一级的输入。作者在初始化时仅考虑了无特征向量方法，选择图节点的独热编码作为第一层的节点向量输入，对于块表示，通过线性变换将one-hot编码映射为密集表示。

182 评论 12小时前发布

关于主题模型的一个论文笔记

3个回答 默认排序 默认排序 按时间排序

相关问答

职称论文

向你推荐

热门问题

3个回答默认排序

默认排序

按时间排序