ICLR发表的论文集

3个回答默认排序

默认排序

按时间排序

白羊座小叔

已采纳

最近需要做MOE相关的工作，简单分析记录下Hinton团队2017ICLR上发表的论文论文题目：《Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer》论文地址：背景介绍：随着深度学习的发展，数据规模和模型容量已经是深度学习的关键因素。传统的深度学习模型中，对于每一个样本输入，完整的模型都需要被激活。随着数据和模型的扩大，这样的开销是二次的。因此，引入条件计算的概念，即通过动态激活部分神经网络，从而在增加模型参数量的情况下，而不增加计算量。但是条件计算提出以来，面临着几个困境： 1.现代的计算机硬件，尤其是GPU，精通计算操作而不擅长分支。因此先前很多的工作每个门控制大chunk网络以减少分支。 2.条件计算会减少batch size。 3.网络带宽是瓶颈。 4.需要设计特定的损失函数，Bengio先前的工作就设计了三种loss，这些loss的设计会影响模型的效果和负载均衡。 5.现有的相关工作都是在小数据集上的小模型实验。方法：提出稀疏门控的多专家混合网络，通过一个可学习的门控网络来稀疏地选择专家。相关工作：介绍了先前机器学习&深度学习领域的一些专家网络的工作，但是这些网络都是偏上层的专家结合，每个专家网络其实是一个完整的模型。而该论文的工作实际上是将MOE做成一个通用的网络模块，同时作为一种实际的方式来控制模型的容量。模型结构：如上公式，模型输出就是通过门控网络G来赋予不同专家E的输出不同权重。文中提到，如果专家的数量过多，也可以构建多层的MOE结构。这里文中有一段对于MOE结构的理解。在MOE中，专家网络是前馈神经网络类似于参数化的权重矩阵，而对于多个专家激活的情况就对应于一种block-wise的dropout结构。门控网络：简单的softmax网络：有噪的topk网络：·通过topk选取前k个专家，其余专家的系数为0。稀疏门控的设计能够节省计算量。 ·通过加入噪声（其中噪声权重矩阵是可学习的）来控制负载均衡。解决问题： batch size的问题：简单来说，假设batch size为b，从n个专家中选取topK个。由于稀疏激活的原因，每个专家接收的样本数是k*b/n << b，因此会造成batch size减小。同步的数据和模型并行：控制每一张卡上只有一个专家网络，通过门控网络实现数据分发到哪个专家网络。该方法控制每张卡上内存和通信消耗几乎一致，因此只需要增加卡的数量d，就可以等比例的增大batch size。卷积性：网络的每一个时间步的MOE都相同，如果把LSTM的多时间步拆开，相当于形成一个很大的batch输入，因此也可以增大batch size。其他一些优化显存的方法增大batch size。网络带宽问题：通过增大隐层维度或者隐层的数量来提高计算效率。负载均衡问题：具体而言，模型训练时会趋向于总激活某几个专家，这是模型的“自我强化”导致的不平衡性。先前的一些工作会加入一些硬限制和软限制。 MOE中通过增加两种loss设计，importance loss&load loss。前者定义重要性，表示某个专家训练的样本数量，从而鼓励所有专家都参与训练。后者是为了解决有些专家接收少量大权重的样本，有些专家接收大量小权重的样本的情况。实验：实验部分展示了在语言建模以及翻译等任务上MOE的表现。基本来说，MOE在更小计算量的情况下，模型拥有更高的参数量（最高为1370亿参数量），并且在test perplexity上更低。结论： MOE确实提供了一个很好的思路来提升模型容量。在理想情况下，只需要增加专家的数量（设备数量）就可以增大模型参数量。但是实际训练操作比较困难，同时文中的专家网络仅是简单的前馈神经网络，其他网络结构还需要近一步探索。之后会记录一系列的MOE相关论文，希望能够获得启发。

147 评论 1小时前发布

我不想说114

被誉为深度学习的顶级论文首先，这个来头不小，由位列深度学习三大巨头之二的 Yoshua Bengio 和 Yann LeCun 牵头创办。Yoshua Bengio 是蒙特利尔大学教授，深度学习三巨头之一，他领导蒙特利尔大学的人工智能实验室（MILA）进行 AI 技术的学术研究。MILA 是世界上最大的人工智能研究中心之一，与谷歌也有着密切的合作。而 Yann LeCun 就自不用提，同为深度学习三巨头之一的他现任 Facebook 人工智能研究院（FAIR）院长、纽约大学教授。作为卷积神经网络之父，他为深度学习的发展和创新作出了重要贡献。至于创办 ICLR 的原因何在，雷锋网尝试从 Bengio 和 LeCun 于 ICLR 第一届官网所发布的公开信推测一二。

160 评论 1小时前发布

海天浪涛

【51CTO.com快译】首先请在脑海中想象一只橙色的猫。然后，想象同一只猫，皮毛已经变成了煤黑色。现在，想象这样一只猫在长城上昂首阔步。

在上述一系列想象活动中，你大脑中的一系列神经元会基于你之前对世界的认知，快速呈现出不同的图像。也就是说，作为人类，其实很容易一个具有不同属性的对象。但对于计算机来说，尽管深度神经网络在某些任务上取得了可以与人类表现相匹敌甚至超越的突破，但始终无法与人类的“想象力”相抗衡。

如今，一个来自南加州大学的研究团队开发出了一种新的人工智能，可以利用类人的能力想象出某个前所未有的具有不同属性的物体。这篇以Zero-Shot Synthesis with Group-Supervised Learning为题的论文于今年5月7日发表在ICLR2021（深度学习领域的顶级学术会议）会上。

“我们受到人类视觉泛化能力的启发，尝试在机器上模拟人类的想象力，”该研究的主要作者葛云浩说，“人类可以通过不同的属性(例如形状、姿势、位置、颜色)来分离所学知识，然后将它们重新组合，从而想象出一个新的物体。我们的论文试图用神经网络来模拟这个过程。”

人工智能的泛化

假如，你想创建一个生成汽车图像的人工智能系统。理想情况下，你可以为算法提供一些汽车图片，从而让它可以从不同角度生成各种型号、外形、颜色的汽车，从保时捷到庞蒂亚克到皮卡，不一而足。

这是人工智能长期追求的目标之一：创建可以进行推理的模型。达成这一目标就意味着，给定几个示例，模型就能够提取基本规则，并将它们应用到大量前所未见的新示例中。但机器通常是根据样本特征进行训练的，比如像素，而不考虑对象的属性。

关于“想象”的科学

在这项新研究中，研究人员试图用一种“退纠缠（disentanglement）”的概念来克服这一限制。“退纠缠”可以用于“深度伪造（deepfake）”，葛云浩提到，通过“退纠缠”人的脸部表情和特征进行“换脸”，人们可以合成新的图像和视频，用另一个人替换原主身份，同时保留原来的动作。与之相似，新方法采用一组样本图像——而不是像传统算法那样一次一个样本——并挖掘它们之间的相似性以实现所谓的“可控退纠缠表征学习”。然后通过重新组合这些知识来实现“可控的新图像合成”，或者你可以称之为“想象”。

他以《变形金刚》为例进行了说明：它可以在电影中取材——威震天的形状、大黄蜂的颜色、纽约时代广场的背景。合成结果就是一辆大黄蜂颜色的威震天汽车在时代广场上飞驰，即使训练期间并没有出现过这个样本。

这个过程类似于人类的推理：当一个人看到一个物体的颜色时，我们可以轻松地通过用新颜色替换原始色来将其应用于任何其他物体。使用他们的技术，这个团队生成了一个包含 156 万张图像的新数据集，有助于该领域的未来研究。

理解世界

虽然“退纠缠”并不是个新点子，但研究人员表示，他们的框架几乎可以和任何类型的数据或知识兼容，这就扩大了应用机会。比如，通过将敏感属性从等式中完全移除，将种族和性别相关知识分解，从而推进人工智能更加公平。

再比如，在医学领域，它可以帮助医生和生物学家发现更多有用的药物，通过将药物功能与其他特性分开，然后将它们重新组合以合成新药；在自动驾驶领域，允许自动驾驶汽车想象并避免在训练过程中从未见过的危险场景，从而推进创建更安全的人工智能。

计算机科学教授洛伦·伊蒂说：“深度学习已经在很多领域展示了无与伦比的性能和前景，但这往往是通过浅层模仿达成，并没有更深入地了解使每个个体独一无二的属性。这种新的‘退纠缠’方法第一次真正释放了人工智能系统的想象力，使它们更接近人类对世界的理解。”

原文链接：Enabling the 'imagination' of artificial intelligence

【51CTO译稿，合作站点转载请注明原文译者和出处为51CTO.com】

322 评论 6小时前发布

ICLR发表的论文集

3个回答 默认排序 默认排序 按时间排序

相关问答

论文发表

向你推荐

热门问题

3个回答默认排序

默认排序

按时间排序