iclr论文研究进展

3个回答默认排序

默认排序

按时间排序

annywong1990

已采纳

论文: Characterizing signal propagation to close the performance gap in unnormalized ResNets

BatchNorm是深度学习中核心计算组件，大部分的SOTA图像模型都使用它，主要有以下几个优点：

然而，尽管BatchNorm很好，但还是有以下缺点：

目前，很多研究开始寻找替代BatchNorm的归一化层，但这些替代层要么表现不行，要么会带来新的问题，比如增加推理的计算消耗。而另外一些研究则尝试去掉归一化层，比如初始化残差分支的权值，使其输出为零，保证训练初期大部分的信息通过skip path进行传递。虽然能够训练很深的网络，但使用简单的初始化方法的网络的准确率较差，而且这样的初始化很难用于更复杂的网络中。因此，论文希望找出一种有效地训练不含BatchNorm的深度残差网络的方法，而且测试集性能能够媲美当前的SOTA，论文主要贡献如下：

许多研究从理论上分析ResNet的信号传播，却很少会在设计或魔改网络的时候实地验证不同层数的特征缩放情况。实际上，用任意输入进行前向推理，然后记录网络不同位置特征的统计信息，可以很直观地了解信息传播状况并尽快发现隐藏的问题，不用经历漫长的失败训练。于是，论文提出了信号传播图(Signal Propagation Plots,SPPs)，输入随机高斯输入或真实训练样本，然后分别统计每个残差block输出的以下信息：

论文对常见的BN-ReLU-Conv结构和不常见的ReLU-BN-Conv结构进行了实验统计，实验的网络为600层ResNet，采用He初始化，定义residual block为，从SPPs可以发现了以下现象：

假如直接去掉BatchNorm，Average Squared Channel Means和Average Channel Variance将会不断地增加，这也是深层网络难以训练的原因。所以要去掉BatchNorm，必须设法模拟BatchNorm的信号传递效果。

根据前面的SPPs，论文设计了新的redsidual block ，主要模拟BatchNorm在均值和方差上的表现，具体如下：

根据上面的设计，给定和，可根据直接计算第个residual block的输出的方差。为了模拟ResNet中的累积方差在transition block处被重置，需要将transition block的skip path的输入缩小为，保证每个stage开头的transition block输出方差满足。将上述简单缩放策略应用到残差网络并去掉BatchNorm层，就得到了Normalizer-Free ResNets(NF-ResNets)。

论文对使用He初始化的NF-ResNet进行SPPs分析，结果如图2，发现了两个比较意外的现象：

为了验证上述现象，论文将网络的ReLU去掉再进行SPPs分析。如图7所示，当去掉ReLU后，Average Channel Squared Mean接近于0，而且残差分支输出的接近1，这表明是ReLU导致了mean-shift现象。论文也从理论的角度分析了这一现象，首先定义转化，为任意且固定的矩阵，为作用于独立同分布输入上的elememt-wise激活函数，所以也是独立同分布的。假设每个维度都有以及，则输出的均值和方差为：

其中，和为的行(fan-in)的均值和方差：

当为ReLU激活函数时，则，意味着后续的线性层的输入都为正均值。如果，则。由于，如果也是非零，则同样有非零均值。需要注意的是，即使从均值为零的分布中采样而来，其实际的矩阵均值肯定不会为零，所以残差分支的任意维度的输出也不会为零，随着网络深度的增加，越来越难训练。

为了消除mean-shift现象以及保证残差分支具有方差不变的特性，论文借鉴了Weight Standardization和Centered Weight Standardization，提出Scaled Weight Standardization(Scaled WS)方法，该方法对卷积层的权值重新进行如下的初始化：

和为卷积核的fan-in的均值和方差，权值初始为高斯权值，为固定常量。代入公式1可以得出，对于，有，去除了mean-shift现象。另外，方差变为，值由使用的激活函数决定，可保持方差不变。 Scaled WS训练时增加的开销很少，而且与batch数据无关，在推理的时候更是无额外开销的。另外，训练和测试时的计算逻辑保持一致，对分布式训练也很友好。从图2的SPPs曲线可以看出，加入Scaled WS的NF-ResNet-600的表现跟ReLU-BN-Conv十分相似。

最后的因素是值的确定，保证残差分支输出的方差在初始阶段接近1。值由网络使用的非线性激活类型决定，假设非线性的输入，则ReLU输出相当于从方差为的高斯分布采样而来。由于，可设置来保证。虽然真实的输入不是完全符合，在实践中上述的设定依然有不错的表现。对于其他复杂的非线性激活，如SiLU和Swish，公式推导会涉及复杂的积分，甚至推出不出来。在这种情况下，可使用数值近似的方法。先从高斯分布中采样多个维向量，计算每个向量的激活输出的实际方差，再取实际方差均值的平方根即可。

本文的核心在于保持正确的信息传递，所以许多常见的网络结构都要进行修改。如同选择值一样，可通过分析或实践判断必要的修改。比如SE模块，输出需要与的权值进行相乘，导致信息传递减弱，网络变得不稳定。使用上面提到的数值近似进行单独分析，发现期望方差为，这意味着输出需要乘以2来恢复正确的信息传递。实际上，有时相对简单的网络结构修改就可以保持很好的信息传递，而有时候即便网络结构不修改，网络本身也能够对网络结构导致的信息衰减有很好的鲁棒性。因此，论文也尝试在维持稳定训练的前提下，测试Scaled WS层的约束的最大放松程度。比如，为Scaled WS层恢复一些卷积的表达能力，加入可学习的缩放因子和偏置，分别用于权值相乘和非线性输出相加。当这些可学习参数没有任何约束时，训练的稳定性没有受到很大的影响，反而对大于150层的网络训练有一定的帮助。所以，NF-ResNet直接放松了约束，加入两个可学习参数。论文的附录有详细的网络实现细节，有兴趣的可以去看看。

总结一下，Normalizer-Free ResNet的核心有以下几点：

对比RegNet的Normalizer-Free变种与其他方法的对比，相对于EfficientNet还是差点，但已经十分接近了。

论文提出NF-ResNet，根据网络的实际信号传递进行分析，模拟BatchNorm在均值和方差传递上的表现，进而代替BatchNorm。论文实验和分析十分足，出来的效果也很不错。一些初始化方法的理论效果是对的，但实际使用会有偏差，论文通过实践分析发现了这一点进行补充，贯彻了实践出真知的道理。

159 评论 2小时前发布

LiaoL童鞋

论文: Do Deep Networks Transfer Invariances Across Classes?

[图片上传失败...(image-81c922-65)]

优秀的泛化能力需要模型具备忽略不相关细节的能力，比如分类器应该对图像的目标是猫还是狗进行响应，而不是背景或光照条件。换句话说，泛化能力需要包含对复杂但不影响预测结果的变换的不变性。在给定足够多的不同图片的情况下，比如训练数据集包含在大量不同背景下的猫和狗的图像，深度神经网络的确可以学习到不变性。但如果狗类的所有训练图片都是草地背景，那分类器很可能会误判房子背景中的狗为猫，这种情况往往就是不平衡数据集存在的问题。类不平衡在实践中很常见，许多现实世界的数据集遵循长尾分布，除几个头部类有很多图片外，而其余的每个尾部类都有很少的图片。因此，即使长尾数据集中图片总量很大，分类器也可能难以学习尾部类的不变性。虽然常用的数据增强可以通过增加尾部类中的图片数量和多样性来解决这个问题，但这种策略并不能用于模仿复杂变换，如更换图片背景。需要注意的是，像照明变化之类的许多复杂变换是类别无关的，能够类似地应用于任何类别的图片。理想情况下，经过训练的模型应该能够自动将这些不变性转为类无关的不变性，兼容尾部类的预测。论文通过实验观察分类器跨类迁移学习到的不变性的能力，从结果中发现即使经过过采样等平衡策略后，神经网络在不同类别之间传递学习到的不变性也很差。例如，在一个长尾数据集上，每个图片都是随机均匀旋转的，分类器往往对来自头部类的图片保持旋转不变，而对来自尾部类的图片则不保持旋转不变。为此，论文提出了一种更有效地跨类传递不变性的简单方法。首先训练一个input conditioned但与类无关的生成模型，该模型用于捕获数据集的复杂变换，隐藏了类信息以便鼓励类之间的变换转移。然后使用这个生成模型来转换训练输入，类似于学习数据增强来训练分类器。论文通过实验证明，由于尾部类的不变性得到显著提升，整体分类器对复杂变换更具不变性，从而有更好的测试准确率。

论文先对不平衡场景中的不变性进行介绍，随后定义一个用于度量不变性的指标，最后再分析不变性与类别大小之间的关系。

定义输入，标签属于，为类别数。定义训练后的模型的权值，用于预测条件概率，分类器将选择概率最大的类别作为输出。给定训练集，通过经验风险最小化（ERM）来最小化训练样本的平均损失。但在不平衡场景下，由于的分布不是均匀的，导致ERM在少数类别上表现不佳。在现实场景中，最理想的是模型在所有类别上都表现得不错。为此，论文采用类别平衡的指标来评价分类器，相当于测试分布在上是均匀的。为了分析不变性，论文假设的复杂变换分布为。对于不影响标签的复杂变换，论文希望分类器是不变的，即预测的概率不会改变：

[图片上传失败...(image-c53a8f-65)]

为了度量分类器学习不变性的程度，论文定义了原输入和变换输入之间的期望KL散度（eKLD）：

[图片上传失败...(image-1f0350-65)]

这是一个非负数，eKLD越低代表不变性程度就越高，对完全不变的分类器的eKLD为0。如果有办法采样，就能计算训练后的分类器的eKLD。此外，为了研究不变性与类图片数量的关系，可以通过分别计算类特定的eKLD进行分析，即将公式2的限定为类别所属。计算eKLD的难点在于复杂变化分布的获取。对于大多数现实世界的数据集而言，其复杂变化分布是不可知的。为此，论文通过选定复杂分布来生成数据集，如RotMNIST数据集。与数据增强不同，这种生成方式是通过变换对数据集进行扩充，而不是在训练过程对同一图片应用多个随机采样的变换。论文以Kuzushiji-49作为基础，用三种不同的复杂变换生成了三个不同的数据集：图片旋转（K49-ROT-LT）、不同背景强度（K49-BG-LT）和图像膨胀或侵蚀（K49-DIL-LT）。为了使数据集具有长尾分布（LT），先从大到小随机选择类别，然后有选择地减少类别的图片数直到数量分布符合参数为的Zipf定律，同时强制最少的类为5张图片。重复以上操作30次，构造30个不同的长尾数据集。每个长尾数据集有7864张图片，最多的类有4828张图片，最小的类有5张图片，而测试集则保持原先的不变。

[图片上传失败...(image-5f3fc6-65)]

训练方面，采用标准ERM和CE+DRS两种方法，其中CE+DRS基于交叉熵损失进行延迟的类平衡重采样。DRS在开始阶段跟ERM一样随机采样，随后再切换为类平衡采样进行训练。论文为每个训练集进行两种分类器的训练，随后计算每个分类器每个类别的eKLD指标。结果如图1所示，可以看到两个现象：

从前面的分析可以看到，长尾数据集的尾部类对复杂变换的不变性较差。下面将介绍如何通过生成式不变性变换(GIT)来显式学习数据集中的复杂变换分布，进而在类间转移不变性。

如果有数据集实际相关的复杂变换的方法，可以直接将其用作数据增强来加强所有类的不变性，但在实践中很少出现这种情况。于是论文提出GIT，通过训练input conditioned的生成模型来近似真实的复杂变换分布。

[图片上传失败...(image-20dfe8-65)]

论文参考了多模态图像转换模型MUNIT来构造生成模型，该类模型能够从数据中学习到多种复杂变换，然后对输入进行变换生成不同的输出。论文对MUNIT进行了少量修改，使其能够学习单数据集图片之间的变换，而不是两个不同域数据集之间的变换。从图2的生成结果来看，生成模型能够很好地捕捉数据集中的复杂变换，即使是尾部类也有不错的效果。需要注意的是，MUNIT是非必须的，也可以尝试其它可能更好的方法。在训练好生成模型后，使用GIT作为真实复杂变换的代理来为分类器进行数据增强，希望能够提高尾部类对复杂变换的不变性。给定训练输入，变换输入，保持标签不变。这样的变换能够提高分类器在训练期间的输入多样性，特别是对于尾部类。需要注意的是，batch可以搭配任意的采样方法(Batch Sampler)，比如类平衡采样器。此外，还可以有选择地进行增强，避免由于生成模型的缺陷损害性能的可能性，比如对数量足够且不变性已经很好的头部类不进行增强。

[图片上传失败...(image-40eca8-65)]

在训练中，论文设置阈值，仅图片数量少于的类进行数据增强。此外，仅对每个batch的比例进行增强。一般取，而根据数据集可以设为20-500，整体逻辑如算法1所示。

[图片上传失败...(image-cc1aaf-65)]

论文基于算法1进行了实验，将Batch Sampler设为延迟重采样(DRS)，Update Classifier使用交叉熵梯度更新，整体模型标记为。all classes表示禁用阈值，仅对K49数据集使用。作为对比，Oracle则是用于构造生成数据集的真实变换。从图3的对比结果可以看到，GIT能够有效地增强尾部类的不变性，但同时也损害了图片充裕的头部类的不变性，这表明了阈值的必要性。

[图片上传失败...(image-a4fa9-65)]

不同训练策略搭配GIT的效果对比。

[图片上传失败...(image-8eadb8-65)]

在GTSRB和CIFAR数据集上的变换输出。

[图片上传失败...(image-ed16a2-65)]

CIFAR-10上每个类的准确率。

[图片上传失败...(image-7d693a-65)]

对比实验，包括阈值对性能的影响，GTSRB-LT, CIFAR-10 LT和CIFAR-100 LT分别取25、500和100。这里的最好性能貌似都比RandAugment差点，有可能是因为论文还没对实验进行调参，而是直接复用了RandAugment的实验参数。这里比较好奇的是，如果在训练生成模型的时候加上RandAugment，说不定性能会更好。

论文对长尾数据集中的复杂变换不变性进行了研究，发现不变性在很大程度上取决于类别的图片数量，实际上分类器并不能将从大类中学习到的不变性转移到小类中。为此，论文提出了GIT生成模型，从数据集中学习到类无关的复杂变换，从而在训练时对小类进行有效增强，整体效果不错。

297 评论 7小时前发布

独行欧洲

国际表征学习大会（简称：ICLR），是深度学习领域的顶级会议。

国际表征学习大会是公认的深度学习领域国际顶级会议之一，关注有关深度学习各个方面的前沿研究，在人工智能、统计和数据科学领域以及机器视觉、语音识别、文本理解等重要应用领域中发布了众多极其有影响力的论文。

ICLR采取完全公开评审规则，任何对论文有兴趣的研究者都可以参与到关于论文评审意见的讨论中。这使得ICLR论文评审的透明性和广泛性在深度学习顶级会议中独树一帜，同时也大大增加了论文被接收的难度。

扩展资料：

召开情况

2020年4月26日，ICLR 2020开始，由15个 workshops 拉开序幕，并于4月27至30举行主会议。

此次会议注册的人数相较于 2019 年增长了一倍多，根据大会官方统计的数字，线上演讲视频观看量已突破 10 万+，与之相关的 Zoom 讨论会议也有 1400 余次。4月30日，ICLR 2020落幕。

306 评论 9小时前发布

iclr论文研究进展

3个回答 默认排序 默认排序 按时间排序

相关问答

期刊论文

向你推荐

热门问题

3个回答默认排序

默认排序

按时间排序