已然晕菜
论文: Coordinate Attention for Efficient Mobile Network Design
目前,轻量级网络的注意力机制大都采用SE模块,仅考虑了通道间的信息,忽略了位置信息。尽管后来的BAM和CBAM尝试在降低通道数后通过卷积来提取位置注意力信息,但卷积只能提取局部关系,缺乏长距离关系提取的能力。为此,论文提出了新的高效注意力机制coordinate attention,能够将横向和纵向的位置信息编码到channel attention中,使得移动网络能够关注大范围的位置信息又不会带来过多的计算量。 coordinate attention的优势主要有以下几点:
Coordinate Attention可看作增强移动网络特征表达能力的计算单元,接受中间特征 作为输入,输出与 大小相同的增强特征 。
Coordinate Attention基于coordinate information embedding和coordinate attention generation两个步骤来编码通道关系和长距离关系。
channel attention常用全局池化编码全局空间信息,将全局信息压缩成一个标量,难以保留重要的空间信息。为此,论文将全局池化改造成两个1维向量的编码操作。对于输入 ,使用池化核 和 来编码水平方向和垂直方向特征,即第 维特征的输出为:
上面的公式从不同的方向集成特征,输出一对方向可知的特征图。对比全局池化的压缩方式,这样能够允许attention block捕捉单方向上的长距离关系同时保留另一个方向上的空间信息,帮助网络更准确地定位目标。
为了更好地利用上述的coordinate infomation,论文提出了配套的coordinate attention generation操作,主要基于以下三点准则进行设计:
首先将公式4和公式5的输出concatenate起来,使用 卷积、BN和非线性激活进行特征转化:
为包含横向和纵向空间信息的中间特征, 为缩减因子。这里两个方向的特征没有做激烈的融合,concatenate的主要目的我觉得是进行统一的BN操作。随后将 分为两个独立的特征 和 ,使用另外两个 卷积和sigmoid函数进行特征转化,使其维度与输入 一致:
将输出 和 合并成权重矩阵,用于计算coordinate attention block输出:
coordinate attention block与se block的最大区别是,coordinate attention block的每个权重都包含了通道间信息、横向空间信息和纵向空间信息,能够帮助网络更准确地定位目标信息,增强识别能力。
将coordinate attention block应用于MobileNetV2和MobileNeXt上,block结构如图3所示。
基于MobileNetV2进行模块设置的对比实验。
不同注意力结构在不同主干网络上的性能对比。
对目标检测网络的性能对比。
对语义分割任务的性能对比。
论文提出新颖的轻量级通道注意力机制coordinate attention,能够同时考虑通道间关系以及长距离的位置信息。通过实验发现,coordinate attention可有效地提升模型的准确率,而且仅带来少量的计算消耗,十分不错。
满天星RF
论文: Context-aware Attentional Pooling (CAP) for Fine-grained Visual Classification
论文认为大多数优秀的细粒度图像识别方法通过发掘目标的局部特征来辅助识别,却没有对局部信息进行标注,而是采取弱监督或无监督的方式来定位局部特征位置。而且大部分的方法采用预训练的检测器,无法很好地捕捉目标与局部特征的关系。为了能够更好地描述图片内容,需要更细致地考虑从像素到目标到场景的信息,不仅要定位局部特征/目标的位置,还要从多个维度描述其丰富且互补的特征,从而得出完整图片/目标的内容。 论文从卷积网络的角度考虑如何描述目标,提出了context-aware attentional pooling(CAP)模块,能够高效地编码局部特征的位置信息和外观信息。该模块将卷积网络输出的特征作为输入,学习调整特征中不同区域的重要性,从而得出局部区域的丰富的外观特征及其空间特征,进而进行准确的分类。 论文的主要贡献如下:
论文算法的整体流程如上图所示,输入图片,输出具体从属类别,包含3个组件(3组参数):
[图片上传失败...(image-bc43b-1644805770766)]
定义卷积网络输出的特征为 ,CAP的模块综合考虑像素级特征、小区域特征、大区域特征以及图片级特征的上下文信息进行分类。
[图片上传失败...(image-818dc8-1644805770766)]
像素级特征的上下文信息主要学习像素间的关联度 ,在计算 位置的输出时根据关联度综合所有其他像素特征,直接使用self-attention实现,特征转化使用 卷积。这一步直接对主干网络输出的特征进行操作,但没在整体流程图中体现。
为了更高效地学习上下文信息,论文在特征图 上定义不同粒度级别的基本区域,粒度级别由区域的大小决定。假设 位置上的最小的区域为 为例,可通过放大宽高衍生出一系列区域 , , 。在不同的位置产生相似的区域合集 ,得到最终的区域合集 。 覆盖了所有的位置的不同宽高比区域,可以提供全面的上下文信息,帮助在图片的不同层级提供细微特征。
按照上一步,在特征图上得到 个区域,大小从最小的 到最大的 ,论文的目标是将不同大小的区域表示为固定大小的特征,主要采用了双线性插值。定义 为坐标转换函数, 为区域坐标,对应的特征值为 ,则转换后的图片 的 坐标上的值为:
为采样函数, 为核函数,这里采用的是最原始的方法,将目标坐标映射回原图,取最近的四个点,按距离进行输出,最终得到池化后的固定特征 。
这里,论文使用全新的注意力机制来获取上下文信息,根据 与其他特征 的相似性进行加权输出,使得模型能够选择性地关注更相关的区域,从而产生更全面的上下文信息。以查询项 和一组关键词项 ,输出上下文向量 :
参数矩阵 和 用来将输入特征转换为查询项核关键项, 为非线性组合, 和 为偏置项,整体的可学习参数为 ,而注意力项 则代表两个特征之间的相似性。这样,上下文向量 能够代表区域 蕴含的上下文信息,这些信息是根据其与其他区域的相关程度获得的,整体的计算思想跟self-attention基本相似。
上下文向量 描述了区域的关键程度和特点,为了进一步加入空间排列相关的结构信息,论文将区域的上下文向量 转为区域序列(论文按上到下、左到右的顺序),输入到循环神经网络中,使用循环神经网络的隐藏单元 来表达结构特征。 区域 的中间特征可表示为 , 采用LSTM, 包含LSTM的相关参数。为了增加泛化能力和减少计算量,上下文特征 由 进行全局平均池化得到,最终输出上下文特征序列 对应的隐藏状态序列 ,后续用于分类模块中。
[图片上传失败...(image-aab286-1644805770766)]
为了进一步引导模型分辨细微的变化,论文提出可学习的池化操作,能够通过组合响应相似的隐藏层 来整合特征信息。论文借鉴NetVLAD的思想,用可导的聚类方法来对隐藏层的响应值进行转换,首先计算隐藏层响应对类簇 的相关性,再加权到类簇 的VLAD encoding中:
[图片上传失败...(image-2d95b2-1644805770766)]
每个类簇都有其可学习的参数 和 ,整体思想基于softmax,将隐藏层的响应值按softmax的权重分配到不同的类簇中。在得到所有类簇的encoding向量后,使用可学习的权值 和softmax进行归一化。因此,分类模块 的可学习参数为 。
[图片上传失败...(image-d9e014-1644805770766)]
在不同的数据集上,对不同方法进行对比。
不同主干网络下的准确率对比。
不同模块输出特征的可视化,图b是加入CAP后,主干网络输出的特征。
论文提出细粒度分类解决方案CAP,通过上下文感知的注意力机制来帮助模型发现目标的细微特征变化。除了像素级别的注意力机制,还有区域级别的注意力机制以及局部特征编码方法,与以往的视觉方案很不同,值得一看。
浅谈多旋翼无人机任务系统的优秀论文 前言: 随着无人机产品的不断增加,市场之间的竞争力,也逐渐的提升,对此本项目研究出了更适合于工业控制、自动化装备等领域产品的
论文: Coordinate Attention for Efficient Mobile Network Design 目前,轻量级网络的注意力机制大都采用S
不管是导师还是读者,评判论文的第一感是先审核题目,选题是撰写论文的奠基工程,在一定程度上决定着论文的优劣。下面我给大家带来2021各方向硕士论文题目写作参考,希
一:生理原因 1:神经系统发育迟缓 注意力等心理活动是基于神经系统的发展程度,神经系统成熟的晚或者大脑功能失调、或精神发育迟滞,都会使患儿不能理解老师讲
国有企业员工激励机制存在的问题及对策分析论文 本文首先对激励机制进行了说明,引出探讨国有企业员工激励机制的必要性;其次对国有企业员工激励机制中存在的问题以及问题