多彩装修
调整了网络结构;利用多尺度特征进行对象检测;对象分类用Logistic取代了softmax
对于多尺度检测来说,采用多个尺度进行预测,具体形式是在网络预测的最后某些层进行上采样拼接的操作来达到;对于分辨率对预测的影响如下解释:
分辨率信息直接反映的就是构成object的像素的数量。一个object,像素数量越多,它对object的细节表现就越丰富越具体,也就是说分辨率信息越丰富。这也就是为什么大尺度feature map提供的是分辨率信息了。语义信息在目标检测中指的是让object区分于背景的信息,即语义信息是让你知道这个是object,其余是背景。在不同类别中语义信息并不需要很多细节信息,分辨率信息大,反而会降低语义信息,因此小尺度feature map在提供必要的分辨率信息下语义信息会提供的更好。(而对于小目标,小尺度feature map无法提供必要的分辨率信息,所以还需结合大尺度的feature map)
YOLO3更进一步采用了3个不同尺度的特征图来进行对象检测。能够检测的到更加细粒度的特征。 对于这三种检测的结果并不是同样的东西,这里的粗略理解是不同给的尺度检测不同大小的物体。
YOLO2已经开始采用K-means聚类得到先验框的尺寸,YOLO3延续了这种方法,为每种下采样尺度设定3种先验框,总共聚类出9种尺寸的先验框。
在COCO数据集这9个先验框是:(10x13),(16x30),(33x23),(30x61),(62x45),(59x119),(116x90),(156x198),(373x326)。
logistic回归用于对anchor包围的部分进行一个目标性评分(objectness score),(用于NMS),即这块位置是目标的可能性有多大。
yolo_v3只会对1个prior进行操作,也就是那个最佳prior。而logistic回归就是用来从9个anchor priors中找到objectness score(目标存在可能性得分)最高的那一个。
princefrank
yolo v3是2018年出来的,比SSD和retinanet都要晚,在map0.5这个指标上速度比SSD和retinanet快很多。在工业应用上面map0.5已经满足使用,并且yolo v3简介,文档丰富,还有tiny版本等一些列变种。最重要的是速度非常快,比SSD和retinanet都要快。
YOLOv3 的提出不是为了解决什么问题,整篇论文其实是技术报告。YOLOv3 在 YOLOv2 基础上做了一些小改进,文章篇幅不长,核心思想和 YOLOv2、YOLO9000差不多。
模型改进:
边界框预测:定位任务采用 anchor box 预测边界框的方法,YOLOv3 使用逻辑回归为每个边界框都预测了一个分数 objectness score,打分依据是预测框与物体的重叠度。如果某个框的重叠度比其他框都高,它的分数就是 1,忽略那些不是最好的框且重叠度大于某一阈值(0.5)的框。
调整了网络结构;利用多尺度特征进行对象检测;对象分类用Logistic取代了softmax 对于多尺度检测来说,采用多个尺度进行预测,具体形式是在网络预测的最后
问题一:论文发表时间怎么看 引言又称前言,属于整篇论文的引论部分。其写作内容包括:研究的理由、目的、背景、前人的工作和知识空白,理论依据和实验基础,预期的结果
问题一:论文发表时间怎么看 引言又称前言,属于整篇论文的引论部分。其写作内容包括:研究的理由、目的、背景、前人的工作和知识空白,理论依据和实验基础,预期的结果
爱因斯坦在1905年发表了四篇论文。 分别为:《关于光的产生和转化的一个启发性观点》、《根据分子运动论研究静止液体中悬浮微粒的运动》、《论运动物体的电动力学》、
1、美国经济评论 英文原名《American Economic Review》,1911年创刊,现为美国经济学界最古老、最受人尊敬的经济学专业期刊之一,也是世界