DL之SPP-Net:SPP-Net算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略


ghj1
ghj1 2022-09-19 16:36:49 68069
分类专栏: 资讯

DL之SPP-Net:SPP-Net算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

目录

SPP-Net算法的相关论文

0、实验结果

1、SPP-Net中的亮点

SPP-Net算法的设计思路

SPP-Net关键步骤

1、ROI池化层

2、卷积特征实际上和原始图像在位置上是有一定对应关系


相关文章
DL之SPP-Net:SPP-Net算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略
DL之SPP-Net:SPP-Net算法的架构详解

SPP-Net算法的相关论文

      SPP-Net的第一作者也是何凯明,原论文《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》。用于分类和检测任务,在ImageNet数据集ILSVRC2014竞赛上,检测任务获得第二名、分类任务第三名。

Abstract
       Existing deep convolutional neural networks (CNNs) require a fixed-size (e.g., 224×224) input image. This requirement  is “artificial” and may reduce the recognition accuracy for the images or sub-images of an arbitrary size/scale. In this  work, we equip the networks with another pooling strategy, “spatial pyramid pooling”, to eliminate the above requirement. The  new network structure, called SPP-net, can generate a fixed-length representation regardless of image size/scale. Pyramid  pooling is also robust to object deformations. With these advantages, SPP-net should in general improve all CNN-based image  classification methods. On the ImageNet 2012 dataset, we demonstrate that SPP-net boosts the accuracy of a variety of CNN  architectures despite their different designs. On the Pascal VOC 2007 and Caltech101 datasets, SPP-net achieves state-of-theart  classification results using a single full-image representation and no fine-tuning.  
       现有的深度卷积神经网络(CNNs)需要一个固定大小的输入图像(如224×224)。这一要求是“人为的”,可能会降低对任意大小/尺度的图像或子图像的识别精度。在这项工作中,我们为网络配备了另一种pooling 策略,“空间金字塔池”,以消除上述的要求。这种新的网络结构称为SPP-net,可以生成固定长度的表示,而不受图像大小/比例的影响。金字塔池对物体变形也有很强的鲁棒性。基于这些优点,SPP-net一般应改进所有基于CNN的图像分类方法。在ImageNet 2012数据集中,尽管它们的设计不同,我们证明了SPP-net提高了各种CNN架构的准确性。在Pascal VOC 2007和Caltech101数据集上,SPP-net使用单一的全图像表示,无需微调,就可以实现最先进的分类结果。
       The power of SPP-net is also significant in object detection. Using SPP-net, we compute the feature maps from the entire  image only once, and then pool features in arbitrary regions (sub-images) to generate fixed-length representations for training  the detectors. This method avoids repeatedly computing the convolutional features. In processing test images, our method is  24-102× faster than the R-CNN method, while achieving better or comparable accuracy on Pascal VOC 2007.  
       在目标检测中,SPP-net的能力也很重要。利用SPP-net算法,只对整个图像进行一次特征映射计算,然后将特征集合到任意区域(子图像),生成固定长度的表示形式,用于训练检测器。该方法避免了卷积特征的重复计算。在处理测试图像时,我们的方法比R-CNN方法快24-102倍,而在Pascal VOC 2007上达到了更好或相近的精度。
       In ImageNet Large Scale Visual Recognition Challenge (ILSVRC) 2014, our methods rank 2 in object detection and 3 in  image classification among all 38 teams. This manuscript also introduces the improvement made for this competition.
       在2014年的ImageNet Large Scale Visual Recognition Challenge (ILSVRC)中,我们的方法在所有38个团队中对象检测排名第二,图像分类排名第三。本文还介绍了本次比赛的改进情况。
CONCLUSION  
       SPP is a flexible solution for handling different scales,  sizes, and aspect ratios. These issues are important in  visual recognition, but received little consideration in  the context of deep networks. We have suggested a solution  to train a deep network with a spatial pyramid  pooling layer. The resulting SPP-net shows outstanding  accuracy in classification/detection tasks and  greatly accelerates DNN-based detection. Our studies  also show that many time-proven techniques/insights  in computer vision can still play important roles in  deep-networks-based recognition.
结论
       SPP是一个灵活的解决方案,可以处理不同的规模、大小和纵横比。这些问题在视觉识别中很重要,但在深度网络环境中却很少被考虑。论文提出了一种利用空间金字塔池层,训练深度网络的方法。由此产生的SPP-net在分类/检测任务中显示出优异的精度,大大加快了基于DNN的检测速度。我们的研究还表明,在基于深度网络的识别中,许多经过时间检验的计算机视觉技术/见解仍然可以发挥重要作用。

相关论文
Kaiming He, XiangyuZhang, ShaoqingRen, and Jian Sun.
Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition . ECCV 2014
https://arxiv.org/abs/1406.4729

0、实验结果

1、VOC2007

2、ILSVRC 2014 Classification

3、ILSVRC 2014 Detection

1、SPP-Net中的亮点

     在此之前,所有的神经网络都是需要输入固定尺寸的图片,比如224*224(ImageNet)、32*32(LenNet)、96*96等。这样对于我们希望检测各种大小的图片的时候,需要经过crop,或者warp等一系列操作,这都在一定程度上导致图片信息的丢失和变形,限制了识别精确度。而且,从生理学角度出发,人眼看到一个图片时,大脑会首先认为这是一个整体,而不会进行crop和warp,所以更有可能的是,我们的大脑通过搜集一些浅层的信息,在更深层才识别出这些任意形状的目标。

  • 分类: improves all CNN architectures
  • 检测: 24~64x faster than R-CNN
  • ILSVRC 2014: 2 in detection, 3 in classification.

SPP-Net算法的设计思路

SPP-Net关键步骤

1、ROI池化层

2、卷积特征实际上和原始图像在位置上是有一定对应关系

网站声明:如果转载,请联系本站管理员。否则一切后果自行承担。

本文链接:https://www.xckfsq.com/news/show.html?id=3637
赞同 0
评论 0 条
ghj1L0
粉丝 0 发表 5 + 关注 私信
上周热门
银河麒麟添加网络打印机时,出现“client-error-not-possible”错误提示  1489
银河麒麟打印带有图像的文档时出错  1407
银河麒麟添加打印机时,出现“server-error-internal-error”  1196
统信操作系统各版本介绍  1118
统信桌面专业版【如何查询系统安装时间】  1116
统信桌面专业版【全盘安装UOS系统】介绍  1071
麒麟系统也能完整体验微信啦!  1029
统信【启动盘制作工具】使用介绍  674
统信桌面专业版【一个U盘做多个系统启动盘】的方法  618
信刻全自动档案蓝光光盘检测一体机  529
本周热议
我的信创开放社区兼职赚钱历程 40
今天你签到了吗? 27
信创开放社区邀请他人注册的具体步骤如下 15
如何玩转信创开放社区—从小白进阶到专家 15
方德桌面操作系统 14
我有15积分有什么用? 13
用抖音玩法闯信创开放社区——用平台宣传企业产品服务 13
如何让你先人一步获得悬赏问题信息?(创作者必看) 12
2024中国信创产业发展大会暨中国信息科技创新与应用博览会 9
中央国家机关政府采购中心:应当将CPU、操作系统符合安全可靠测评要求纳入采购需求 8

添加我为好友,拉您入交流群!

请使用微信扫一扫!