正文部分

复杂场景下的多现在的定位——深度学习算法综述

原标题:复杂场景下的多现在的定位——深度学习算法综述

雷锋网按:本文为矩视智能创首人弭宝瞳投稿。矩视智能成立于 2017 年 10 月,凝神于机器视觉,主要经过 SaaS 云平台协助升迁工厂机器视觉开发、升级效率。弭宝瞳为中国人民大学计算机博士,曾在奇虎 360 任产品经理、研发工程师。

昌黎媪磕投资有限公司

一、背景知识

现在的定位是计算机视觉的主要行使场景之一。在工业生产、航空航海、农产品包装等多多周围内均已得到普及行使。在工业生产中,经过现在的定位能够实现精准地完善自动抓取、自动上料等操作;在航空航海中,行使现在的定位能够为海上打捞等做事挑供郑重的位置服务;在交通运输中,借助现在的定位能够实在获取车辆的位相新闻。

原由上述周围有关的图片新闻都具有相等复杂的背景,对待识别现在的作梗性强,且清淡存在现在的重叠、相通度高、片面遮盖等题目,进走现在的定位具有相等大的难度。

二、传统算法

传统的现在的定位算法清淡操纵滑动窗的手段,主要可分为以下三个步骤:

(1) 候选框:行使分别尺寸的滑动窗,在图片中标记一块区域行为候选区;

(2) 特征挑取:针对输入图片的候选区域,挑取视觉特征(例如人脸检测常用的Harr特征、走人检测和清淡现在的检测常用的HOG特征等);

(3) 分类器识别:行使分类器进走现在的和背景的鉴定,比如常用的SVM模型等。

上述传统算法在一些特定的行使方面已经取得了不错的收获,但仍有不少弱点。最先,其必要手动挑取图像特征,挑取手段必要不息尝试比较才能得到益的特征;其次,挑取的特征与模型性能的优劣直接有关,导致模型针对性强,不及变通行使于其他情景;此表,有些算法中还涉及到复杂的边缘检测过程,包括阈值分割、分水岭算法等。繁杂的处理过程导致模型检测效率较矮,无法已足在工业生产中的普及行使。

三、深度学习

在2012年的ImageNet竞赛中,AlexNet神经网络一举成名,也使CNN成为了计算机视觉钻研的中央,同时再一次掀首了深度学习的钻研炎潮。

3.1R-CNN[1]

R-CNN是先辈的视觉对象检测体系,它将自下而上的候选区域挑取与卷积神经网络的雄厚功能结相符在一首。R-CNN在不操纵上下文记录或要素类型集成的情况下实现了检测精度的大幅升迁。

R-CNN算法的详细实现手段如下:

输入图片,基于区域候选手段(如selective search手段)生成约2000个候选区域;

对每个候选区域进走Resize,固定大幼后送入CNN模型中并得到特征向量;

将特征向量送入一个多类别的分类器中,判断候选区域中所含物体属于每个类别的概率大幼;

在R-CNN末了训练一个边界框回归模型,以升迁现在的定位的实在性。

本手段操纵CNN网络自动挑取特征,避免了手动挑取特征的复杂操作,升迁了做事效率。但原由每个候选区域都必要送入CNN模型计算特征向量,会消耗必定的时间。

3.2FasterR-CNN[2]

Faster R-CNN是现在的检测周围最经典的算法之一。它主要由用于生成候选区域框的深度全卷积网络和Fast R-CNN 检测模型两片面构成。

Faster R-CNN的网络组织如上图所示,由图中能够望出其由四片面构成:

Conv layers:对输入的整张图片,挑取其特征图;

Region Proposal Networks:用于选举候选区域(经过softmax判断anchors属于前景照样后景,并借助box regression修整anchors,输出多个候选区域);

ROI Pooling:将分别大幼的输入转换为固定长度的输出,送入后续的全连接层鉴定现在的类别;

Classification:输出候选区域所属的类别及其准确的位置。

RPN层是Faster R-CNN网络最大的亮点,操纵RPN代替启发式候选区域的手段,极大的添快了训练的速度和精度。

3.3 Yolov3[3,4]

前线介绍的两栽算法均为Two-stage,而Yolo属于One-stage,它不必要挑取候选区域,能够直接产生物体的类别概率和位置坐标值,这边将针对现在更受迎接的Yolo v3睁开介绍。

Yolo v3的详细实现能够分为三步,别离为:

多尺度展望:借助残差网络组织形成了更深的网络层次,能够在三栽分别的尺度上进走检测;

基础网络:操纵Darknet的变体Darknet-53,图片中心在Imagenet上训练了53层网络,并在检测义务时再次堆叠53层,形成了106层十足卷积的底层架构;

分类器:操纵多个logistic分类器,以进走多标签对象的分类。

行为Yolo算法多次优化后的产物,Yolo v3是现在现在的检测最优的算法之一,其具有组织清亮,实时性益,能够经过转折模型组织的大幼均衡速度与精度等益处。此表,Yolo v3还升迁了幼尺寸物体的检测奏效,解决了前两个版本存在的题目。

3.4 SSD[5]

SSD算法(全称Single Shot MultiBox Detector)同Yolo相通属于One-stage,且团体安详性比Yolo益许多,其网络组织如下图所示。

SSD的基本实现流程较Yolo复杂,可概括如下:

输入图片,操纵卷积神经网络CNN挑取特征,并生成特征图;

抽取其中6层的特征图,并在特征图的每个点上生成default box;

将所得的default box通盘荟萃首来,并输入极大值按捺NMS中,筛选并输出末了的default box。

同样行为One-stage手段,SSD采用CNN直接检测的手段替代Yolo在全连接层之后做检测的手段升迁了训练速度。此表,SSD挑取分别尺寸的特征图,别离用来检测大幼分别的物体;还操纵分别尺度和长宽比的Anchors升迁了定位实在度,实现了在高速运走的同时保持高精度的庞大突破。

四、总结

本文参考前沿文献,总结了片面现在行使较为普及的片面现在的定位算法框架及详细思路。总的来说,现在的定位检测可分为Two-stage(产生候选区 确定位置)和One-stage(直接产生物体的位置坐标值)两大类,均能够实现迅速实在且鲁棒性益的现在的定位,且能够变通的行使于修建业、航天工程以及工业生产等多多走业。

参考文献:

[1] Girshick R, Donahue J, Darrell T, et al. Region-based convolutional networks for accurate object detection and segmentation[J]. IEEE transactions on pattern analysis and machine intelligence, 2015.

[2] Ren S, He K, Girshick R, et al. Faster r-cnn: Towards real-time object detection with region proposal networks[C]//Advances in neural information processing systems. 2015.

[3] Redmon J, Farhadi A. Yolov3: An incremental improvement[J]. arXiv preprint arXiv:1804.02767, 2018.

[4] https://towardsdatascience.com/yolo-v3-object-detection-53fb7d3bfe6b.

[5] Liu W, Anguelov D, Erhan D, et al. Ssd: Single shot multibox detector[C]//European conference on computer vision. Springer, Cham, 2016.

雷锋网,雷锋网

原标题:《釜山行2》又曝重磅消息!39岁姜栋元,将扮演第二代丧尸男主角

原标题:为什么罗斯福号航母舰长,不是升职,而是被撤职?

或许,丰田根本没有B计划。

广义而言,Fintech(金融科技)通常指大数据、云计算、区块链、人工智能等新兴技术创新传统金融行业提供的产品与服务,提升效率并有效降低成本。

Powered by 昭通代库投资有限公司 @2018 RSS地图 html地图

Copyright 站群系统 © 2013-2023 版权所有