Markdown 수식추가 Markdown 추가 네이버 스크립트 구글 스크립트

Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

본 논문 리뷰는 v1 : 4/6/15 (NIPS 2015)이 아닌 v3 : 6/1/16 을 기준으로 작성하였습니다.

Abstract

 이때 당시 SOTA는 SPPnetFast R-CNN 입니다. bottleneck 같은 region proposal(RP) 계산을 사용합니다. 본 논문에서는 Region Proposal Network(RPN)을 소개합니다. RPN이란 전체 이미지를 CNN시킨 feature map을 공유하는 네트워크로 RP를 cost 부담 없이 사용할 수 있다고 합니다. (Free Time and Accuracy)

 RPN은 Fully Convolutional Network로 각 지점에서 Bbox 와 classifier을 동시에 예측할 수 있다고 합니다. 여기서 중요한 점은 Fast R-CNN이 detection 하는 것을 그대로 가져왔으며 단지 바뀐점은 RP를 RPN을 이용하는 것입니다. 결국, 이 논문은 RPN과 Fast R-CNN을 feature map을 공유하는 한 개의 네트워크로 합친 것입니다.

 성능은 뒤에서도 설명하겠지만, backbone으로는 VGG-16을 사용하고 PASCAL VOC 2007 test set에 대한 결과로 79.2%mAP가 나왔습니다.(train set은 VOC 2007+2012 trainval을 사용 하였습니다.) 속도는 모든 단계를 포함해도 이미지당 198ms이 나온다고 합니다.

1. Introduction

  1. R-CNN - Fast R-CNN - Faster R-CNN으로 이어져 왔습니다.

  2. Selective Search(SS)의 경우 RP를 찾는 유명한 방법이지만 이미지당 2초씩 계산 시간이 걸리기 때문에 real-trime object detection에는 적합하지 않습니다.

  3. EdgeBoxes라는 이미지당 0.2초가 걸리는 방법이 나왔지만 결국엔 detection 부분에서 여전히 오래 걸립니다.

    • 이유로는, RP를 찾는 부분에서 GPU가 아닌 CPU를 사용해야합니다. GPU로 재구현하는 방법이 존재합니다.
    • 하지만 이 또한 down-stream detection network를 무시하는 것과 sharing computation(공유 계산...? 계산한 것을 공유한다는 뜻인 것 같습니다.)를 하지 않는 문제가 있습니다.
  4. 이 논문에서는 위의 문제들을 우아하게(?) 알고리즘적으로 해결했다고 합니다

    바로, RPN입니다. 즉, 테스트 시간에 convolution들을 공유한다면 가장 끝에서 계산 시간이 줄어들 것이라고 합니다. (여기선 이미지당 10ms가 걸린다고 합니다.)

    Fast R-CNN에서 feature map이 RP로 사용될 뿐만 아니라 RP를 생성하는 것을 봤습니다. 따라서, 막 feature map이 만들어졌을 때, RPN을 feature map으로 쌓아서 만들고 각 지점을 정형화된 grid로 나눈다면 bbox와 classifer을 동시에 할 수 있을 것이라고 생각했습니다. 즉, RPN은 fully convolutional network와 비슷한 것이며 detection proposal들을 만드는 것을 end-to-end로 학습할 수 있다고 합니다.

 RPN은 SPPnet이나 Fast R-CNN과 같은 일반적인 방법들과는 달리 다양한 scale과 aspect ratio에서도 RP를 효과적으로 예측할 수 있도록 만들어졌다고 합니다.

  1. 일반적으로 (a)나 (b) 같은 방법으로 다양한 scale과 aspect ratio에서 RP를 예측한다고 합니다.

  2. 본 논문은 (c)와 같은 방법으로 Archor라는 다양한 scale과 aspect ratio를 가진 참고 박스를 소개합니다.

  3. 즉, 여러 크기의 이미지를 열거하거나(a) 많은 scale 또는 aspect ratio들을 사용하는 것(b)보다 단일 scale의 이미지를 사용하는 것(c)이 효과적이며 빠릅니다.

    본 논문의 RPN은 RP를 위한 fine-tuning과 object detection을 위한 fine-tuning을 선택적으로 학습시킬 수 있습니다. 또한, 빠르게 수렴합니다.

    본 논문은 포괄적으로 평가하였는데,

  4. PASCAL VOC detection benchmarks에서 SS와 RPN을 비교 ( with Fast R-CNN)
    => SS와 비교해 proposals들을 생성하는데 단지 10ms만 걸렸다.

  5. very deep network의 문제인 시간 부하를 모든 단계를 다 포함해도 5fps의 성능이 나온답니다. 물론, 속도와 정확도를 버리지 않고도 작동함. (GPU를 사용할 경우)

  6. MS COCO dataset에 대해 결과를 연구하였다.

  7. ILSVRC 와 COCO 2015 대회에서 ImageNet detection, ImageNet localization, COCO detection, 과 COCO segmentation 에서 1등을 했다고 합니다.

  8. deep 해질수록 더 높은 정확성을 가진다고 합니다. [resnet][18]

  9. 본 논문의 첫 논문인 v1 이후로 3D object detection, part-based detection, instance segmentation, image captioning, 그리고 Pinterests 에서 수용하고 사용했다고 합니다.

 결국, "많은 결과를 토대로 Faster R-CNN은 실용적이며, object detection 정확도를 높이는 방법이다" 라고 합니다.

2. Related Work

2-1. Object Proposals

 19, 20, 21 에 object proposal에 대한 포괄적인 survey와 비유가 있다고 합니다. (자기들도 설명이 귀찮았나 봅니다...) 크게 두 가지 경우가 있습니다.

  1. 픽셀들끼리 묶는 SS, CPMC, 그리고 MCG이 있습니다.

  2. 슬라이딩 윈도우 기법을 사용하는 objectness in windowsEdgeBoxes가 있습니다.

    Object Proposal 기법은 SS를 이용한 object detection, R-CNN, 그리고 Fast R-CNN에서 사용되었습니다.

2-2. Deep networks for Object Detection

 R-CNN은 기본적으로 CNN들의 end-to-end로 학습을 하여 배경 또는 사물들인지 RP를 통해 판별합니다. 또한, 기본적으로 classifier로 동작하지 object bound을 예측하지는 않습니다. (물론, bbox 회귀는 제외합니다.)
따라서, RP 모듈에 의해서 성능이 좌지우지됩니다. (참고 문서 : comparisons)

 Overfeat, Deep neural networks for object detection, Scalable object detecton using deep nueral networ, Scalable high-quality object detection 과 같은 논문에서는 deep network를 object bbox에 사용하는 것을 제안합니다.

 Overfeat 기법에서 fully-connected 층은 단일 사물의 위치를 boxing하는 예측을 위해 학습됩니다. 즉, 한 image안에 여러개의 사물이 있을 경우 각 사물마다 bounding box를 생성하는 역활입니다. 또한, 여러 사물을 찾는 convolutional 층을 조정하는데 사용됩니다.

 MultiBox 기법( 위에서 Overfeat를 제외한 논문들 )은 fully-coonected 층을 Overfeat 기법처럼 다수의 사물을 동시에 예측하는 네트워크로 사용하며 RP를 추측합니다. 또한, MultiBox proposal 네트워크는 fully-connected 층을 사용하기 보단 단일 이미지 모음 또는 다중 이미지 모음을 사용합니다. (보통 224x224)
 또, proposal 과 detection 네트워크의 feature를 공유하지는 않습니다.

 ** 아마도, overfeat의 장점과 MultiBox 장점을 다 가진다는 것을 표현하고 싶었던 것 같습니다.**

 convolution들의 계산을 공유하는 Overfeat, SPP, Fast-RCNN, 7, 그리고 semantic segmentation 들은 시각 인식 분야에서 정확도 같은 효율성에 관심을 가졌다. Overfeat 기법은 classfication, localization, 그리고 detection을 위해 이미지 피라미드로 부터 convolutional feature를 계산하였다. SPP의 feature map을 공유하는 adaptively-sized pooling, 30 그리고 semantic segmentation 또한 효과적인 region 기반의 object detection 이다.

밑의 사진은 SPP에 대해 짤막하게 설명한다. 즉, featurn map을 crop과 resize를 통해 detection 하는 것입니다.

 마지막으로 Fast R-CNN은 feature map을 공유하여 end-to-end detector 학습이 가능하며 정확도와 속도가 높다.

3. Faster R-CNN

 Faster R-CNN은 2개의 모듈로 이루어져있습니다. 첫번째 모듈은 PR을 만드는 deep fully convolutional network 이며, 두번째 모듈은 Fast R-CNN detector 처럼 PR을 사용하는 것입니다.

전체 시스템은 밑의 그림 처럼 통합된 네트워크가 단일입니다.

 그 당시 뉴럴 네트워크에서 유명했던 attention 메카니즘을 RPN에서 볼 수 있다.

3-1 에서는 RPN의 구조와 요소 를 소개할 것이며 3-2에서는 feature shared 모듈을 개발하는 알고리즘을 볼 것입니다.

3-1. Region Proposal Networks

 RPN의 입력은 이미지이며 출력은 사물 점수를 포함한 사각형의 object proposal 셋이다. 즉, classifier와 bbox가 된 것입니다. 본 논문에서 fully convolutional 층을 semantic segmentation의 fully convolutional 층처럼 만들었습니다.
또한, 두 네트워크를 같은 convolutional 층들로 사용했는데, 그 이유는 Fast-RCNN처럼 계산을 공유하기 위해서입니다. 실험에서는 ZFVGG-16을 사용했다고 합니다.

 RP을 뽑아내기위해, 최초의 convolutional 층들의 마지막 단에서 작은 네트워크로 분리했습니다. (위의 그림에서 proposals 부분) 이 작은 네트워크는 feature map을 n x n으로 나눈 window를 입력으로 가집니다. 각 슬라이딩 윈도우는 33에서 처럼 더 작은 차원의 feature와 맵핑됩니다. 이 feature은 다시 또 두개의 fully-connected 층들의 입력으로 들어가는데 box-regression layer(reg) 와 box-classification layer(cls)이다. 본 논문에서 n은 3으로 정하여 사용하는데, ZFVGG-16에서 잘 작동하기 떄문이다.

 나눠진 네트워크는 위의 그림처럼 생겼다.
 미니 네트워크는 슬라이딩 윈도우 만듦새를 사용하기 때문에 fully-connected layer들은 모든 부분 위치에서 공유된다. 즉, 위의 사진에서 저 부분에서 나온 feature들이 cls 와 reg에서 공유한다는 뜻이다. 이 구조는 자연스럽게 n x n conv layer를 거쳐 두 개의 1 x 1 conv layer로 구현된다.

3-1-1. Anchors

 각 슬라이딩 윈도우 위치에서 동시에 여러 RP들을 예측할수 있는데 최대 k개 입니다. 따라서 reg 층에서는 k개의 박스들에서 4k개의 박스 요소 출력을 가지며, cls 층에서는 각 proposal에서 사물일 확률과 배경일 확률 총 2k개의 출력을 가집니다. 이 k개의 proposal들은 anchor라고 부르는 k개의 참고 박스를 매겨변수로 가집니다. 앵커는 슬라이딩 윈도우의 중심좌표를 가지며, scale과 aspect ratio와 관련이 있습니다. default 값으로 3개의 scale과 3개의 aspect ratio인데, 각 슬라이디 윈도우마다 k=9개의 앵커를 가지는 것입니다. 보통 feature map은 W x H(~2,400)이므로, 결국 W x H x K의 앵커들을 가집니다. ex) if w = h = 2400, k = 9 ==> 51,840,000‬개의 앵커를 가집니다.

Translation-Invariant Anchors

 짧게 설명한다면 이 앵커라는 개념은 본 논문에서 중요하다고 합니다. Multibox 방법은 k-means를 사용해서 800개의 앵커들을 만들어 낸다고 합니다. 하지만 이 앵커들은 사물이 바뀌면 제대로 작동이 안 된다고 합니다. 즉, 사물 당 800개 정도의 앵커들이 필요하다는 것입니다. 본 논문의 경우 9개의 앵커만 필요합니다. 이것은 모델의 크기를 줄이는 역할을 합니다. 밑의 표를 살펴보면 차이가 많이 납니다.

content Multibox Faster-RCNN
fully-connected output layer size (4+1) x 800 (4+2) x 9

 본 논문에서는 Faster-RCNN에 VGG-16 모델을 사용하고 Multibox에 GoogleNet을 사용했습니다. 음... 같은 모델을 사용했으면 좋을 거 같은데... 따라서 결과적으로

content Multibox(GoogleNet) Faster-RCNN(VGG-16)
parameters 1536 x (4+1) x 800 512 x (4+2) x 9

 따라서... 파라미터가 적어서 PASCAL VOC 같은 작은 데이터 셋에서 오버 피팅이 발생을 줄인다고 합니다.

Multi-Scale Anchors as Regression References

 (a) DPM 이나 CNN 기반은 방법들은 이미지 당 featuremap이 피라미드 형태입니다. 이미지들을 여러 크기로 만들고 그 이미지 마다 feature map들이 존재한다. 따라서 각 이미지 마다 계산을 해줘야 합니다. 이 방법은 유용하지만 시간이 너무 오래 걸립니다.
 (b) feature map에서 많은 크기와 비율의 슬라이딩 윈도우를 사용하는 방법입니다. 예를 들면, DPM에서는 비율이 다른 슬라이딩 윈도우를 사용하는데 5 x 7 그리고 7 x 5를 사용합니다. 이 방법은 (a)보다 성능이 좋아 다른 object detection에서 사용됩니다.

위의 방법들과 비교해서 앵커 피라미드를 사용하는 것이 매우 효과적입니다. cls와 reg에서 앵커 박스들을 참조합니다. 오직 앵커 박스는 단일 크기의 feature map에 적용됩니다. 즉, 1개의 슬라이딩 윈도우당 k개의 앵커 박스가 존재하는 것입니다.
 본 논문에서는 3가지의 크기와 3가지의 비율을 가진 총 9개의 앵커 박스를 사용했습니다. 크기의 경우 128x128, 256x256, 512x512을 사용했으며 비율의 경우 2:1, 1:1, 1:2를 사용했습니다.

따라서, 다양한 크기의 앵커 박스를 사용함으로써 다른 cost(공간이든 시간이든) 없이 특징들을 공유할 수 있습니다.

3-1-2. Loss Function

 RPN의 학습을 진행할 때, 각 앵커에 positive or negative의 라벨을 달아줍니다. positive 라벨에는 두 가지 경우가 있는데

  1. Ground-Truth box와 가장 높은 IoU를 가지는 경우

  2. IoU가 0.7 보다 높은 경우

    이런 경우 한 개의 GT box가 여러개의 앵커에 positive 라벨을 달아줄 수 있습니다. 보통 2번째 조건까지하면 posivive 샘픔가 나오는데 positive 샘플이 없는 특별한 경우가 발생할 수 있습니다. 따라서 밑의 조건을 더 추가합니다.

  3. IoU가 0.3 보다 낮을 경우 negative 라벨을 달아준다.

    마지막으로 0.3<IoU<0.7의 샘플들은 학습 데이터로 사용하지 않습니다.

    이런 방법들로 objective function은 Fast R-CNN의 multi-task loss를 따릅니다. 밑은 이미지당 가지는 손실 함수의 정의입니다.

i : batch 당 앵커의 인덱스.
pi : 앵커 i가 사물로 인식한 확률. (score)
pi*: Ground-Truth 라벨. ( 1: positive, 0: negative)
ti: bbox의 좌표(보통 중앙의 x, y, w, h)
ti*: Ground-Truth의 bbox 좌표
Lcls: classification loss. 사물인지 배경인지(둘 score)
Lreg: Regression loss. 다시 밑의 수식으로 나뉨.
$$
Lreg(ti, ti_) = R(ti - ti_) $$
R: robust한 손실 함수.(smooth L1)
pi*Lreg: positive일 때 작동한다는 뜻.

각각 cls와 reg의 출력은 {pi}, {ti}로 이뤄져 있다. Ncls 와 Nreg에 의해 표준화되며, λ에 의해 균형잡힌 가중치가 나옵니다.
보통 Ncls = 256, Nreg = ~2,400, λ = 10 으로 지정되어 있습니다.

밑의 수식은 bbox regression에서 t들에 대한 정의입니다.

  • x,y,w,h 는 중심의 x,y좌표와 박스의 너비와 높이입니다.

  • 0, 0a, 0* 는 각각 예측한 박스, 앵커 박스, GT 박스 의 값를 뜻합니다.

    따라서 이 수식은 앵커 박스를 통해 GT 박스로 근접해 가는 것으로 볼 수 있습니다.

    그렇지만 Resion of Interst(RoI: 관심 영역) 기반의 방법들인 R-CNN이나 Fast R-CNN과는 다른 방법으로 bbox regression을 얻었다. 기존의 방식들은 임의의 RoI 크기를 사용했으며 모든 region이 같은 regression weight를 사용한다. 보통 3 x 3 크기의 feature map들을 사용한다.

    본 논문은 다양한 크기들에서도 detection 하기 위해 k 개의 bbox regressor를 학습시켰다. 각 regressor은 단일의 크기와 비율을 가지는데 k 개의 regressor은 가중치를 공유하지 않는다. 따라서 앵커들로 구현하여 feature들이 다른 크기나 비율을 가지더라도 detection 할 수 있는 것이다.

3-1-3. Training RPNs

 RPN은 backpropagation 과 Stochastic Gradient Descent(SGD : 확률 경사 하강법) 을 통해 end-to-end 학습이 가능하다. Fast-RCNN과 같이 이미지의 중심으로 샘플링을 한다. 각 mini-batch는 많은 positive 와 negative 앵커가 포함된 이미지가 생기게 합니다. 모든 앵커들을 손실 함수로 최적화가 가능하지만, negative 샘플들로 치우치게 됩니다.
대신에, mini-batch의 손실함수로 사용하기 위해 무작위로 positive 와 negative 샘플들을 1:1 비율로 256개 앵커를 뽑아냅니다. 만약, positive 샘플이 128개(50%)보다 적다면, negative 샘플들로 채웁니다.

 무작위로 모든 layer들을 생성하며 가중치는 0-평균 Gaussian ditribution(표준 편차 0.01)로 초기화 합니다. (물론 RPN에서의 conv layer 입니다.)
 모든 layer들은 ImageNet classification의 pre-training된 데이터로 초기화합니다. ZF net의 모든 층 그리고 conv3_1 와 학습된 VGG net으로 조정합니다.
PASCAL VOC 데이터 셋에서 learning rate로는 0.001 (mini-batch 60k), 0.0001 (mini-batch 20k)으로 사용한다. momentum은 0.9, weight decay는 0.0005를 사용한다. 구현은 Caffe로 함.

3-2. Sharing Features for RPN and Fast R-CNN

 위의 내용까지는 PR을 위한 RPN이였다. 실질적으로 Detection을 하는 부분에서는 Fast-RCNN과 동일하다. 밑의 박스친 부분이 Detection 부분이다.

 RPN과 Fast-RCNN 둘다 독립적으로 훈련되어 각자 다른 방법으로 conv layer들을 수정한다. 따라서 이 두 네트워크가 따로 학습하는 것이 아니라 conv layer들을 공유하게 하기 위해서 밑의 3가지 방법을 소개 합니다.

3-2-1. Alternating Training

 이 방법은 본 논문에서 사용된 방법으로 먼저 RPN을 학습하고 proposal들을 사용해 Fast R-CNN을 학습하는 것입니다. 즉, Fast R-CNN은 RPN으로 초기화된 네트워크를 사용하며 이 단계를 반복하는 것입니다.

3-2-2. Approximate Joint Training

 RPN과 Fast R-CNN 네트워크를 병합하여 위의 사진에서 검은색으로 박스친 부분처럼 하나의 네트워크로 만드는 것입니다. SGD 단계가 반복할 때마다, 순전파 단계에서 PR을 생성할 때 Fast R-CNN detector가 학습하는 것처럼 고치고 미리 계산하는 것입니다. 역전파 단계에서는 RPN과 Fast R-CNN 둘다 손실이 결함된 형태로 역전파가 이루어집니다.
 이 방법은 구현이 쉽지만, proposal 박스들의 좌표 값을 무시하고 근삿값을 사용한다. ( 이 부분은 잘 모르겠습니다..)
이 방법으로 실험해본 결과 alternating training 결과와 거의 근접했지만 학습시간이 25~50% 더 걸린다고 합니다.

3-2-3. No-approximate Joint Training

 RPN으로 예측한 bbox를 함수의 입력으로 사용하는 것입니다. 즉, Fast R-CNN의 RoI pooling layer은 conv feature들을 입력을 받는데, 여기서 예측한 bbox 또한 입력으로 넣습니다. 이 방법은 이론적으로 Approximate Joint Training의 문제를 해결하는 것처럼 보입니다.
 하지만, 이것은 proposal 박스들의 좌표 값을 무시하는 문제를 해결하지 않습니다. 따라서 RoI pooling layer을 preopsal 박스들의 좌표 값을 추출할 수 있게 해야합니다. 이 문제는 사소한 문제인데 RoI warping을 사용하면 됩니다. 이 방법은 15 논문에서 잘 설명하고 있습니다.

3-2-4. 4-Step Alternating Training

 본 논문에서는 Alternating optimization을 통해 4 단계 학습 알고리즘을 사용합니다.

  1. RPN을 먼저 학습한다. ImageNet-pre-trained 모델로 초기화하고 미세 조정을 거친다.

  2. step-1의 RPN에서 만들어낸 proposal들을 사용하여 Fast R-CNN을 학습한다. 물론, Fast R-CNN또한 ImageNet-pre-trained 모델로 초기화한다. 아직까지는 두 네트워크가 conv layer들을 공유하지는 않는다.

  3. detector network를 학습된 RPN으로 초기화 한다. 여기서 conv layer들을 공유할 수 있게 수정하고 오직 RPN의 특별한 layer들만 미세 조정한다. 여기서 두 네트워크가 conv layer들을 공유한다.

  4. 공유하는 conv layer들을 유지하면서 Fast R-CNN의 특별한 layer들만 미세 조정한다. 여기서 두 네트워크는 같은 conv layer들을 공유하고 통합된 네트워크를 형성한다.

    실험 결과로, 위의 단계를 더 많이 반복해도 결과에 영향은 줄만큼은 아니였다고 합니다.

3.3 Implementation Details

 먼저 SPP나 Fast R-CNN 처럼 단일 크기의 이미지를 사용하고 600pixel로 재조정했다고 합니다. 물론, 여러 크기의 이미지를 사용하면 정확도는 올라가지만 그만큼 속도가 더 떨어지기 때문에 손해입니다.

 ZF나 VGG의 경우 마지막 단에서 1/16으로 줄어들며, 일반적인 PASCAL 이미지의 경우 500x375 크기인데 약 10pixel 정도로 줄어든다고 합니다. 그리고 작은 stride를 쓸수록 정확도가 높아진다고 합니다.

앵커의 경우 3개의 크기인 128², 256² 그리고 512² 를 사용하고 비율의 경우 1:1, 1:2, 2:1을 사용합니다. 앵커 파라미터 선택은 그렇게 중요하지 않습니다.
 이미지 경계를 지나가는 앵커 박스는 조심해서 다뤄야 합니다. 학습을 진행하는 동안은, 앵커들끼리 교차 경계가 생기는 것은 무시합니다. 따라서 loss에 영향을 끼치지 않습니다. 일반적으로 1000 x 600 이미지는 약 20000개의 앵커를 가지고 있습니다. 이럴 경우, 이미지당 6000개의 앵커가 훈련에 사용됩니다. 이렇게 되면 학습을 진행하면서 지속적으로 앵커들이 쌓이고 나중에는 활용할 수 없을 정도가 됩니다.
 그러나, 테스트를 하며서 fully convolutional RPN을 전체 이미지에 사용합니다. 이것으로 이미지 경계를 자른 교차 경계 proposal box들이 생깁니다. 몇몇의 RPN preoposal들은 서로 많이 겹쳐있습니다. 많이 겹쳐있는 박스들을 없애기 위해서 non-maximum suppression(NMS)라는 것을 cls을 기준으로 적용시킵니다. NMS의 IoU threshold를 0.7로 고치는데 약 2000개의 PR만 남게 됩니다. 즉, cls score가0.7 이하인 것은 다 지우는 겁니다. NMS 이후에, top-N로 순위가 매겨진 PR을 사용합니다. 이로써 Fast R-CNN 학습에는 2000개의 RPN proposal들이 사용되지만, 실제 테스트 시간에서는 몇 개의 proposal들만 사용됩니다.

Experiments

 실험 결과에 대해서는 따로 언급하지 않겠습니다.

Conclusion

 RPN으로 효과적이고 정확하게 RP를 만들 수 있습니다. detection 네트워크에 conv feature들을 공유하면서 RP 단계가 거의 자유롭게 할 수 있습니다. 본 논문의 방법은 통합되고, 딥 한 object detection을 실시간 시스템을 가능하게 합니다. 즉, RPN으로 RP 질을 높일 수 있으며 이로 인해 전체 object detection 정확도가 올라갑니다.

+ Recent posts