Skip to content

r-cnn-outline

R-CNN

TL;DR

  • R-CNN(Regions with CNN features)은 딥러닝을 객체 탐지에 성공적으로 적용한 선구적인 모델.
  • 선택적 탐색(Selective Search)을 통해 관심 영역을 추출하고, CNN으로 특징을 추출한 후 SVM으로 분류하는 방식을 사용함.

Problem

  • 기존의 객체 탐지 방법들은 hand-crafted 특징에 의존하여 성능에 한계가 있었음.
  • 딥러닝의 장점을 객체 탐지 분야에 효과적으로 적용할 방법이 필요했음.

Contribution

  • CNN을 이용한 특징 추출로 객체 탐지의 성능을 크게 향상시킴.
  • 객체 탐지에 딥러닝을 적용하는 새로운 패러다임을 제시함.
  • 이후 객체 탐지 연구의 기반이 되는 프레임워크를 제공함.

Original Paper


Fast R-CNN

TL;DR

  • Fast R-CNN은 R-CNN의 속도와 정확도를 개선한 모델로, RoI(Region of Interest) pooling을 도입하여 특징 추출 과정을 효율화함.
  • 단일 CNN을 통해 전체 이미지의 특징을 추출하고, 이를 재사용하여 계산 효율성을 높임.

Problem

  • R-CNN은 각 관심 영역마다 CNN을 적용해야 해서 속도가 느리고 학습이 비효율적이었음.
  • 여러 단계(CNN, SVM, Bounding box regression)로 나뉘어 있어 end-to-end 학습이 불가능했음.

Contribution

  • RoI pooling을 도입하여 단일 CNN으로 전체 이미지의 특징을 추출하고 재사용함으로써 속도를 크게 개선함.
  • 다중 작업 손실(multi-task loss)을 사용하여 분류와 바운딩 박스 회귀를 동시에 학습, end-to-end 학습이 가능해짐.
  • R-CNN 대비 훈련 시간은 9배, 테스트 시간은 213배 빨라짐.

Original Paper


Faster R-CNN

TL;DR

  • Faster R-CNN은 Region Proposal Network(RPN)을 도입하여 객체 탐지의 전 과정을 단일 네트워크로 통합한 모델.
  • 실시간에 가까운 객체 탐지를 가능하게 하며, 현대 2-stage 탐지기의 기본이 됨.

Problem

  • Fast R-CNN에서 여전히 병목이었던 영역 제안(region proposal) 단계를 개선할 필요가 있었음.
  • 선택적 탐색(Selective Search)은 CNN 외부에서 수행되어 전체 파이프라인의 속도를 저하시켰음.

Contribution

  • RPN을 도입하여 영역 제안을 네트워크 내부로 통합, 전체 객체 탐지 과정을 단일 네트워크로 구현함.
  • Anchor box 개념을 도입하여 다양한 크기와 비율의 객체를 효과적으로 탐지할 수 있게 함.
  • 거의 실시간(GPU에서 초당 5프레임)으로 작동하는 객체 탐지 시스템을 구현함.

Original Paper


Mask R-CNN

TL;DR

  • Mask R-CNN은 Faster R-CNN을 확장하여 객체 탐지와 함께 인스턴스 세그멘테이션을 수행하는 모델.
  • RoIAlign을 도입하여 특징 맵의 정렬 문제를 해결하고, 픽셀 수준의 정확한 세그멘테이션을 가능하게 함.

Problem

  • 기존의 객체 탐지 모델들은 객체의 정확한 형태를 세그멘테이션하는 데 한계가 있었음.
  • RoI pooling의 양자화로 인한 미세한 공간 정보 손실이 세그멘테이션 정확도를 저하시켰음.

Contribution

  • 객체 탐지와 인스턴스 세그멘테이션을 동시에 수행하는 통합 프레임워크를 제안함.
  • RoIAlign을 도입하여 특징 맵의 정렬 문제를 해결, 픽셀 수준의 정확한 세그멘테이션을 가능하게 함.
  • 다양한 컴퓨터 비전 작업(객체 탐지, 인스턴스 세그멘테이션, 사람 자세 추정 등)에 적용 가능한 유연한 프레임워크를 제공함.

Original Paper