객체 탐지
1. 개요
1. 개요
객체 탐지는 컴퓨터 비전 및 이미지 처리 분야의 핵심 기술로, 디지털 이미지나 비디오 내에서 사람, 자동차, 건물 등과 같은 특정 의미론적 객체 인스턴스를 찾아내고 그 위치를 식별하는 작업을 다룬다. 단순히 이미지 전체를 하나의 범주로 분류하는 이미지 분류와 달리, 객체 탐지는 하나의 장면 안에 존재하는 여러 객체를 동시에 인식하고 각각의 정확한 위치를 바운딩 박스라는 사각형 좌표로 표시한다는 점에서 차이가 있다.
이 기술의 발전은 크게 전통적인 기계 학습 기반 접근법과 딥 러닝 기반 접근법으로 나뉜다. 초기에는 하르 특징을 이용한 비올라-존스 객체 탐지 프레임워크나 경사지향 히스토그램 같은 수작업으로 설계된 특징을 추출하여 서포트 벡터 머신 같은 분류기와 결합하는 방식이 주로 사용되었다.
2010년대 중반 이후 합성곱 신경망의 발전으로 객체 탐지 성능은 비약적으로 향상되었다. 주요 딥 러닝 모델은 처리 방식에 따라 Two-Stage Detector와 One-Stage Detector로 구분된다. R-CNN 계열의 모델은 객체가 있을 만한 영역을 먼저 제안한 후 분류하는 두 단계 방식을 취해 높은 정확도를 보인다. 반면 YOLO나 SSD 같은 단일 단계 탐지기는 영역 제안과 분류를 한 번에 처리하여 실시간 처리에 적합한 빠른 속도를 장점으로 한다.
객체 탐지 기술은 얼굴 검출, 보행자 검출부터 시작하여, 비디오 감시, 자율 주행, 의료 이미지 분석, 영상 복구 등 다양한 분야에서 핵심적으로 응용되고 있다. 이를 통해 컴퓨터 시스템이 주변 환경을 시각적으로 인지하고 이해하는 능력을 갖추게 되었다.
2. 기술 방식
2. 기술 방식
2.1. 기계 학습 기반 접근
2.1. 기계 학습 기반 접근
객체 탐지의 초기 접근 방식은 딥 러닝이 본격적으로 적용되기 전인 2000년대 초반부터 활발히 연구되었다. 이 시기의 방법론은 주로 기계 학습 알고리즘에 의존하며, 탐지할 객체의 시각적 특징을 사람이 직접 설계하고 추출한 다음, 이를 분류기에 입력하는 방식으로 이루어졌다. 이러한 특징 기반의 접근법은 하르 특징을 이용한 비올라-존스 객체 탐지 프레임워크가 대표적이며, 실시간 얼굴 검출에 성공적으로 적용되었다. 이후 경사지향 히스토그램과 척도 불변 특징 변환과 같은 더 정교한 특징 기술자들이 개발되어 보행자 검출 등 다양한 분야에서 활용되었다.
이러한 기계 학습 기반 접근법의 일반적인 파이프라인은 특징 설계, 특징 추출, 그리고 분류의 단계로 구성된다. 먼저 알고리즘이 인식할 수 있도록 객체의 경계, 질감, 형태 등을 수치화한 특징을 정의한다. 다음으로 입력 이미지에서 해당 특징 값을 계산하여 추출한다. 마지막으로 서포트 벡터 머신과 같은 분류기를 사용해 추출된 특징 벡터를 분석하여 객체의 유무 및 종류를 판단한다. 이 방식은 명시적인 특징 설계에 의존하기 때문에 복잡한 배경이나 다양한 형태의 객체를 처리하는 데 한계가 있었으며, 딥 러닝 기반 접근이 등장하며 그 주류 자리를 내주게 되었다.
2.2. 딥 러닝 기반 접근
2.2. 딥 러닝 기반 접근
딥 러닝 기반 접근은 합성곱 신경망(CNN)을 활용하여 객체 탐지 문제를 단대단 학습(end-to-end learning)으로 해결하는 방식을 말한다. 기존 기계 학습 기반 접근이 하르 특징이나 경사지향 히스토그램(HOG)과 같은 수작업 특징을 추출한 후 분류기를 학습시키는 방식이었다면, 딥 러닝 방식은 원본 이미지를 입력받아 네트워크가 자동으로 특징을 학습하고 객체의 위치(바운딩 박스)와 종류(분류)를 동시에 예측한다. 이로 인해 더 복잡한 패턴을 인식할 수 있어 정확도가 크게 향상되었으며, 특히 대규모 데이터셋과 GPU 가속 덕분에 실용화가 가능해졌다.
주요 딥 러닝 기반 객체 탐지 모델은 크게 이단계 탐지기(Two-Stage Detector)와 일단계 탐지기(One-Stage Detector)로 구분된다. 이단계 탐지기인 R-CNN 계열(Fast R-CNN, Faster R-CNN)은 먼저 객체가 있을 만한 영역(영역 제안)을 생성한 후, 해당 영역들을 분류하고 정교화하는 두 단계를 거친다. 반면, 일단계 탐지기인 YOLO와 SSD(Single Shot MultiBox Detector)는 영역 제안 단계를 생략하고 이미지 전체를 한 번만 처리하여 속도가 매우 빠르다는 장점이 있다. 이 외에도 Retina-Net, RefineDet, Deformable Convolutional Networks 등 다양한 모델이 제안되어 정확도와 속도의 균형을 개선하고 있다.
3. 주요 모델 및 알고리즘
3. 주요 모델 및 알고리즘
3.1. Two-Stage Detector (R-CNN 계열)
3.1. Two-Stage Detector (R-CNN 계열)
Two-Stage Detector는 객체 탐지 모델의 주요 접근 방식 중 하나로, 객체의 위치를 제안하는 단계와 해당 제안 영역을 분류 및 정교화하는 단계로 구성된다. 이 방식은 주로 R-CNN 계열의 모델들로 대표되며, Faster R-CNN이 그 정점에 해당하는 모델로 평가받는다. 이들의 핵심 아이디어는 객체가 있을 만한 영역(Region Proposal)을 먼저 추출한 후, 그 영역들에 대해 합성곱 신경망을 적용하여 객체의 종류와 정확한 위치를 결정하는 것이다.
초기 모델인 R-CNN은 선택적 검색 같은 전통적인 알고리즘으로 영역을 제안하고, 각 영역을 독립적으로 CNN에 통과시켜 특징을 추출한 뒤 서포트 벡터 머신으로 분류했다. 이는 계산 비용이 매우 높고 속도가 느리다는 단점이 있었다. 이를 개선한 Fast R-CNN은 전체 이미지에 대해 한 번만 CNN을 실행하여 특징 맵을 생성하고, 제안된 영역에 대해 RoI 풀링 기법을 적용해 고정된 크기의 특징 벡터를 추출함으로써 속도와 정확도를 크게 향상시켰다.
최종적으로 Faster R-CNN은 영역 제안 작업 자체를 신경망, 즉 영역 제안 네트워크로 대체하여 전체 파이프라인을 End-to-End 학습이 가능하게 만들었다. 이로 인해 정확도와 속도가 모두 크게 개선되었으며, 객체 탐지 분야의 중요한 이정표가 되었다. Two-Stage Detector는 일반적으로 높은 정확도를 보장하지만, 상대적으로 계산 복잡도가 높아 실시간 처리가 요구되는 응용 분야에는 YOLO나 SSD 같은 One-Stage Detector가 더 적합할 수 있다.
3.2. One-Stage Detector (YOLO, SSD)
3.2. One-Stage Detector (YOLO, SSD)
One-Stage Detector는 객체 탐지에서 영역 제안과 분류를 하나의 단일 신경망에서 동시에 수행하는 접근 방식이다. 이 방식은 Two-Stage Detector에 비해 처리 속도가 매우 빠르다는 장점이 있어 실시간 객체 탐지가 필요한 응용 분야에서 널리 사용된다. 대표적인 모델로는 YOLO와 SSD가 있다.
YOLO는 'You Only Look Once'의 약자로, 입력 이미지를 SxS 그리드로 나누고 각 그리드 셀이 바운딩 박스의 좌표, 객체 존재 확률, 그리고 클래스 확률을 직접 예측한다. 이 단일 패스 방식은 매우 높은 추론 속도를 가능하게 하여 실시간 처리가 핵심인 자율 주행이나 비디오 감시 시스템에 적합하다. YOLO는 v1부터 시작해 v3, v4, v8 등 지속적으로 개선되어 정확도와 속도의 균형을 끌어올렸다.
SSD는 'Single Shot MultiBox Detector'의 약자로, YOLO와 마찬가지로 단일 신경망을 사용하지만, 네트워크의 다양한 깊이에서 추출된 여러 크기의 특성 맵을 활용한다는 점이 특징이다. 이는 서로 다른 이미지 스케일에서 객체를 탐지할 수 있게 하여, 특히 작은 객체에 대한 탐지 성능을 향상시킨다. SSD는 컨볼루션 신경망 백본과 여러 예측 컨볼루션 레이어로 구성되어 효율적이다.
이러한 One-Stage Detector들은 높은 속도로 인해 모바일 컴퓨팅 및 임베디드 시스템 환경에서도 활용되지만, 일반적으로 Two-Stage Detector보다 정확도가 다소 낮을 수 있다는 점이 과제로 지적된다. 그러나 포컬 로스와 같은 고급 손실 함수의 도입 및 네트워크 구조의 지속적 진화를 통해 그 격차는 점차 줄어들고 있다.
3.3. 기타 주요 모델
3.3. 기타 주요 모델
R-CNN 계열의 Two-Stage Detector와 YOLO, SSD와 같은 One-Stage Detector 외에도 객체 탐지 분야에는 다양한 접근법을 가진 주요 모델들이 존재한다. RetinaNet은 One-Stage Detector가 Two-Stage Detector에 비해 정확도가 낮은 원인 중 하나인 전경과 배경 클래스 간의 극심한 불균형 문제를 해결하기 위해 제안되었다. 이 모델은 배경과 쉽게 구분되는 객체에 대한 손실 가중치를 낮추고, 어려운 샘플에 대한 가중치는 높이는 Focal Loss라는 새로운 손실 함수를 도입하여 높은 정확도와 빠른 속도를 동시에 달성했다.
또 다른 중요한 모델로는 트랜스포머 아키텍처를 객체 탐지에 최초로 적용한 DETR이 있다. 기존 방식과 달리 DETR은 NMS나 앵커 박스와 같은 수작업 설계 요소를 제거하고, 인코더-디코더 구조와 이분 매칭 손실 함수를 사용해 End-to-End 방식으로 학습한다. 이를 통해 객체 탐지 파이프라인을 단순화하고 글로벌 컨텍스트 정보를 효과적으로 활용할 수 있게 되었다.
이외에도 Deformable Convolutional Networks는 표준 합성곱 연산의 고정된 기하학적 구조를 학습 가능한 변형 가능한 샘플링 위치로 대체하여 객체의 다양한 형태와 크기에 더욱 유연하게 대응하는 구조를 제안했다. Mask R-CNN은 객체 탐지에 인스턴스 분할 기능을 추가한 모델로, 각 객체에 대한 정확한 픽셀 단위 마스크를 생성함으로써 객체의 경계를 더 정밀하게 파악할 수 있게 했다.
4. 핵심 개념
4. 핵심 개념
4.1. 바운딩 박스
4.1. 바운딩 박스
바운딩 박스는 객체 탐지 모델이 이미지나 비디오 내에서 특정 객체의 위치를 정확히 표시하기 위해 사용하는 사각형 영역이다. 이는 객체의 공간적 위치를 수치화하여 모델이 학습하고 추론하는 데 핵심적인 역할을 한다. 일반적으로 바운딩 박스는 이미지 좌표계에서 객체를 둘러싸는 최소의 직사각형으로 정의되며, 그 좌표는 (x_min, y_min, x_max, y_max) 형식으로 표현된다. 여기서 x_min과 y_min은 사각형의 왼쪽 상단 좌표를, x_max와 y_max는 오른쪽 하단 좌표를 나타낸다.
바운딩 박스의 좌표는 절대 픽셀 값으로 직접 표기될 수도 있지만, 모델 학습의 효율성을 위해 이미지의 너비와 높이로 정규화하여 0과 1 사이의 상대적 값으로 변환하는 것이 일반적이다. 이 정규화 과정은 다양한 크기의 이미지를 일관되게 처리하고, 경사 하강법 기반의 최적화를 안정화하는 데 도움을 준다. 바운딩 박스 정보는 COCO나 PASCAL VOC와 같은 주요 객체 탐지 데이터셋에 필수적인 어노테이션으로 포함되어 있다.
객체 탐지 모델의 성능을 평가할 때는 예측된 바운딩 박스와 실제 정답 박스(그라운드 트루스) 간의 일치도를 정량화하는 지표가 필요하다. 가장 널리 사용되는 지표는 교집합 합집합 비율(IoU)이다. IoU는 두 박스가 겹치는 영역의 넓이를 두 박스를 합친 전체 영역의 넓이로 나눈 값으로 계산된다. 일반적으로 IoU 값이 0.5 이상이면 올바른 탐지로 간주하며, 이 임계값을 기준으로 정밀도와 재현율을 계산하여 모델의 성능을 종합적으로 평가한다.
4.2. 데이터셋 (예: COCO)
4.2. 데이터셋 (예: COCO)
객체 탐지 모델의 개발과 성능 평가를 위해서는 대규모의 정확하게 주석 처리된 이미지 데이터셋이 필수적이다. 이러한 데이터셋은 모델이 다양한 객체, 배경, 조명 조건에서 일반화 능력을 학습하는 데 기반이 된다. 대표적인 공개 데이터셋으로는 PASCAL VOC, ImageNet, COCO 등이 있으며, 각각은 객체 탐지 연구의 발전 단계를 이끌었다.
COCO(Common Objects in Context) 데이터셋은 특히 객체 탐지 분야에서 사실상의 표준 벤치마크로 자리 잡았다. 이 데이터셋은 80개의 일상적인 객체 카테고리에 대해 약 33만 장의 이미지와 250만 개 이상의 객체 인스턴스에 대한 정밀한 주석(바운딩 박스 및 세그멘테이션 마스크)을 포함하고 있다. COCO의 특징은 객체가 자연스러운 맥락(context) 속에 등장하며, 작은 객체와 밀집된 객체가 많아 모델의 성능을 엄격하게 평가할 수 있다는 점이다. 이 데이터셋을 기반으로 한 평가 지표인 mAP(mean Average Precision)는 탐지 정확도를 종합적으로 측정하는 핵심 기준이 되었다.
이외에도 특정 분야에 특화된 데이터셋들이 활발히 구축되고 있다. 예를 들어, 자율 주행을 위한 KITTI 데이터셋은 도로 환경의 객체를, 의료 영상 분석을 위한 데이터셋들은 X선이나 MRI 영상에서의 병변을 탐지하는 데 사용된다. 고품질 데이터셋의 가용성은 객체 탐지 기술이 보안, 소매, 제조업 등 다양한 산업 분야로 확장 적용되는 데 중요한 토대를 제공한다.
5. 응용 분야
5. 응용 분야
5.1. 보안 및 감시
5.1. 보안 및 감시
객체 탐지 기술은 보안 및 감시 분야에서 핵심적인 역할을 수행한다. 실시간으로 CCTV 영상을 분석하여 이상 행동이나 위험 상황을 자동으로 감지하고 경보를 발생시키는 데 활용된다. 예를 들어, 특정 구역에 무단 침입자가 감지되거나, 방치된 짐이나 유기된 차량을 식별할 때 객체 탐지 시스템이 작동한다. 또한 군사 시설이나 국가 중요 시설의 경계를 모니터링하여 보안을 강화하는 데에도 필수적이다.
이 기술은 얼굴 검출과 보행자 검출 같은 특정 객체를 식별하는 데 특화되어 있다. 공항이나 역 같은 다중 이용 시설에서는 실시간으로 군중을 모니터링하여 과도한 밀집이나 비정상적인 움직임을 탐지하는 데 사용된다. 또한 스마트 시티 프로젝트의 일환으로 도시 전역에 설치된 카메라 네트워크를 통해 교통 흐름 분석, 사고 감지, 범죄 예방 활동을 지원한다.
객체 탐지 모델의 진화는 감시 시스템의 효율성을 크게 높였다. 초기의 하르 특징 기반 방법론에서 딥 러닝 기반의 YOLO나 SSD 같은 One-Stage Detector로 발전함에 따라 처리 속도와 정확도가 향상되어 대규모 영상 데이터를 실시간으로 분석하는 것이 가능해졌다. 이는 인력에 의존하던 기존 감시 업무를 자동화하고, 보다 신속한 대응을 가능하게 하는 기반이 되었다.
5.2. 자율 주행
5.2. 자율 주행
객체 탐지 기술은 자율 주행 시스템의 핵심 구성 요소이다. 자율 주행 차량은 카메라, 라이다, 레이더 등의 센서를 통해 주변 환경을 인지하는데, 이때 수집된 영상 데이터에서 차량, 보행자, 자전거, 교통 표지판 등 다양한 객체를 실시간으로 탐지하고 분류하는 데 객체 탐지 기술이 활용된다. 이를 통해 차량은 주변 상황을 이해하고, 충돌을 방지하며, 안전한 경로를 계획할 수 있다.
자율 주행을 위한 객체 탐지는 특히 높은 정확도와 빠른 처리 속도를 동시에 요구한다. YOLO나 SSD와 같은 원스테이지 디텍터 모델은 실시간 처리가 가능한 빠른 추론 속도로 인해 자율 주행 분야에서 널리 연구 및 적용되고 있다. 반면, Faster R-CNN과 같은 투스테이지 디텍터는 상대적으로 높은 정확도를 제공하여 정밀한 탐지가 필요한 상황에서 사용된다. 이러한 모델들은 COCO나 KITTI와 같은 대규모 주행 데이터셋으로 학습되어 다양한 도로 환경과 조건에서 견고한 성능을 발휘할 수 있도록 한다.
객체 탐지 기술의 발전은 자율 주행의 상용화를 가속화하는 데 기여하고 있다. 탐지 모델의 정확도 향상과 함께 센서 퓨전 기술과 결합되어 더욱 신뢰할 수 있는 환경 인지 시스템을 구축하는 데 일조한다. 또한, 엣지 컴퓨팅 장치의 성능 향상으로 차량 내에서도 고성능의 실시간 객체 탐지가 가능해지면서, 완전 자율 주행을 위한 기술적 토대를 마련하고 있다.
5.3. 의료 이미지 분석
5.3. 의료 이미지 분석
객체 탐지 기술은 의료 영상 분석 분야에서 중요한 역할을 수행한다. 방사선학과 병리학 등에서 생성되는 엑스레이, 컴퓨터 단층 촬영, 자기 공명 영상, 현미경 이미지와 같은 다양한 의료 영상 데이터에서 병변이나 특정 구조물을 자동으로 탐지하고 위치를 파악하는 데 활용된다. 이를 통해 의료진의 진단 업무를 보조하고, 일관성 있는 분석을 제공하며, 초기 발견 가능성을 높일 수 있다.
의료 이미지 분석에서 객체 탐지는 주로 종양 탐지, 골절 식별, 혈관 이상 탐지, 치아 문제 진단 등에 적용된다. 예를 들어, 유방촬영술 이미지에서 미세석회화 클러스터를 탐지하거나 폐 CT 스캔에서 폐결절을 찾는 작업이 대표적이다. 이러한 기술은 대량의 영상 데이터를 빠르게 선별하고, 인간의 눈으로는 놓치기 쉬운 미세한 변화를 강조하여 보여줄 수 있다.
의료 분야에 객체 탐지를 적용할 때는 높은 정확도와 신뢰성이 요구되므로, Faster R-CNN이나 RetinaNet과 같이 정밀도가 높은 모델이 선호되는 경향이 있다. 또한, 의료 데이터의 특성상 데이터 불균형 문제와 개인정보 보호 문제를 해결하기 위한 전처리와 전이 학습 기법이 중요하게 다루어진다. 궁극적으로 이 기술은 보조 진단 시스템의 핵심 구성 요소로 통합되어 의료 서비스의 질과 효율성을 향상시키는 데 기여한다.
5.4. 소매 및 산업
5.4. 소매 및 산업
객체 탐지 기술은 소매 및 산업 분야에서 생산성 향상과 비용 절감을 위한 핵심 도구로 활용된다. 소매업에서는 매장 내 고객 행동 분석, 재고 관리, 무인 결제 시스템 등에 적용된다. 예를 들어, 카메라와 객체 탐지 모델을 결합하여 매장 내 고객의 이동 경로를 분석하거나, 진열대의 상품 재고를 실시간으로 파악하여 자동으로 보충을 알리는 시스템을 구축할 수 있다. 또한, 셀프 체크아웃 시스템에서 상품을 자동으로 인식하여 계산하는 데에도 사용된다.
산업 현장에서는 품질 관리와 안전 관리 분야에서 두각을 나타낸다. 제조 라인에서 컨베이어 벨트를 이동하는 제품의 결함을 실시간으로 탐지하는 자동화된 검사 시스템은 인간 검수원에 비해 일관성 있고 빠른 검사를 가능하게 한다. 또한, 작업자 안전을 위해 보호구 착용 여부를 확인하거나, 위험 지역에 무단 접근하는 인원을 감지하는 데에도 활용된다. 이를 통해 산업 재해를 예방하고 작업 환경의 안전성을 높일 수 있다.
이러한 응용은 주로 실시간 처리가 가능한 YOLO나 SSD와 같은 원스테이지 디텍터 모델을 기반으로 한다. 빠른 처리 속도가 요구되는 환경에서 효율적으로 작동하며, 에지 컴퓨팅 장치에 탑재되어 현장에서 즉각적인 판단을 내릴 수 있도록 지원한다. 결과적으로 객체 탐지는 소매 및 산업의 디지털 전환을 가속화하는 중요한 기술로 자리 잡았다.
6. 관련 기술
6. 관련 기술
6.1. 객체 인식
6.1. 객체 인식
객체 인식은 컴퓨터 비전의 핵심 과제 중 하나로, 디지털 이미지나 비디오 속에서 사전에 정의된 범주에 속하는 시맨틱 객체의 존재를 판단하고 식별하는 기술을 포괄한다. 이는 단순히 객체의 존재 여부를 판단하는 객체 탐지를 넘어, 해당 객체가 정확히 어떤 클래스에 속하는지까지 분류하는 고수준의 인지 과정을 포함한다. 역사적으로 얼굴 검출과 보행자 검출은 객체 인식 기술이 집중적으로 연구된 대표적인 분야이다.
객체 인식을 구현하는 주요 접근 방식은 기계 학습 기반 방법과 딥 러닝 기반 방법으로 나뉜다. 초기 기계 학습 방식은 하르 특징을 사용하는 비올라-존스 객체탐지 프레임워크, 경사지향 히스토그램, 척도 불변 특징 변환과 같은 수작업으로 설계된 특징을 추출한 후, 서포트 벡터 머신 같은 분류 알고리즘을 적용했다. 반면, 현대의 딥 러닝 방식은 합성곱 신경망을 기반으로 특징 추출과 분류를 단대단으로 통합 학습하여 훨씬 높은 성능을 달성한다.
객체 인식 기술은 영상 복구부터 비디오 감시 시스템에 이르기까지 다양한 컴퓨터 비전 응용 분야의 기반이 된다. 또한, 이 기술은 객체 탐지 및 이미지 분할과 같은 인접 과제와 밀접한 연관성을 가지며, 종종 이러한 과제들을 구성하는 핵심 모듈로 활용된다.
6.2. 이미지 분할
6.2. 이미지 분할
이미지 분할은 디지털 이미지를 여러 개의 의미 있는 영역이나 픽셀 집합으로 나누는 컴퓨터 비전 기술이다. 객체 탐지가 바운딩 박스를 사용해 객체의 대략적인 위치와 범주를 식별하는 것과 달리, 이미지 분할은 픽셀 수준에서 각 픽셀이 속하는 객체나 배경을 정확하게 구분한다. 이는 특히 객체의 정확한 형태와 경계를 파악해야 하는 응용 분야에서 중요하다.
이미지 분할은 주로 시맨틱 분할과 인스턴스 분할로 구분된다. 시맨틱 분할은 동일한 의미 범주의 모든 픽셀을 동일한 레이블로 분류하여(예: 모든 '사람' 픽셀을 하나의 영역으로), '무엇이 있는가'에 초점을 맞춘다. 반면 인스턴스 분할은 동일한 범주 내에서도 개별 객체 인스턴스를 구별하여(예: 여러 명의 '사람'을 각각 별도의 영역으로), '어떤 개별 객체가 있는가'까지 식별한다. 마스크 R-CNN은 객체 탐지와 인스턴스 분할을 결합한 대표적인 모델이다.
이 기술은 의료 이미지 분석에서 종양이나 장기의 정확한 경계를 추출하거나, 자율 주행에서 도로, 보행자, 차량 등을 정밀하게 인식하는 데 필수적이다. 또한 위성 영상 분석, 비디오 편집, 증강 현실 등 다양한 분야에서 활용된다.
