문서의 각 단락이 어느 리비전에서 마지막으로 수정되었는지 확인할 수 있습니다. 왼쪽의 정보 칩을 통해 작성자와 수정 시점을 파악하세요.

세그멘테이션 | |
한국어 명칭 | 세그멘테이션 |
영문 명칭 | Image Segmentation |
분류 | |
핵심 목표 | 이미지의 각 픽셀을 의미 있는 객체나 영역 단위로 분할 |
주요 접근법 | 풀 컨볼루션 네트워크(FCN), U-Net, Mask R-CNN |
출현 배경 | |
기술 상세 | |
세부 분류 | |
주요 데이터셋 | |
평가 지표 | 평균 픽셀 정확도(Pixel Accuracy), 평균 IoU(Mean Intersection over Union) |
활용 분야 | 의료 영상 분석, 자율 주행, 위성 영상 분석, 증강 현실 |
주요 모델 아키텍처 | Encoder-Decoder 구조, Atrous Convolution(Dilated Convolution) 활용 |
학습 방식 | 지도 학습 (픽셀 단위 정답 레이블 필요) |
과제 | 고해상도 이미지 처리, 실시간 처리, 데이터 부족 문제 |
관련 개념 | 객체 탐지(Object Detection), 포인트 클라우드 세그멘테이션 |

세그멘테이션은 컴퓨터 비전과 딥러닝에서 이미지의 각 픽셀이 어떤 객체나 영역에 속하는지 분류하는 작업이다. 이는 이미지 전체를 하나의 레이블로 분류하는 이미지 분류와 달리, 픽셀 수준에서 더 세밀한 이해를 제공한다. 세그멘테이션의 결과는 일반적으로 동일한 의미를 가진 픽셀들을 동일한 색상이나 레이블로 표시한 세그멘테이션 마스크이다.
이 기술은 크게 시맨틱 세그멘테이션과 인스턴스 세그멘테이션으로 구분된다. 시맨틱 세그멘테이션은 픽셀을 의미론적 범주(예: 사람, 자동차, 도로)에 따라 분할하지만, 동일한 범주에 속하는 여러 객체는 구분하지 않는다. 반면, 인스턴스 세그멘테이션은 동일한 범주 내에서도 각각의 개별 객체를 식별하여 분리한다[1]. 이 두 가지를 결합한 파노픽 세그멘테이션도 존재한다.
세그멘테이션은 합성곱 신경망의 발전, 특히 전합성곱 네트워크 아키텍처의 등장으로 본격적인 성과를 보이기 시작했다. 이후 U-Net, Mask R-CNN, DeepLab과 같은 전문화된 모델들이 다양한 분야에서 높은 정확도를 달성하며 핵심 기술로 자리 잡았다.
구분 | 설명 | 주요 목표 |
|---|---|---|
이미지 분류 | 이미지 전체가 나타내는 주제나 객체를 식별한다. | "이 이미지에 고양이가 있는가?" |
객체 탐지 | 이미지 내 객체의 위치를 바운딩 박스로 찾고 분류한다. | "고양이가 이미지의 어디에 있는가?" (사각형 영역) |
세그멘테이션 | 이미지의 모든 픽셀을 의미 있는 범주나 개별 객체로 분할한다. | "고양이의 정확한 모양과 경계는 어떻게 되는가?" (픽셀 단위) |
이 표에서 알 수 있듯, 세그멘테이션은 객체의 정확한 형태와 경계를 파악해야 하므로 더 복잡하고 계산 비용이 높은 작업이다. 그러나 이를 통해 얻은 정밀한 정보는 의료 영상 분석, 자율 주행, 로봇 비전, 위성 이미지 분석 등 수많은 실용적인 분야에 필수적으로 적용된다.

세그멘테이션은 컴퓨터 비전과 딥러닝에서 이미지의 각 픽셀에 대해 의미 있는 레이블이나 카테고리를 할당하는 작업이다. 이는 이미지 전체를 하나의 클래스로 분류하는 이미지 분류와 달리, 이미지 내의 객체 경계를 픽셀 수준에서 정밀하게 구분한다. 세그멘테이션의 핵심 목표는 시각적 장면을 이해 가능한 구성 요소로 분해하여, 객체의 형태, 위치, 경계를 정확히 파악하는 것이다.
주요 세그멘테이션 유형은 다음과 같다.
유형 | 설명 | 출력 예시 |
|---|---|---|
시맨틱 세그멘테이션 | 각 픽셀을 의미론적 클래스(예: 사람, 자동차, 도로)로 분류한다. 동일한 클래스에 속하는 모든 객체는 동일한 레이블로 구분된다. | 도로 이미지에서 모든 '차량' 픽셀은 같은 색상으로 표시된다. |
인스턴스 세그멘테이션 | 각 픽셀을 클래스와 더불어 개별 객체 인스턴스까지 구분한다. 동일한 클래스 내에서도 서로 다른 객체는 별도의 레이블을 가진다. | 도로 이미지에서 각각의 차량이 서로 다른 색상으로 구분되어 표시된다. |
팬옵틱 세그멘테이션 | 시맨틱 세그멘테이션과 인스턴스 세그멘테이션을 통합한 방식으로, 배경 영역은 시맨틱하게, 객체 영역은 인스턴스 단위로 동시에 분할한다. |
이러한 작업은 합성곱 신경망을 기반으로 수행되며, 네트워크는 입력 이미지의 공간적 정보를 보존하면서 픽셀 단위 예측을 생성한다. 초기 합성곱과 풀링 연산을 통해 특징을 추출한 후, 전치 합성곱이나 업샘플링 기법을 사용하여 원본 이미지 크기로 해상도를 복원하는 것이 일반적인 접근법이다.
세그멘테이션의 가장 기본적인 형태는 픽셀 단위 분할이다. 이는 입력 이미지의 모든 픽셀에 대해 특정 클래스 레이블을 할당하는 작업이다. 예를 들어, 도시 풍경 이미지에서 각 픽셀을 '도로', '보행자', '자동차', '건물', '하늘' 등으로 분류하는 것이다. 이 과정은 이미지를 의미 있는 영역으로 나누어 객체의 형태와 경계를 정확하게 파악하는 것을 목표로 한다.
전통적인 컴퓨터 비전 방법은 경계선 감지나 영역 성장 알고리즘을 사용했지만, 딥러닝 특히 합성곱 신경망(CNN)의 등장 이후 정확도가 비약적으로 향상되었다. 완전 합성곱 네트워크(FCN)는 이 분야의 선구적 모델로, 이미지 분류를 위한 CNN의 완전 연결 층을 합성곱 층으로 대체하여 임의 크기의 입력에 대해 픽셀 단위 예측 맵을 생성할 수 있게 했다.
픽셀 단위 분할의 출력은 일반적으로 입력 이미지와 동일한 해상도를 가진 세그멘테이션 맵이다. 이 맵은 각 픽셀 위치에 해당하는 클래스 인덱스나 원-핫 인코딩 벡터로 구성된다. 학습을 위해서는 모든 픽셀에 정답 레이블이 부여된 데이터셋이 필요하며, 이는 데이터 준비 비용이 매우 높은 작업이다.
특징 | 설명 |
|---|---|
입력 | RGB 이미지 또는 다른 형태의 영상 데이터 |
출력 | 픽셀별 클래스 레이블 맵 |
주요 도전 과제 | 객체 경계의 정밀도, 클래스 불균형, 계산 비용 |
핵심 기술 | 인코더-디코더 구조, 스킵 연결, 합성곱 연산 |
이 방식은 시맨틱 세그멘테이션의 핵심을 이루며, 같은 클래스에 속하는 모든 객체를 구분 없이 동일한 레이블로 처리한다는 점에서 인스턴스 세그멘테이션과 구별된다.
인스턴스 세그멘테이션과 시맨틱 세그멘테이션은 이미지 세그멘테이션의 두 가지 핵심 하위 과제이다. 둘 다 입력 이미지의 각 픽셀에 레이블을 할당하는 것을 목표로 하지만, 그 세분화 수준과 목적에서 근본적인 차이를 보인다.
시맨틱 세그멘테이션은 픽셀 단위로 의미론적 클래스를 분류한다. 즉, 같은 종류에 속하는 모든 객체를 구분 없이 하나의 영역으로 묶어 식별한다. 예를 들어, 거리에 있는 여러 대의 자동차를 모두 '자동차'라는 동일한 색상 영역으로 표시한다. 반면, 인스턴스 세그멘테이션은 시맨틱 세그멘테이션의 한 단계 더 나아간 형태로, 같은 클래스에 속하는 개별 객체 인스턴스까지 구분한다. 앞선 예시에서 각 자동차마다 서로 다른 색상이나 ID를 부여하여 별개의 객체로 분리해낸다.
이를 구분하는 핵심은 객체의 구별 가능성이다. 시맨틱 세그멘테이션은 '무엇인가(What)'에 초점을 맞춘다면, 인스턴스 세그멘테이션은 '무엇이며 몇 번째 것인가(Which one)'까지 식별한다. 따라서 인스턴스 세그멘테이션은 일반적으로 더 복잡한 과제로 간주되며, 객체 탐지(Object Detection)와 픽셀 단위 마스킹을 결합한 방식으로 접근한다. 대표적인 모델로는 Mask R-CNN이 있다.
아래 표는 두 방법의 주요 차이점을 요약한다.
구분 | 시맨틱 세그멘테이션 | 인스턴스 세그멘테이션 |
|---|---|---|
주요 목표 | 픽셀의 의미론적 클래스 분류 | 개별 객체 인스턴스 식별 및 분할 |
출력 특성 | 클래스별 영역 (동일 클래스는 병합) | 객체별 영역 (동일 클래스도 분리) |
적용 예시 | 풍경 이미지에서 하늘, 도로, 건물 영역 분할 | 군중 속에서 각 사람의 실루엣을 따로 분할 |
대표 모델 | Mask R-CNN, YOLACT, SOLO |

FCN (Fully Convolutional Networks)은 컨볼루션 신경망 기반 이미지 분류 모델의 완전 연결층을 컨볼루션 층으로 대체하여, 임의의 크기 입력에 대해 픽셀 단위 예측을 가능하게 한 선구적 아키텍처이다. 네트워크 말단의 풀링과 스트라이드 컨볼루션으로 인해 저해상도로 된 특징 맵을 업샘플링하기 위해 트랜스포지드 컨볼루션(또는 디컨볼루션)을 사용한다. 이는 시맨틱 세그멘테이션의 기본 프레임워크를 정립했다.
의료 영상 분석 분야에서 널리 채택된 U-Net은 대칭적인 U자형 인코더-디코더 구조를 가진다. 인코더를 통해 공간 정보를 압축하고 의미적 정보를 추출한 후, 디코더에서 이를 점진적으로 업샘플링하여 세부적인 공간 정보를 복원한다. 핵심 특징은 인코더의 각 단계에서 추출된 고해상도 특징 맵을 디코더의 대응 단계에 스킵 커넥션으로 결합하는 것이다. 이는 정교한 경계 복원에 매우 효과적이다.
모델 | 주요 특징 | 주요 적용 분야 |
|---|---|---|
완전 컨볼루션 구조, 트랜스포지드 컨볼루션 | 일반적 시맨틱 세그멘테이션 | |
대칭적 인코더-디코더, 스킵 커넥션 | ||
Faster R-CNN 확장, 병렬 마스크 분기 | ||
DeepLab v3+ | Atrous 컨볼루션, ASPP, 인코더-디코더 | 실시간성 요구 세그멘테이션 |
인스턴스 세그멘테이션을 위해 설계된 Mask R-CNN은 객체 탐지 모델인 Faster R-CNN을 확장한 2단계 프레임워크이다. 첫 번째 단계에서 후보 영역을 제안하고, 두 번째 단계에서 각 영역에 대해 병렬적으로 바운딩 박스 회귀, 객체 분류, 이진 마스크 예측을 수행한다. 마스크 예측을 위한 작은 FCN이 각 RoI (Region of Interest)에 적용되어 정밀한 객체 형태를 추출한다.
DeepLab 시리즈는 Atrous 컨볼루션(확장 컨볼루션)과 Atrous Spatial Pyramid Pooling (ASPP)를 핵심으로 하는 모델이다. Atrous 컨볼루션은 필터의 수용 영역을 넓히면서도 해상도를 유지할 수 있어, 컨텍스트 정보를 풍부하게 포착한다. 최신 버전인 DeepLab v3+는 인코더-디코더 구조를 도입하여 객체 경계를 더욱 선명하게 만든다.
FCN은 컨볼루션 신경망을 기반으로 하여, 이미지 분류를 위한 네트워크를 이미지 세그멘테이션 작업에 적용할 수 있도록 변형한 선구적인 모델 아키텍처이다. 기존 CNN은 입력 이미지를 처리한 후 최종적으로 완전 연결층을 통해 고정된 길이의 클래스 확률 벡터를 출력하는 반면, FCN은 네트워크 내 모든 완전 연결층을 1x1 컨볼루션층으로 대체한다. 이 변환을 통해 네트워크는 임의의 크기를 가진 입력 이미지를 받아들여, 공간 차원을 보존한 채로 동일한 크기의 출력 맵을 생성할 수 있게 된다. 이 출력 맵은 각 픽셀 위치에 대한 클래스 예측을 담고 있으며, 이를 통해 픽셀 단위 분할이 가능해진다.
FCN의 핵심 구조는 컨볼루션과 업샘플링의 조합이다. 네트워크의 전방향 경로(인코더)에서는 여러 단계의 컨볼루션과 풀링 연산을 거치며 특징 맵의 공간 해상도는 감소하고 의미적 정보는 응축된다. 이후, 이 저해상도 특징 맵을 원본 입력 크기로 복원하기 위해 전치 컨볼루션 또는 양선형 보간법과 같은 업샘플링 기법을 사용한다. 특히 FCN은 다양한 풀링 단계에서 얻은 중간 단계의 특징 맵을 업샘플링된 출력과 결합하는 스킵 연결 구조를 도입했다. 예를 들어, FCN-32s, FCN-16s, FCN-8s와 같은 변형은 각각 32배, 16배, 8배로 업샘플링하기 전에 풀링층의 출력을 결합하여 세부적인 공간 정보를 복원하는 데 기여한다.
FCN의 등장은 딥러닝 기반 시맨틱 세그멘테이션 분야의 중요한 전환점이 되었다. 이전의 패치 기반 분류 방식과 달리, 네트워크가 한 번의 순전파로 전체 이미지에 대한 밀집 예측을 수행하기 때문에 효율성이 크게 향상되었다. FCN의 설계 원칙, 즉 완전 컨볼루션 구조와 스킵 연결은 이후 등장한 U-Net, DeepLab 등 수많은 세그멘테이션 모델 아키텍처의 기본 토대를 제공했다.
U-Net은 2015년 올라프 론버거(Olaf Ronneberger) 등이 의료 영상 분할을 위해 제안한 합성곱 신경망(CNN) 아키텍처이다. 그 이름은 네트워크의 U자형 구조에서 유래했다. 이 모델의 핵심 아이디어는 인코더-디코더 구조에 스킵 연결(skip connection)을 도입하여, 다운샘플링 과정에서 손실될 수 있는 공간적 정보와 세부 특징을 업샘플링 과정에서 복원하는 것이다.
아키텍처는 크게 수축 경로(contracting path)와 확장 경로(expansive path)로 구성된다. 수축 경로는 전형적인 CNN 구조로, 반복적인 합성곱과 풀링 연산을 통해 컨텍스트 정보를 포착한다. 확장 경로는 업샘플링(보통 전치 합성곱 사용)과 합성곱을 통해 특징 맵의 공간 해상도를 점차 높여 정밀한 분할 맵을 생성한다. 두 경로의 동일한 수준의 특징 맵을 연결하는 스킵 연결은 로컬 정보를 디코더에 직접 전달하여 정확한 픽셀 단위 예측을 가능하게 한다.
U-Net은 적은 수의 학습 데이터로도 효과적으로 동작하도록 설계되었다. 이는 의료 영상처럼 대규모 주석 데이터를 구하기 어려운 분야에서 큰 장점으로 작용했다. 데이터 효율성을 높이기 위해 데이터 증강 기법(예: 탄성 변형)을 적극 활용하여 모델의 견고성을 향상시켰다.
이러한 설계 덕분에 U-Net은 의료 영상 분석 분야에서 사실상의 표준 모델 중 하나로 자리 잡았으며, 이후 등장하는 많은 세그멘테이션 모델의 기본 골격에 영감을 주었다.
Mask R-CNN은 객체 탐지와 인스턴스 세그멘테이션을 동시에 수행하는 딥러닝 모델 아키텍처이다. 이 모델은 Faster R-CNN의 확장판으로, 기존의 바운딩 박스 탐지와 객체 분류 기능에 각 객체에 대한 정밀한 픽셀 단위 마스크를 예측하는 분기를 추가하였다. 이로 인해 같은 클래스에 속하는 여러 객체를 개별적으로 식별하고 분리할 수 있는 인스턴스 수준의 세그멘테이션이 가능해졌다.
모델의 핵심 구조는 크게 두 가지 주요 개선점을 포함한다. 첫째는 RoIAlign 계층이다. 기존 Faster R-CNN의 RoIPooling은 특징 맵 영역을 양자화하여 정밀도를 떨어뜨렸으나, RoIAlign은 양선형 보간을 사용해 공간적 위치 정보를 보존하여 마스크 예측의 정확도를 크게 향상시켰다. 둘째는 병렬적인 헤드 구조로, 기존의 분류 및 바운딩 박스 회귀 헤드와 별도로 작은 완전 합성곱 신경망(FCN)으로 구성된 마스크 예측 헤드를 추가하였다. 이 마스크 헤드는 각 관심 영역(RoI)에 대해 독립적으로 이진 마스크를 예측한다.
구성 요소 | 설명 | 주요 기능 |
|---|---|---|
백본 네트워크 | 다중 스케일 특징 맵 생성 | |
RPN (Region Proposal Network) | 객체가 있을 가능성이 있는 영역 제안 | 후보 바운딩 박스 생성 |
RoIAlign | 제안된 영역의 특징을 고정 크기로 정렬 | 공간적 정밀도 유지 |
병렬 헤드 | 분류, 박스 회귀, 마스크 예측 헤드로 구성 | 클래스, 박스 좌표, 픽셀 마스크 동시 예측 |
Mask R-CNN은 COCO 데이터셋과 같은 벤치마크에서 높은 성능을 보였으며, 의료 영상 분석, 자율 주행의 시각적 인지, 로봇 비전 등 정밀한 객체 형태 분석이 필요한 다양한 응용 분야에서 널리 사용된다. 모델의 설계는 객체 탐지와 인스턴스 세그멘테이션을 위한 통합 프레임워크를 제시한 중요한 연구로 평가받는다.
DeepLab 시리즈는 구글 연구팀이 개발한 시맨틱 세그멘테이션을 위한 일련의 합성곱 신경망 아키텍처이다. 이 시리즈는 풀링이나 스트라이드로 인해 발생하는 공간 해상도 손실 문제를 해결하고, 객체의 다양한 크기와 복잡한 경계를 정확하게 포착하는 데 중점을 두었다. 초기 모델부터 최신 버전까지 공간 피라미드 풀링과 딜레이티드 컨볼루션 같은 핵심 아이디어를 발전시켜 왔다.
주요 모델의 진화는 다음과 같은 표로 요약할 수 있다.
모델 | 핵심 기여 | 주요 특징 |
|---|---|---|
DeepLabv1 [2] | 딜레이티드 컨볼루션 도입 | 합성곱의 스트라이드를 보완하여 해상도 유지 |
DeepLabv2 | 공간 피라미드 풀링 (ASPP) 도입 | 다양한 수용역을 통해 멀티스케일 정보 포착 |
DeepLabv3 | 향상된 ASPP, 배치 정규화 | 병렬적인 딜레이티드 컨볼루션과 전역 평균 풀링 결합 |
DeepLabv3+ | 인코더-디코더 구조 채택 | DeepLabv3를 인코더로, 경량 디코더를 추가하여 객체 경계 개선 |
DeepLabv2에서 제안된 공간 피라미드 풀링 모듈은 서로 다른 딜레이션 레이트를 가진 병렬 컨볼루션을 사용하여, 단일 레이어에서 다양한 크기의 객체 정보를 효과적으로 추출한다. DeepLabv3는 여기에 전역 평균 풀링을 추가하여 이미지 전체의 컨텍스트 정보를 포함시켜 성능을 더욱 향상시켰다.
최종 버전인 DeepLabv3+는 강력한 인코더 모듈을 유지하면서도 디코더를 도입하여 객체 경계를 더욱 선명하게 복원한다. 이 아키텍처는 Xception 백본과 결합되어 높은 정확도와 효율성을 동시에 달성하며, 의료 영상 분석 및 자율 주행 같은 실용적인 분야에서 널리 사용된다.

세그멘테이션 모델을 학습시키기 위해서는 예측된 세그멘테이션 마스크와 실제 정답 마스크(그라운드 트루스) 간의 차이를 정량화하는 손실 함수가 필요하다. 세그멘테이션은 픽셀 단위 분류 문제로 볼 수 있기 때문에, 분류 문제에서 널리 사용되는 크로스 엔트로피 손실이 기본적으로 적용된다. 특히, 각 픽셀 위치에서의 클래스 예측 확률 분포와 실제 레이블 분포 간의 차이를 계산한다. 클래스 간 데이터 불균형이 심한 경우, 각 클래스에 가중치를 부여한 가중 크로스 엔트로피 손실이 자주 사용된다.
세그멘테이션의 성능을 직접적으로 반영하는 지표를 손실 함수로 활용하는 경우도 많다. 대표적으로 다이스 손실이 있으며, 이는 평가 지표인 다이스 계수를 최대화하기 위해 고안되었다. 다이스 손실은 예측 영역과 정답 영역의 겹침 정도에 초점을 맞추어, 특히 배경 대비 객체 영역이 작은 의료 영상 분석 등에서 효과적이다. 유사하게, IoU 지표를 직접 최적화하는 IoU 손실도 널리 사용된다. 이들은 영역 기반의 겹침을 측정하므로, 픽셀 단위 오차보다 객체나 영역의 전체적인 형태를 더 잘 학습하도록 유도한다.
다양한 손실 함수의 특징은 다음 표와 같다.
손실 함수 | 주요 특징 | 일반적인 사용처 |
|---|---|---|
픽셀 단위 분류 오차 측정, 가장 기본적 | 일반적인 시맨틱 세그멘테이션 | |
영역 겹침(다이스 계수) 기반, 클래스 불균형에 강건 | 의료 영상 세그멘테이션 | |
Jaccard Index 직접 최적화, 경계 정확도 향상에 도움 | 정확한 객체 경계가 중요한 태스크 | |
쉬운 샘플에 대한 손실 가중치를 낮춰 학습 집중 | 복잡한 배경 또는 작은 객체가 많은 영상 |
실제 응용에서는 단일 손실 함수보다 여러 손실을 조합하여 사용하는 것이 일반적이다. 예를 들어, 크로스 엔트로피 손실로 픽셀 단위 분류 성능을 보장하면서, 다이스 손실이나 IoU 손실을 함께 사용하여 영역 수준의 일치도를 높이는 전략이 흔하다[3]. 손실 함수의 선택은 데이터셋의 특성, 클래스 분포, 그리고 최종 응용 분야에서 요구하는 정확도의 성향에 크게 의존한다.
Cross-Entropy Loss는 딥러닝 분야, 특히 분류 문제에서 가장 널리 사용되는 손실 함수 중 하나이다. 세그멘테이션은 본질적으로 픽셀 단위의 분류 문제로 간주될 수 있기 때문에, 이 손실 함수는 시맨틱 세그멘테이션 모델을 훈련시키는 데 기본적으로 적용된다. 각 픽셀에 대해 모델이 예측한 클래스 확률 분포와 실제 정답 레이블(원-핫 인코딩 형태) 사이의 차이를 측정한다.
이진 세그멘테이션의 경우, Binary Cross-Entropy Loss가 사용된다. 이는 배경과 대상 객체라는 두 클래스에 대한 손실을 계산한다. 다중 클래스 세그멘테이션에서는 Categorical Cross-Entropy Loss가 사용되며, 모든 픽셀 위치에서 각 클래스에 대한 예측 확률과 정답의 교차 엔트로피를 합산한다. 수식은 다음과 같이 표현된다.
손실 함수 유형 | 수식 (단일 픽셀 기준) | 설명 |
|---|---|---|
이진 교차 엔트로피 | $L = -[y \log(p) + (1-y) \log(1-p)]$ | $y$는 정답(0 또는 1), $p$는 모델이 예측한 대상 클래스 확률이다. |
범주형 교차 엔트로피 | $L = -\sum_{c=1}^{C} y_c \log(p_c)$ | $C$는 클래스 수, $y_c$는 클래스 $c$에 대한 정답(0 또는 1), $p_c$는 클래스 $c$에 대한 예측 확률이다. |
Cross-Entropy Loss는 구현이 간단하고 최적화가 잘 된다는 장점이 있다. 그러나 클래스 간 픽셀 수의 불균형이 심한 데이터셋(예: 의료 영상에서 작은 병변)에서는 다수 클래스에 편향될 수 있다는 단점이 있다. 이러한 문제를 완화하기 위해 가중치가 부여된 교차 엔트로피 손실이 사용되기도 한다. 여기서는 각 클래스에 사전에 정의된 가중치를 곱하여 소수 클래스의 영향력을 높인다.
Dice Loss는 이미지 세그멘테이션 작업에서 널리 사용되는 손실 함수 중 하나이다. 이 함수는 세그멘테이션 예측 결과와 실제 정답 마스크 간의 유사성을 측정하는 다이스 계수를 기반으로 설계되었다. 원래는 의료 영상 분석에서 생물학적 조직의 부피 유사성을 정량화하기 위해 개발된 지표였으나, 이진 분할 작업에 매우 효과적이어서 딥러닝 손실 함수로 채택되었다.
Dice Loss는 예측된 영역과 실제 정답 영역 간의 겹침 정도에 초점을 맞춘다. 수식은 일반적으로 L_Dice = 1 - Dice Coefficient로 정의되며, 다이스 계수는 2 * |A ∩ B| / (|A| + |B|)로 계산된다[4]. 여기서 |A ∩ B|는 두 집합의 교집합 크기(예: 정확히 분류된 픽셀 수)이며, |A|와 |B|는 각 집합의 크기이다. 이 손실 함수는 예측과 정답이 완벽하게 일치할 때 0의 값을, 전혀 겹치지 않을 때 1에 가까운 값을 가지도록 설계되어 최소화의 대상이 된다.
이 손실 함수의 주요 장점은 클래스 불균형 문제가 심한 상황에서도 효과적으로 작동한다는 점이다. 예를 들어 의료 영상에서 종양 영역은 배경에 비해 픽셀 수가 매우 적은 경우가 많다. 교차 엔트로피 손실 같은 전통적인 손실 함수는 배경과 같은 다수 클래스에 편향될 수 있지만, Dice Loss는 영역의 겹침 비율을 직접 최적화하므로 소수 클래스의 정확한 분할을 유도하는 데 강점을 보인다.
그러나 Dice Loss는 픽셀 단위의 확률 값이 아닌 영역 간의 겹침에 민감하기 때문에, 학습 초기 단계나 예측이 매우 부정확한 경우 그래디언트가 불안정해질 수 있다는 단점도 있다. 이를 보완하기 위해 교차 엔트로피 손실과 결합한 복합 손실 함수를 사용하거나, IoU 기반 손실과 함께 활용하는 변형들이 제안되었다.
IoU 기반 손실 함수는 세그멘테이션 모델의 성능을 평가하는 데 널리 사용되는 IoU (Intersection over Union) 지표를 직접 최적화 목표로 삼는다. 기존의 Cross-Entropy Loss가 픽셀 단위의 분류 오차를 최소화하는 데 초점을 맞춘다면, IoU 기반 손실은 예측 영역과 실제 정답 영역 간의 공간적 일치도를 직접적으로 높이도록 설계되었다. 이는 평가 지표와 손실 함수의 목적을 일치시켜 모델 학습을 더 효율적으로 만든다.
가장 기본적인 형태는 IoU Loss이며, 1에서 IoU 값을 뺀 값을 손실로 사용한다. 수식은 *L_IoU = 1 - IoU*로 표현된다. 그러나 표준 IoU는 예측과 정답이 완전히 겹치지 않을 경우 기울기가 0이 되어 학습이 중단될 수 있는 문제가 있다. 이를 해결하기 위해 Generalized IoU (GIoU)가 제안되었다. GIoU는 예측과 정답을 모두 포함하는 최소 외접 사각형을 도입하여 두 영역이 서로 떨어져 있을 때에도 의미 있는 기울기를 제공한다.
더 발전된 형태로는 Dice Loss와 IoU를 결합한 Dice Loss 혹은 Dice Coefficient를 직접 손실 함수로 사용하는 방법이 있다. 또한, 예측의 경계 정확도를 높이기 위해 Boundary IoU[5]를 손실에 반영하는 연구도 진행되었다. 이러한 IoU 기반 손실 함수들은 특히 클래스 간 불균형이 심한 의료 영상 분석이나 정밀한 객체 경계가 요구되는 작업에서 유용하게 적용된다.
손실 함수 명칭 | 핵심 아이디어 | 주요 장점 |
|---|---|---|
IoU Loss | 1 - IoU를 최소화 | 평가 지표와 직접적인 연관성 |
GIoU Loss | 외접 사각형을 이용한 보정 | 겹치지 않는 경우에도 기울기 제공 |
Dice Loss | Dice Coefficient를 최대화 | 클래스 불균형에 강건함 |
Boundary IoU Loss | 객체 경계 영역에 집중 | 경계 정확도 향상에 특화 |

세그멘테이션 모델의 성능을 정량적으로 측정하기 위해 여러 평가 지표가 사용된다. 가장 널리 쓰이는 지표는 IoU(Intersection over Union)이다. IoU는 예측된 영역과 실제 정답 영역(ground truth) 간의 교집합을 합집합으로 나눈 값이다. 수식으로 표현하면 IoU = (예측 ∩ 정답) / (예측 ∪ 정답)이다. 0에서 1 사이의 값을 가지며, 1에 가까울수록 예측이 완벽함을 의미한다. 이는 객체 경계를 정확히 예측하는지 평가하는 데 효과적이다.
Dice Coefficient(Dice Similarity Coefficient)는 IoU와 유사하며, 특히 의료 영상 분석 분야에서 자주 활용된다. Dice 계수는 두 배의 교집합을 예측 영역과 정답 영역의 픽셀 수 합으로 나눈 값이다. 수식은 Dice = 2 * |예측 ∩ 정답| / (|예측| + |정답|)이다. IoU와 Dice 계수는 서로 변환이 가능하며, 일반적으로 Dice 계수가 IoU보다 약간 높은 값을 보인다.
Pixel Accuracy는 전체 픽셀 중에서 정확히 분류된 픽셀의 비율을 계산하는 간단한 지표다. 그러나 배경 픽셀이 대부분을 차지하는 불균형 데이터셋에서는 높은 정확도가 나오지만, 실제 관심 객체에 대한 성능은 낮을 수 있어 한계가 있다. 이를 보완하기 위해 클래스별 평균 정확도(Mean Pixel Accuracy)를 사용하기도 한다.
평가 지표 | 계산식 | 주요 특징 |
|---|---|---|
IoU | (교집합 면적) / (합집합 면적) | 객체 경계 정확도 평가에 강점, 가장 표준적인 지표 |
Dice Coefficient | (2 * 교집합 픽셀 수) / (각 영역 픽셀 수 합) | 의료 영상 분할에서 널리 사용, IoU와 높은 상관관계 |
Pixel Accuracy | (정확한 픽셀 수) / (전체 픽셀 수) | 계산이 간단하지만 클래스 불균형에 취약 |
이러한 지표들은 단일 숫자로 모델 성능을 요약하지만, 실제 응용에 따라 적합한 지표를 선택하거나 여러 지표를 종합적으로 고려해야 한다. 예를 들어, 의료 영상 분석에서는 Dice 계수가, 자율 주행 시나리오에서는 객체 경계의 정밀도가 중요하므로 IoU가 더 강조될 수 있다.
IoU는 이미지 세그멘테이션 모델의 성능을 평가하는 데 널리 사용되는 핵심 지표이다. 예측된 마스크 영역과 실제 정답(그라운드 트루스) 영역 간의 겹침 정도를 0에서 1 사이의 값으로 정량화한다. 계산 방식은 두 영역의 교집합(Intersection) 넓이를 합집합(Union) 넓이로 나눈 것이다. 수식으로는 IoU = |A ∩ B| / |A ∪ B|로 표현된다. 여기서 A는 예측 영역, B는 정답 영역을 나타낸다. 완벽하게 일치할 경우 값은 1이 되며, 전혀 겹치지 않으면 0이 된다.
이 지표는 단순히 픽셀 단위 정확도(Pixel Accuracy)를 계산하는 것보다 더 강건한 평가를 제공한다. 특히 배경 영역이 대부분을 차지하는 불균형 데이터셋에서, 배경 픽셀을 대부분 맞추는 것만으로 높은 픽셀 정확도를 얻을 수 있지만, 실제 관심 객체의 영역을 정확히 찾아내는 성능은 낮을 수 있다. IoU는 이러한 문제를 완화하며, 모델이 객체의 경계와 형태를 얼마나 정확하게 예측하는지에 더 민감하게 반응한다.
주요 시맨틱 세그멘테이션 벤치마크 데이터셋(예: PASCAL VOC, COCO)에서는 IoU를 기준으로 성능을 측정하고 순위를 매긴다. 일반적으로 특정 임계값(예: 0.5) 이상의 IoU를 달성한 예측을 정확한 것으로 간주한다. 평균 IoU(mIoU)는 다중 클래스 세그멘테이션 평가에서 각 클래스별 IoU의 평균을 계산한 값으로, 전반적인 모델 성능을 요약하는 대표적인 지표로 사용된다.
용어 | 설명 |
|---|---|
교집합(Intersection) | 예측 영역과 정답 영역이 겹치는 부분의 픽셀 집합 |
합집합(Union) | 예측 영역과 정답 영역을 모두 포함하는 전체 픽셀 집합 |
mIoU(Mean IoU) | 모든 클래스에 대해 계산된 개별 IoU 값의 평균 |
IoU는 평가 지표로서의 역할뿐만 아니라, Dice Loss나 IoU Loss와 같이 학습 과정의 손실 함수로 직접 활용되기도 한다[6]. 이를 통해 모델이 평가 기준과 직접적으로 연관된 목표를 최적화하도록 유도할 수 있다.
Dice Coefficient는 이미지 세그멘테이션 모델의 성능을 평가하는 데 널리 사용되는 지표이다. 이는 예측된 영역과 실제 정답 영역(Ground Truth) 간의 중첩 정도를 측정한다. 수학적으로는 두 집합 간의 유사성을 측정하는 Sørensen–Dice 계수를 기반으로 하며, 값의 범위는 0에서 1 사이이다. 1에 가까울수록 예측과 정답이 완벽하게 일치함을 의미한다.
계산 공식은 다음과 같다.
$$ \text{Dice} = \frac{2 \times |X \cap Y|}{|X| + |Y|} $$
여기서 $X$는 예측된 픽셀 집합, $Y$는 정답 픽셀 집합을 나타낸다. 분자는 두 집합의 교집합 크기의 두 배이며, 분모는 두 집합의 크기 합이다. 이는 IoU (Intersection over Union)와 밀접한 관련이 있지만, 동일한 중첩에 대해 일반적으로 더 높은 값을 제공한다[7].
특성 | 설명 |
|---|---|
장점 | 클래스 불균형이 심한 경우(예: 배경 픽셀이 대부분인 경우)에도 전경 객체의 분할 정확도를 효과적으로 평가한다. |
단점 | 픽셀 단위 정확도(Pixel Accuracy)에 비해 계산이 다소 복잡하다. |
주요 사용처 | 특히 의료 영상 분석 분야에서 종양이나 장기와 같은 작은 관심 영역의 분할 성능을 평가할 때 선호된다. |
이 지표는 평가 지표로 사용될 뿐만 아니라, 모델 훈련을 위한 손실 함수(Dice Loss)로도 직접 활용된다. 이는 평가와 훈련 목표를 일치시켜 모델 최적화를 용이하게 한다.
픽셀 정확도는 세그멘테이션 모델의 성능을 평가하는 가장 직관적인 지표 중 하나이다. 이는 전체 픽셀 중에서 올바르게 분류된 픽셀의 비율을 계산한다. 공식은 (정확히 분류된 픽셀 수) / (전체 픽셀 수)로 표현된다. 이는 분류 문제에서의 정확도 개념을 픽셀 단위로 확장한 것이다.
그러나 이 지표는 클래스 간 픽셀 수의 불균형이 심한 경우 신뢰도가 떨어진다. 예를 들어, 배경이 이미지의 대부분을 차지하는 의료 영상에서 배경 픽셀을 정확히 예측하기만 해도 전체 정확도는 매우 높게 나올 수 있다. 반면, 중요한 관심 객체(예: 종양)는 상대적으로 적은 픽셀을 차지하므로, 모델이 이를 완전히 무시하고 배경만 예측해도 높은 픽셀 정확도를 기록할 수 있다[8].
이러한 한계 때문에, 픽셀 정확도는 단독으로 사용되기보다는 IoU (Intersection over Union)나 Dice Coefficient와 같은 지표와 함께 보완적으로 활용된다. 아래 표는 간단한 예시를 통해 픽셀 정확도의 계산과 한계를 보여준다.
시나리오 | 정확히 분류된 픽셀 수 | 전체 픽셀 수 | 픽셀 정확도 | 주요 문제점 |
|---|---|---|---|---|
균형 잡힌 데이터 | 850 | 1000 | 85% | 비교적 신뢰할 수 있음 |
불균형 데이터 (배경 95%, 객체 5%) | 960 | 1000 | 96% | 객체를 전혀 탐지하지 못해도 높은 점수 발생 |
따라서, 픽셀 정확도는 모델의 전반적인 성향을 빠르게 파악하는 데 유용하지만, 특히 불균형 데이터셋에서는 각 클래스별 성능을 세부적으로 평가하는 다른 지표와의 병행 사용이 필수적이다.

세그멘테이션 기술은 의료 영상 분석 분야에서 핵심적인 역할을 한다. 컴퓨터 단층촬영(CT)이나 자기 공명 영상(MRI) 스캔에서 종양, 장기, 혈관 등을 정확하게 식별하고 경계를 추출하는 데 사용된다. 이를 통해 의사는 질병의 진단, 수술 계획 수립, 치료 효과 모니터링을 보다 정량적이고 효율적으로 수행할 수 있다. 특히 U-Net과 같은 아키텍처는 제한된 데이터로도 효과적으로 학습할 수 있어 의료 영상 분석에 널리 채택되었다.
자율 주행 시스템은 세그멘테이션에 크게 의존한다. 카메라나 라이더(LiDAR) 센서로 입력받은 장면에서 도로, 차선, 보행자, 차량, 신호등 등 다양한 객체를 실시간으로 픽셀 단위로 분류해야 한다. 이 정보는 차량의 경로 계획 및 장애물 회피 결정의 근간이 된다. 시맨틱 세그멘테이션은 주변 환경을 이해하는 데, 인스턴스 세그멘테이션은 개별 객체(예: 여러 대의 차량)를 구분하는 데 각각 활용된다.
원격 탐사 및 위성 이미지 분석에서도 세그멘테이션은 광범위하게 적용된다. 대규모 위성 또는 항공 사진에서 토지 피복(산림, 농경지, 도시 지역, 수역 등)을 자동으로 분류하고 변화를 감지하는 데 사용된다. 이는 도시 계획, 농업 관리, 환경 모니터링, 재난 평가 등에 중요한 정보를 제공한다. 기후 변화로 인한 빙하 후퇴나 산불 피해 지역 추정과 같은 작업에도 유용하게 쓰인다.
응용 분야 | 주요 목적 | 활용 기술 예시 |
|---|---|---|
의료 영상 분석 | 장기/종양 분할, 진단 보조 | |
자율 주행 | 장면 이해, 객체 인식 | |
위성 이미지 분석 | 토지 피복 분류, 변화 감지 | FCN 기반 모델 |
로봇 비전 | 객체 조작, 환경 상호작용 | |
사진 편집 | 배경 분리, 포토샵 | Portrait Segmentation |
이 외에도 세그멘테이션은 증강 현실(AR)에서 가상 객체와 실세계의 정확한 결합을 위해, 산업 검사에서 제품의 결함을 탐지하기 위해, 그리고 콘텐츠 생성 및 편집 도구에서 배경 분리 등 다양한 상업적 및 창의적 분야에서 활용되고 있다.
의료 영상 분석은 세그멘테이션 기술이 가장 활발히 적용되고 혁신적인 성과를 내는 분야 중 하나이다. 컴퓨터 단층촬영, 자기 공명 영상, 초음파 등으로 생성된 의료 영상에서 종양, 혈관, 장기 등의 특정 해부학적 구조나 병변을 정확하게 분리하고 정량화하는 것이 주요 목표이다. 이를 통해 의사는 진단의 정확성을 높이고, 수술 계획을 세우며, 치료 반응을 추적할 수 있다.
초기에는 U-Net 아키텍처가 의료 영상 세그멘테이션의 표준 모델로 자리 잡았다. 그 이유는 제한된 양의 데이터셋으로도 효과적으로 학습할 수 있는 인코더-디코더 구조와, 국소적 정보와 전역적 문맥을 결합하는 스킵 연결 덕분이다. 이후 DeepLab 시리즈나 Attention U-Net과 같은 변형 모델들이 등장하여 정밀도를 더욱 향상시켰다.
의료 영상 세그멘테이션의 주요 응용 사례는 다음과 같다.
응용 분야 | 세그멘테이션 대상 | 주요 목적 |
|---|---|---|
뇌 영상 분석 | 종양 범위 측정, 신경퇴행성 질환 진단 지원 | |
심장 영상 분석 | 심장 기능 정량 분석(예: 박출률 계산) | |
폐 영상 분석 | 폐암 조기 발견, 감염 정도 평가 | |
안과 영상 분석 |
이 분야의 도전 과제는 데이터의 불균형, 노이즈, 개인 간 해부학적 변이성이 크다는 점이다. 또한, 모델의 판단 근거를 설명할 수 있어야 하는 설명 가능한 인공지능에 대한 요구도 높다. 최근에는 트랜스포머 기반 모델과 Few-shot 세그멘테이션 기법이 주목받으며, 적은 양의 주석 데이터로도 정확한 분할이 가능한 방향으로 연구가 진행되고 있다.
세그멘테이션 기술은 자율 주행 시스템의 환경 인지 능력을 구성하는 핵심 요소이다. 주변 환경을 정확하게 이해하고 객체를 구분하기 위해, 자율 주행 차량은 카메라, 라이다, 레이더 등 다양한 센서로부터 입력받은 데이터를 처리해야 한다. 이 과정에서 시맨틱 세그멘테이션은 이미지 내 모든 픽셀을 도로, 보도, 차량, 보행자, 신호등, 건물 등 의미 있는 범주로 분류하여 장면을 해석하는 데 사용된다. 인스턴스 세그멘테이션은 동일한 범주 내에서도 개별 객체(예: 여러 대의 차량)를 구분하여 추적하고, 파노픽 세그멘테이션은 시맨틱과 인스턴스 정보를 통합하여 더욱 포괄적인 이해를 제공한다.
주요 응용은 실시간 도로 장면 이해와 안전한 경로 계획에 있다. 시스템은 세그멘테이션 결과를 바탕으로 주행 가능 영역(도로)과 장애물(차량, 보행자)을 식별하고, 이 정보를 객체 탐지 및 추적 알고리즘과 결합하여 동적 환경을 모델링한다. 특히, 보행자 검출 및 차선 이탈 경고 시스템과 같은 안전 기능은 정밀한 세그멘테이션에 크게 의존한다. 또한, 주행 가능 공간을 정확히 분할하는 것은 복잡한 교차로나 불완전한 도로 표시가 있는 상황에서 차량의 의사 결정을 지원한다.
자율 주행을 위한 세그멘테이션은 몇 가지 독특한 도전 과제에 직면한다. 첫째, 다양한 기상 조건(비, 눈, 안개)과 조명 변화(야간, 역광)에서도 강건한 성능을 유지해야 한다. 둘째, 실시간 처리 속도가 필수적이므로, 정확성과 효율성을 모두 만족시키는 경량화 모델 개발이 중요하다. 셋째, 도로 환경의 무한한 다양성을 커버하기 위해 대규모의 정교하게 어노테이션된 데이터셋(예: Cityscapes, BDD100K)이 필요하다. 이러한 문제를 해결하기 위해 센서 퓨전 기법과 도메인 적응 연구가 활발히 진행되고 있다.
위성 이미지 분석은 세그멘테이션 기술의 주요 응용 분야 중 하나이다. 고해상도 위성 및 항공 사진에서 지표의 다양한 객체와 지역을 자동으로 식별하고 분류하는 데 활용된다. 전통적인 원격탐사 분석 방법에 비해 딥러닝 기반 세그멘테이션은 복잡한 패턴 인식 능력으로 정확도와 처리 효율을 크게 향상시켰다.
주요 분석 대상에는 토지 피복 분류(예: 산림, 수역, 도시 지역, 농경지), 도시 계획을 위한 건물 탐지, 농업 모니터링을 위한 작물 분할, 재해 피해 평가를 위한 변화 탐지 등이 포함된다. 예를 들어, U-Net이나 DeepLab 같은 모델은 필지 단위의 작물 종류를 구분하거나, 홍수 전후의 이미지를 비교하여 침수 지역을 정확하게 분할하는 데 사용된다.
이 분야의 과제는 대규모 데이터셋의 부족, 계절 및 기상 조건에 따른 영상의 외관 변화, 그리고 매우 넓은 지역을 처리해야 하는 계산적 부담이다. 이러한 문제를 해결하기 위해 Few-shot 세그멘테이션이나 자기 지도 학습과 같은 최신 연구가 활발히 진행되고 있다.
분석 대상 | 세그멘테이션 목적 | 활용 예시 |
|---|---|---|
토지 피복 | 지역 분류 | 환경 모니터링, 도시 확장 추적 |
건물/도로 | 객체 탐지 및 분할 | 도시 계획, 인프라 관리 |
농경지 | 작물 종류 분할 | 정밀 농업, 수확량 예측 |
수역/산림 | 변화 탐지 | 산림 벌채 감시, 가뭄 영향 평가 |

트랜스포머 아키텍처의 등장은 시맨틱 세그멘테이션 분야에 새로운 패러다임을 가져왔다. 초기 Vision Transformer (ViT)는 이미지 분류에 적용되었으나, 이후 Swin Transformer와 같은 계층적 구조를 도입한 모델이 등장하며 밀집 예측(dense prediction) 작업에 적합한 형태로 발전했다. 이 모델들은 CNN이 갖는 국소적 수용 영역의 한계를 극복하고, 셀프 어텐션 메커니즘을 통해 이미지 전체에 걸친 장거리 의존성을 효과적으로 모델링한다. 특히 SETR과 같은 모델은 트랜스포머 인코더를 백본으로 사용하여 FCN 디코더와 결합하는 방식으로 우수한 성능을 보였다.
모델 이름 | 주요 특징 | 도입 연도 |
|---|---|---|
이미지를 패치 시퀀스로 처리하는 최초의 순수 트랜스포머 | 2020 | |
계층적 특징 맵과 이동 윈도우 어텐션을 도입 | 2021 | |
트랜스포머를 기반으로 한 시맨틱 세그멘테이션 전용 모델 | 2021 | |
픽셀 단위 분류 패러다임을 넘어 마스크 분류 접근법 제시 | 2021 |
또 다른 중요한 동향은 퓨샷 러닝을 세그멘테이션에 적용하는 것이다. 이는 매우 적은 수의 레이블이 지정된 예시(샷)만을 사용하여 새로운 클래스나 객체를 분할하는 것을 목표로 한다. 프로토타입 네트워크 기반 방법은 지원 세트(support set)에서 클래스별 프로토타입 특징을 추출한 후, 쿼리 이미지(query image)의 각 픽셀을 가장 유사한 프로토타입에 할당하는 방식으로 작동한다. 메타 러닝 프레임워크를 활용한 방법도 활발히 연구되어, 모델이 새로운 작업에 빠르게 적응할 수 있는 능력을 학습한다. 이는 데이터 수집과 라벨링 비용이 큰 의료 영상 분석이나 새로운 객체 카테고리가 지속적으로 등장하는 로봇 비전 분야에 특히 유용하다.
트랜스포머 아키텍처는 원래 자연어 처리 분야를 위해 설계되었으나, 비전 트랜스포머(ViT)의 등장 이후 컴퓨터 비전 분야, 특히 이미지 세그멘테이션에 혁신적인 영향을 미쳤다. 기존의 합성곱 신경망(CNN)이 지역적인 수용 영역에 의존하는 반면, 트랜스포머의 셀프 어텐션 메커니즘은 이미지 전체에 걸쳐 장거리 의존성을 모델링할 수 있다. 이는 객체의 전역적 문맥을 이해하는 데 유리하여, 특히 복잡한 배경이나 여러 객체가 중첩된 장면에서 더 정확한 분할을 가능하게 한다.
세그멘테이션을 위한 트랜스포머 모델은 일반적으로 인코더-디코더 구조를 따른다. 인코더는 ViT와 유사하게 이미지를 패치 시퀀스로 변환하여 처리하고, 디코더는 인코더의 출력을 바탕으로 픽셀 단위의 분할 마스크를 생성한다. 대표적인 모델로는 SETR(Swin Transformer)과 Swin Transformer를 백본으로 사용하는 Swin-UNet 등이 있다. Swin Transformer는 계층적 특징 맵과 이동 윈도우 기반의 어텐션을 도입하여 계산 효율성을 높였으며, 이는 고해상도 이미지 세그멘테이션에 매우 중요하다.
트랜스포머 기반 세그멘테이션의 주요 장점과 한계는 다음과 같이 정리할 수 있다.
장점 | 한계 |
|---|---|
장거리 의존성 모델링: 전역적 문맥 정보 포착에 우수함 | 큰 계산 비용: 고해상도 이미지 처리 시 리소스 요구량이 많음 |
유연한 아키텍처: 다양한 태스크에 적용 가능한 일반적인 구조 | 대규모 데이터 의존성: 효과적인 학습을 위해 많은 양의 라벨 데이터가 필요할 수 있음 |
병렬 처리 가능: 어텐션 메커니즘으로 인해 학습 효율성이 높음 |
현재 연구 동향은 트랜스포머와 CNN의 하이브리드 아키텍처 개발, 계산 효율성을 높인 경량화 모델, 그리고 메타 러닝이나 자기 지도 학습을 결합한 데이터 효율적인 방법론으로 이어지고 있다.
Few-shot 세그멘테이션은 매우 적은 수의 훈련 샘플(예: 클래스당 1~5개 이미지)만을 사용하여 새로운 객체 클래스에 대한 분할 모델을 학습하거나 적응시키는 기술이다. 이는 대규모의 주석이 달린 데이터셋을 필요로 하는 전통적인 지도 학습 방식의 주요 한계를 해결하기 위해 등장했다. 특히 데이터 수집 및 주석 작업이 어렵거나 비용이 많이 드는 의료 영상이나 희귀 객체 인식 같은 분야에서 중요한 접근법으로 주목받고 있다.
Few-shot 세그멘테이션의 핵심 아이디어는 메타러닝 또는 메트릭 기반 학습을 통해 '학습하는 방법을 학습'하는 것이다. 모델은 지원 세트와 쿼리 세트로 구성된 여러 개의 작은 작업을 통해 훈련된다. 지원 세트에는 몇 장의 주석이 달린 샘플이 포함되어 새로운 클래스에 대한 프로토타입을 생성하는 데 사용되고, 쿼리 세트는 이 프로토타입을 기반으로 분할 성능을 평가하고 모델을 업데이트하는 데 사용된다. 이를 통해 모델은 새로운 클래스를 보았을 때 빠르게 일반화할 수 있는 능력을 획득한다.
주요 방법론은 크게 프로토타입 네트워크 기반, 메타러닝 기반, 그리고 조건부 네트워크 기반으로 나눌 수 있다. 프로토타입 네트워크는 지원 세트의 특징을 평균내어 각 클래스의 대표 벡터(프로토타입)를 만들고, 쿼리 이미지의 각 픽셀 특징과의 유사도를 계산하여 분할 마스크를 생성한다. 메타러닝 기반 방법은 모델의 초기 파라미터를 최적화하여 새로운 작업에 빠르게 적응하도록 한다. 조건부 네트워크는 지원 세트의 정보를 인코더에 주입하거나 디코더의 조건으로 사용하여 쿼리 이미지를 분할한다.
이 분야의 주요 과제는 지원 정보와 쿼리 정보의 효과적인 융합, 배경과 전경의 구분, 그리고 픽셀 수준의 세밀한 정렬이다. 최근 연구는 트랜스포머의 어텐션 메커니즘을 활용하여 지원 특징과 쿼리 특징 간의 장거리 의존성을 모델링하거나, 더 풍부한 컨텍스트 정보를 추출하는 방향으로 발전하고 있다. 또한, 시맨틱 세그멘테이션뿐만 아니라 인스턴스 세그멘테이션으로의 확장도 활발히 진행 중이다.
