문서의 각 단락이 어느 리비전에서 마지막으로 수정되었는지 확인할 수 있습니다. 왼쪽의 정보 칩을 통해 작성자와 수정 시점을 파악하세요.

합성곱 신경망 모델 | |
이름 | 합성곱 신경망 (Convolutional Neural Network, CNN) |
분류 | |
주요 용도 | |
핵심 구성 요소 | |
대표 모델 | |
모델 상세 정보 | |
개념 | |
작동 원리 | 합성곱 연산을 통해 지역적 특징을 추출하고, 풀링을 통해 차원을 축소하며, 최종적으로 완전 연결층에서 분류 또는 회귀를 수행 |
주요 특징 | |
활성화 함수 | |
손실 함수 | |
최적화 알고리즘 | |
과적합 방지 기법 | |
입력 형태 | 주로 2D(이미지) 또는 3D(동영상, 의료 영상) 텐서 |
출력 형태 | 분류(클래스 확률), 객체 검출(바운딩 박스), 세분화(픽셀 단위 레이블) |
응용 분야 | 얼굴 인식, 자율 주행, 의료 이미지 분석, 위성 이미지 분석 |

합성곱 신경망은 주로 그리드 형태의 데이터, 특히 이미지와 영상 데이터를 처리하도록 설계된 인공 신경망의 한 종류이다. 전통적인 다층 퍼셉트론과 달리, 공간적 계층 구조를 효과적으로 학습할 수 있는 합성곱 연산을 핵심 연산으로 사용한다. 이는 컴퓨터 비전 분야에서 이미지 인식, 분류, 탐지 등의 작업에 혁신적인 성능 향상을 가져왔다.
합성곱 신경망의 핵심 아이디어는 지역 수용장과 가중치 공유 개념이다. 각 뉴런은 입력 데이터의 전체가 아닌 일부 지역(예: 이미지의 작은 패치)에만 연결되어 있으며, 이 연결 가중치는 입력의 다른 위치에서도 동일하게 공유된다[1]. 이러한 구조 덕분에 에지, 텍스처, 형상과 같은 계층적 특징을 자동으로 추출할 수 있다.
합성곱 신경망은 일반적으로 합성곱 계층, 풀링 계층, 완전 연결 계층이 번갈아 또는 조합되어 구성된다. 초기 모델인 LeNet-5는 필기체 숫자 인식에 성공했으며, 이후 AlexNet의 등장으로 딥러닝의 새로운 시대가 열렸다. 현재는 이미지넷 대회를 통해 VGGNet, ResNet 등 더 깊고 복잡한 아키텍처가 발전하여 다양한 응용 분야에서 표준적인 도구로 자리 잡았다.

합성곱 신경망의 기본 구조는 주로 합성곱 계층, 풀링 계층, 완전 연결 계층이라는 세 가지 핵심 구성 요소를 순차적으로 쌓아서 형성된다. 이 계층들은 각각 특징 추출, 차원 축소, 최종 분류 또는 회귀의 역할을 담당하며, 입력 이미지로부터 계층적으로 의미 있는 특징을 학습하도록 설계되었다. 초기 계층은 에지나 텍스처와 같은 저수준 특징을 감지하고, 네트워크가 깊어질수록 점점 더 추상적이고 복잡한 고수준 특징(예: 객체의 일부나 전체 형태)을 표현하게 된다.
합성곱 계층은 CNN의 가장 핵심적인 구성 요소이다. 이 계층은 학습 가능한 필터(또는 커널)를 입력 데이터에 슬라이딩하며 합성곱 연산을 수행한다. 각 필터는 이미지의 특정 지역적 패턴(예: 수직선, 대각선, 색상 변화)에 반응하도록 학습되며, 그 결과로 특징 맵을 생성한다. 합성곱 연산은 가중치 공유와 국부적 연결성 덕분에 파라미터 수를 크게 줄이면서도 공간적 계층 구조를 효과적으로 포착한다. 일반적으로 합성곱 연산 후에는 활성화 함수(주로 ReLU)를 적용하여 비선형성을 부여한다.
풀링 계층은 주로 합성곱 계층 사이에 배치되어, 생성된 특징 맵의 공간적 크기를 축소한다. 가장 일반적인 방식은 최대 풀링으로, 지정된 영역(예: 2x2) 내에서 최댓값만을 선택하여 전달한다. 이 과정은 계산량과 파라미터 수를 줄여 과적합을 완화하고, 특징의 위치에 대한 작은 변화(변위)에 강인한 특성을 부여한다. 풀링 계층은 학습 가능한 파라미터를 가지지 않는 것이 일반적이다.
마지막 부분에는 하나 이상의 완전 연결 계층이 위치한다. 이 계층에서는 풀링 계층을 거쳐 평탄화된 모든 특징 벡터가 전통적인 다층 퍼셉트론과 같이 모든 뉴런과 연결된다. 완전 연결 계층은 앞선 계층들이 추출한 고수준 특징들을 종합하여 최종 작업(예: 1000개의 이미지 클래스 중 하나로 분류)을 수행한다. 네트워크의 최종 출력층에서는 소프트맥스(분류)나 선형 함수(회귀) 등의 활성화 함수를 사용한다.
합성곱 계층은 합성곱 신경망의 핵심 구성 요소로, 입력 데이터에서 지역적인 특징을 추출하는 역할을 한다. 이 계층은 학습 가능한 필터 또는 커널을 사용하여 입력 데이터에 합성곱 연산을 수행한다. 필터는 일반적으로 작은 크기의 2차원 행렬이며, 입력 이미지나 이전 계층의 특징 맵 위를 슬라이딩하며 내적 연산을 통해 새로운 특징 맵을 생성한다.
합성곱 계층의 주요 하이퍼파라미터로는 필터의 크기, 스트라이드, 패딩이 있다. 필터 크기는 보통 3x3이나 5x5와 같이 홀수로 설정된다. 스트라이드는 필터가 입력 위를 이동하는 간격을 결정하며, 1이 일반적이다. 패딩은 입력 데이터의 가장자리에 0과 같은 값을 추가하여 출력 특징 맵의 크기를 조절하거나 공간 정보의 손실을 줄이는 기법이다. 예를 들어, '동일 패딩'은 입력과 출력의 공간적 크기를 동일하게 유지한다.
이 계층은 가중치 공유와 국소 연결성이라는 두 가지 중요한 특성을 가진다. 국소 연결성은 각 뉴런이 입력의 일부 영역에만 연결됨을 의미하며, 이는 전통적인 완전 연결 계층과 대비된다. 가중치 공유는 동일한 필터가 입력의 모든 위치에 적용되어 파라미터 수를 크게 줄이고, 특징의 위치에 구애받지 않는 변환 불변성을 학습하는 데 기여한다. 합성곱 연산 후에는 비선형성을 추가하기 위해 활성화 함수인 ReLU가 일반적으로 적용된다.
하이퍼파라미터 | 설명 | 일반적인 값 |
|---|---|---|
필터 크기 | 특징을 감지하는 커널의 높이와 너비 | 3x3, 5x5 |
스트라이드 | 필터를 이동시키는 픽셀 간격 | 1 또는 2 |
패딩 | 입력 주변에 추가하는 픽셀 영역 | '유효'(없음) 또는 '동일' |
필터 개수 | 계층이 학습하는 서로 다른 특징의 수 | 32, 64, 128 등 |
풀링 계층은 합성곱 신경망의 기본 구성 요소 중 하나로, 합성곱 계층에서 추출된 특징 맵의 공간적 크기를 축소하고 주요 정보를 압축하는 역할을 한다. 이 과정을 통해 모델의 계산 복잡도와 매개변수 수가 감소하며, 과적합 위험을 낮추고 변형 불변성을 향상시킨다. 풀링은 일반적으로 합성곱 계층 이후에 적용된다.
가장 일반적인 풀링 연산은 최대 풀링과 평균 풀링이다. 최대 풀링은 지정된 영역(예: 2x2 크기의 필터) 내에서 가장 큰 값을 선택하여 출력한다. 이는 가장 두드러진 특징을 보존하는 데 효과적이다. 평균 풀링은 동일한 영역 내 값들의 평균을 계산하여 출력하며, 전체적인 특징 정보를 부드럽게 전달한다. 최대 풀링이 이미지 분류 작업에서 더 널리 사용된다[2].
풀링 계층의 주요 하이퍼파라미터는 필터 크기(예: 2x2)와 스트라이드(이동 간격)이다. 일반적으로 스트라이드는 필터 크기와 동일하게 설정하여 중복을 피하고 크기를 정확히 절반으로 줄인다. 풀링 연산은 깊이(채널) 방향으로는 독립적으로 적용되므로, 입력 특징 맵의 채널 수는 풀링 후에도 유지된다. 풀링 계층은 학습 가능한 매개변수를 가지지 않는 것이 특징이다.
풀링 유형 | 연산 방식 | 주요 효과 |
|---|---|---|
최대 풀링 | 지정 영역 내 최댓값 선택 | 두드러진 특징 보존, 과적합 방지 |
평균 풀링 | 지정 영역 내 평균값 계산 | 전체적 특징 정보 전달, 노이즈 감소 |
전역 평균 풀링 | 전체 공간 평균 계산 | 완전 연결 계층 대체, 모델 경량화 |
최근에는 전역 평균 풀링과 같은 변형도 사용된다. 이는 각 특징 맵 전체에 대해 평균을 계산하여 하나의 값으로 만든다. 이 방식은 모델 끝단에 위치하여 완전 연결 계층을 대체할 수 있어, 매개변수를 크게 줄이고 모델을 경량화하는 데 기여한다.
완전 연결 계층은 합성곱 신경망의 후반부에 위치하며, 합성곱 계층과 풀링 계층을 통해 추출된 고차원의 특징을 최종적인 분류나 회귀 결과로 변환하는 역할을 한다. 이 계층은 다층 퍼셉트론과 구조가 동일하여, 계층 내의 모든 뉴런이 이전 계층의 모든 뉴런과 연결되는 구조를 가진다. 이 때문에 완전 연결 계층은 네트워크의 대부분의 매개변수를 차지하며, 계산 비용이 높은 부분이기도 하다.
이 계층의 주요 기능은 추상화된 특징들 사이의 복잡한 비선형 관계를 학습하는 것이다. 예를 들어, 이미지 분류 작업에서 마지막 완전 연결 계층의 출력은 각 클래스에 대한 점수 또는 확률이 된다. 일반적으로 소프트맥스 함수가 마지막 계층의 활성화 함수로 사용되어 이러한 점수를 확률 분포로 변환한다. 네트워크의 깊이와 복잡도에 따라 하나 이상의 완전 연결 계층이 연속적으로 배치될 수 있다.
계층 유형 | 입력 형태 | 출력 형태 | 주요 역할 |
|---|---|---|---|
합성곱/풀링 계층 | 특징 맵(3차원 텐서) | 특징 맵(3차원 텐서) | 공간적/국부적 특징 추출 |
완전 연결 계층 | 평탄화된 벡터 (1차원) | 클래스 점수/확률 (1차원) | 전역적 특징 통합 및 분류 |
완전 연결 계층에 입력되기 전에는, 마지막 합성곱 또는 풀링 계층의 3차원 출력(높이, 너비, 채널)이 1차원 벡터로 평탄화된다. 이 과정을 통해 공간 정보는 소실되지만, 추출된 특징의 의미 있는 조합을 학습하는 데 집중할 수 있게 된다. 현대의 일부 CNN 아키텍처에서는 계산 효율성과 과적합 방지를 위해 완전 연결 계층을 전역 평균 풀링 계층으로 대체하는 경향도 있다[3].

합성곱 신경망의 발전은 몇 가지 획기적인 아키텍처의 등장을 통해 이루어졌다. 초기 모델은 개념을 증명하는 데 그쳤지만, 이후 등장한 모델들은 더 깊고 복잡한 구조를 통해 성능을 비약적으로 향상시켰다. 이러한 주요 아키텍처들은 딥러닝과 컴퓨터 비전 분야의 발전을 이끈 핵심적인 기여를 했다.
초기 모델인 LeNet-5는 합성곱 계층, 풀링 계층, 완전 연결 계층을 조합한 기본적인 CNN 구조를 제시했다. 주로 손글씨 숫자 인식에 사용되었으며, 그레이디언트 기반 학습의 가능성을 보여주었다. 이후 2012년 등장한 AlexNet은 ReLU 활성화 함수와 드롭아웃 규제 기법을 대중화했고, GPU를 활용한 병렬 연산으로 깊은 네트워크 학습을 가능하게 했다. 이 모델은 ImageNet 대회에서 압도적인 성능 차이로 딥러닝의 부흥을 촉발시켰다.
더 깊은 네트워크를 탐구하는 과정에서 VGGNet이 등장했다. 작은 크기(3x3)의 합성곱 필터만을 반복적으로 쌓아 매우 깊고 일관된 구조를 가진 것이 특징이다. 이는 모델의 깊이가 성능에 미치는 영향을 명확히 보여주었다. 그러나 네트워크가 지나치게 깊어지면 발생하는 기울기 소실 문제를 해결하기 위해 ResNet이 제안되었다. ResNet은 잔차 블록과 스킵 연결 개념을 도입하여, 레이어를 건너뛰는 경로를 만들어 그래디언트의 원활한 흐름을 보장했다. 이를 통해 수백 개의 레이어로 구성된 네트워크도 안정적으로 학습할 수 있게 되었다.
모델 이름 | 주요 특징 | 주요 기여 |
|---|---|---|
LeNet-5 | 합성곱-풀링-완전연결의 기본 구조 | CNN의 초기 개념 증명 |
AlexNet | ReLU, 드롭아웃, GPU 가속 도입 | 딥러닝 부흥의 시발점 |
VGGNet | 작은 필터의 반복적 쌓음으로 깊은 구조 | 네트워크 깊이의 중요성 강조 |
ResNet | 잔차 학습과 스킵 연결 | 극도로 깊은 네트워크의 학습 가능성 제시 |
이러한 아키텍처들의 발전은 단순히 정확도 향상을 넘어, 네트워크 설계에 대한 철학적 변화를 가져왔다. 초기의 평평한 구조에서 깊은 구조로, 다시 깊이의 한계를 극복하는 효율적인 구조로의 진화는 이후 등장하는 수많은 변형 모델들의 기초가 되었다.
LeNet-5는 1998년 얀 르쿤과 그의 동료들에 의해 제안된 최초의 실용적인 합성곱 신경망 모델이다. 이 모델은 손으로 쓴 우편번호 숫자 인식 문제를 해결하기 위해 개발되었으며, 이후 컴퓨터 비전과 딥러닝의 발전에 지대한 영향을 미쳤다. LeNet-5는 합성곱 계층과 풀링 계층을 번갈아 쌓고, 마지막에 완전 연결 계층을 연결하는 현대적인 CNN 구조의 기본 틀을 확립했다.
LeNet-5의 구조는 다음과 같은 7개의 계층으로 구성된다. 입력은 32x32 크기의 흑백 이미지를 사용한다.
계층 유형 | 특징 맵 크기 | 커널 크기/스트라이드 | 설명 |
|---|---|---|---|
입력 | 32x32x1 | - | 그레이스케일 이미지 입력 |
합성곱 (C1) | 28x28x6 | 5x5 / 1 | 6개의 특징 맵 추출 |
평균 풀링 (S2) | 14x14x6 | 2x2 / 2 | 서브샘플링 수행 |
합성곱 (C3) | 10x10x16 | 5x5 / 1 | 16개의 특징 맵 추출 |
평균 풀링 (S4) | 5x5x16 | 2x2 / 2 | 서브샘플링 수행 |
합성곱 (C5) | 1x1x120 | 5x5 / 1 | 120개의 특징 맵으로 평탄화 |
완전 연결 (F6) | 84개 유닛 | - | 은닉층 역할 |
출력 | 10개 유닛 | - | 0-9 숫자 클래스에 대한 확률 출력 |
이 모델의 주요 특징은 평균 풀링을 사용한 서브샘플링과 시그모이드 함수 또는 탄젠트 하이퍼볼릭 함수를 활성화 함수로 채택한 점이다. 당시에는 ReLU 함수가 널리 사용되지 않았다. 또한, 출력층에서는 유클리드 거리 기반의 방사형 기저 함수를 사용하기도 했다.
LeNet-5의 성공은 기울기 소실 문제가 아직 본격적으로 제기되기 전이었음에도, 역전파 알고리즘을 통해 여러 계층의 합성곱 신경망을 효과적으로 학습할 수 있음을 증명했다. 이는 MNIST 데이터셋과 같은 필기체 숫자 인식 작업에서 높은 정확도를 달성하는 계기가 되었다. 비록 현대의 모델에 비해 구조가 단순하지만, LeNet-5는 계층적 특징 추출의 개념을 정립한 선구자적 모델로 평가받는다.
AlexNet은 2012년 ImageNet 대규모 시각 인식 챌린지에서 획기적인 성능을 보이며 합성곱 신경망의 현대적 부흥을 이끈 모델이다. 토론토 대학교의 알렉스 크리제브스키, 일리야 수츠케버, 제프리 힌튼이 개발했다. 이 모델은 당시 우승한 모델보다 오류율을 10.8%포인트나 낮추는 압도적인 성과를 거두었고, 심층 학습이 컴퓨터 비전 분야의 주류 방법론으로 자리 잡는 결정적 계기를 마련했다.
AlexNet의 핵심 혁신은 깊은 구조와 몇 가지 새로운 기법의 도입에 있다. 8개의 학습 가능한 계층(5개의 합성곱 계층, 3개의 완전 연결 계층)으로 구성되었으며, 당시 기준으로 매우 깊은 네트워크였다. 과적합을 방지하기 위해 드롭아웃 기법을 완전 연결 계층에 최초로 적용했고, ReLU 활성화 함수를 주류로 사용하여 시그모이드 함수보다 빠른 학습을 가능하게 했다. 또한 두 개의 GPU를 사용한 병렬 처리와 로컬 응답 정규화 같은 기법도 도입했다.
아키텍처는 크게 두 개의 GPU 경로로 나뉘어 처리되며, 주요 계층의 구성은 다음과 같다.
계층 유형 | 커널 크기/스트라이드 | 출력 맵 수 | 비고 |
|---|---|---|---|
합성곱 계층 | 11x11 / 4 | 96 | ReLU, LRN 적용 |
최대 풀링 | 3x3 / 2 | 96 | |
합성곱 계층 | 5x5 / 1 | 256 | ReLU, LRN 적용 |
최대 풀링 | 3x3 / 2 | 256 | |
합성곱 계층 | 3x3 / 1 | 384 | ReLU 적용 |
합성곱 계층 | 3x3 / 1 | 384 | ReLU 적용 |
합성곱 계층 | 3x3 / 1 | 256 | ReLU 적용 |
최대 풀링 | 3x3 / 2 | 256 | |
완전 연결 계층 | - | 4096 | ReLU, 드롭아웃 적용 |
완전 연결 계층 | - | 4096 | ReLU, 드롭아웃 적용 |
완전 연결 계층 | - | 1000 | 출력 계층 (ImageNet 클래스) |
이 모델의 성공은 GPU 가속과 대규모 데이터셋(ImageNet)의 조합이 심층 신경망 학습을 실용화할 수 있음을 증명했다. AlexNet 이후 VGGNet, GoogLeNet, ResNet 등 더 깊고 정교한 CNN 아키텍처의 연구가 폭발적으로 증가하는 계기가 되었다.
VGGNet은 옥스퍼드 대학교의 시각 기하학 그룹이 개발한 합성곱 신경망 아키텍처이다. 2014년 ILSVRC에서 준우승을 차지하며 당시 최고 수준의 성능을 보여주었다. 이 모델의 가장 큰 특징은 작은 3x3 크기의 합성곱 필터만을 깊게 쌓아 구성했다는 점이다. 이는 AlexNet이나 ZFNet 등 이전 모델들이 사용하던 11x11, 7x7, 5x5 등 다양한 크기의 큰 필터를 대체하는 설계 철학을 반영한다.
VGGNet은 주로 VGG16과 VGG19라는 두 가지 버전으로 알려져 있다. 이름의 숫자는 가중치가 있는 계층(합성곱 계층과 완전 연결 계층)의 총 수를 의미한다. VGG16은 13개의 합성곱 계층과 3개의 완전 연결 계층으로, VGG19는 16개의 합성곱 계층과 3개의 완전 연결 계층으로 구성된다. 모든 합성곱 계층 뒤에는 ReLU 활성화 함수가 적용되며, 주기적으로 최대 풀링 계층을 배치하여 공간적 차원을 축소한다.
모델 버전 | 합성곱 계층 수 | 완전 연결 계층 수 | 총 계층 수 (가중치 계층) |
|---|---|---|---|
VGG16 | 13 | 3 | 16 |
VGG19 | 16 | 3 | 19 |
작은 필터를 반복적으로 사용하는 이 방식은 몇 가지 장점을 제공한다. 첫째, 여러 개의 3x3 합성곱을 연속으로 적용하는 것은 하나의 5x5나 7x7 합성곱을 적용하는 것과 유사한 수용 영역을 가지면서도 더 많은 비선형성(ReLU)을 도입할 수 있어 표현력이 향상된다. 둘째, 사용해야 할 학습 가능한 매개변수의 수가 크게 줄어들어 계산 효율성이 개선된다. 그러나 매우 깊은 구조와 많은 수의 완전 연결 계층으로 인해 모델의 매개변수 총량은 여전히 컸으며, 이는 학습과 추론에 상당한 계산 자원을 필요로 했다.
VGGNet의 단순하고 일관된 구조는 이후 많은 연구의 백본 네트워크로 널리 채택되었다. 그 직관적인 설계는 전이 학습에 매우 적합하게 만들었으며, 이미지넷 데이터셋으로 사전 학습된 VGG 가중치는 객체 탐지, 분할 등 다양한 컴퓨터 비전 태스크의 기초 특징 추출기로 오랫동안 사용되었다.
ResNet은 2015년 마이크로소프트 리서치의 카이밍 허 등이 제안한 합성곱 신경망 아키텍처이다. 이 모델의 핵심 혁신은 잔차 블록을 도입하여 심층 신경망에서 발생하는 기울기 소실 문제를 효과적으로 해결한 것이다. 기존의 매우 깊은 네트워크는 층이 많아질수록 오히려 학습이 어려워지고 성능이 저하되는 성능 포화 현상을 보였으나, ResNet은 이를 극복하고 당시 ILSVRC 대회에서 획기적인 성능을 기록하며 컴퓨터 비전 분야에 큰 영향을 미쳤다.
ResNet의 핵심 아이디어는 입력을 출력에 직접 더해주는 잔차 학습이다. 각 잔차 블록은 F(x) + x의 형태를 가지며, 여기서 F(x)는 몇 개의 합성곱 계층이 학습해야 할 잔차(차이)를 나타내고 x는 스킵 연결을 통해 전달된 입력이다. 이 구조는 네트워크가 항등 함수를 쉽게 학습하도록 하여, 추가된 층이 최소한의 성능 저하를 일으키도록 보장한다. 결과적으로 네트워크는 기존의 평면 구조보다 훨씬 더 깊게 쌓을 수 있게 되었다.
ResNet은 깊이에 따라 여러 변종이 존재하며, 그 깊이는 주로 합성곱 계층의 수로 정의된다. 대표적인 모델들은 다음과 같다.
모델 이름 | 층 수 | 주요 특징 |
|---|---|---|
ResNet-18 | 18 | 비교적 얕은 버전으로 경량화에 적합 |
ResNet-34 | 34 | 기본적인 잔차 블록을 사용한 중간 규모 모델 |
ResNet-50 | 50 | 병목 잔차 블록을 도입하여 계산 효율성 향상 |
ResNet-101 | 101 | 매우 깊은 네트워크로 높은 정확도 요구 시 사용 |
ResNet-152 | 152 | 가장 깊은 표준 버전 중 하나 |
이 모델들은 이미지넷 데이터셋에서의 우수한 성능을 바탕으로, 객체 탐지나 이미지 분할을 위한 백본 네트워크로 널리 채택되었다. ResNet의 등장은 신경망의 깊이에 대한 한계를 재정의하고, 이후 등장하는 수많은 심층 모델 설계에 지대한 영향을 끼쳤다.

합성곱 신경망 모델의 성능은 입력 데이터의 품질과 처리 방식에 크게 의존한다. 특히 이미지 데이터는 일반적으로 높은 차원성을 가지므로, 모델 학습 전에 적절한 전처리 과정을 거치는 것이 필수적이다. 이 과정은 데이터의 스케일을 정규화하고, 모델이 학습하기 쉬운 형태로 변환하며, 과적합을 완화하는 데 기여한다.
주요 이미지 데이터 전처리 기법으로는 크기 조정, 정규화, 채널 정렬 등이 있다. 대부분의 CNN 모델은 고정된 크기의 입력을 요구하므로, 원본 이미지를 모델의 입력 크기에 맞게 리사이징하거나 자르는 작업이 선행된다. 이후 픽셀 값의 범위를 조정하는 정규화가 수행되는데, 일반적으로 0에서 255 사이의 정수 값을 0에서 1 사이의 실수 값으로 스케일링하거나, 평균을 빼고 표준편차로 나누는 표준화를 적용한다. 또한 RGB 채널 순서를 모델에 맞게 조정하는 작업도 포함된다.
전처리 단계 | 주요 목적 | 일반적인 방법 예시 |
|---|---|---|
크기 조정 | 입력 차원 통일 | 224x224 픽셀로 리사이징 또는 중앙 자르기 |
정규화 | 수치적 안정성 향상, 학습 속도 개선 | 픽셀 값을 255로 나누어 [0,1] 범위로 조정 |
표준화 | 데이터 분포 중심화 | 데이터셋 평균을 빼고 표준편차로 나눔 (예: ImageNet 평균/표준편차 적용) |
데이터 증강은 제한된 양의 학습 데이터로 모델의 일반화 성능을 높이는 핵심 기법이다. 이는 원본 데이터에 무작위 변환을 적용하여 인위적으로 새로운 학습 샘플을 생성하는 과정이다. 대표적인 기법으로는 무작위 수평 뒤집기, 작은 각도의 회전, 평행 이동, 확대/축소, 밝기나 대비 조절 등이 있다. 이러한 변환들은 모델이 객체의 위치, 크기, 방향, 조명 조건 등에 덜 민감하도록 만들어 과적합을 방지하고 강건성을 향상시킨다. 현대의 딥러닝 프레임워크에서는 이러한 증강 기법들을 실시간으로 미니배치에 적용하는 것이 일반적이다.
이미지 데이터 전처리는 합성곱 신경망 모델 학습의 효율성과 성능을 높이기 위한 필수적인 단계이다. 이 과정은 원본 이미지 데이터를 모델이 처리하기에 적합하고 일관된 형태로 변환하는 것을 목표로 한다. 일반적으로 이미지의 크기와 채널을 통일하고, 픽셀 값을 정규화하며, 데이터의 분포를 조정하는 작업을 포함한다.
가장 기본적인 전처리 단계는 이미지 크기 조정과 채널 정규화이다. 다양한 해상도와 종횡비를 가진 입력 이미지를 모델이 요구하는 고정된 크기로 리사이징한다. 예를 들어, 224x224 픽셀 크기를 요구하는 모델에 맞춰 모든 이미지를 이 크기로 변환한다. 또한, RGB 채널을 가진 컬러 이미지의 경우, 각 채널의 픽셀 값 범위를 정규화한다. 일반적으로 0에서 255 사이의 정수 값을 0에서 1 사이의 부동소수점 값으로 스케일링하거나, 평균을 빼고 표준편차로 나누는 표준화를 수행한다. 이는 모델 학습의 안정성을 높이고 수렴 속도를 개선한다.
데이터의 분포를 조정하거나 특정 특성을 강조하기 위한 추가적인 전처리 기법도 사용된다. 히스토그램 평활화는 이미지의 명암 대비를 향상시켜 특징을 더 뚜렷하게 만든다. 가우시안 블러나 샤프닝 필터를 적용하여 노이즈를 제거하거나 경계를 선명하게 할 수 있다. 경우에 따라 색상 공간을 RGB에서 HSV나 YCbCr로 변환하여 채널별로 다른 정보를 추출하기도 한다. 이러한 전처리 방법은 특정 작업의 성능을 최적화하는 데 기여한다.
전처리 단계 | 주요 목적 | 일반적인 방법 예시 |
|---|---|---|
크기 및 채널 통일 | 입력 형태 일관성 확보 | 모든 이미지를 224x224 RGB 크기로 리사이징 |
픽셀 값 정규화 | 학습 안정화 및 가속 | 픽셀 값을 0~255에서 0~1 범위로 스케일링 |
데이터 분포 조정 | 특징 강조 또는 노이즈 제거 |
효과적인 전처리는 모델이 이미지의 본질적인 패턴에 집중하도록 도와주며, 과적합 위험을 줄이고 일반화 성능을 향상시키는 데 기여한다. 전처리 파이프라인은 대상 데이터셋의 특성과 해결하려는 과제에 맞게 설계된다.
데이터 증강은 훈련 데이터의 양과 다양성을 인위적으로 증가시키는 기법이다. 이는 과적합을 방지하고 모델의 일반화 성능을 향상시키는 데 핵심적인 역할을 한다. 특히 이미지 데이터의 경우, 원본 이미지에 다양한 변형을 적용하여 새로운 훈련 샘플을 생성한다. 이 과정은 모델이 객체의 위치, 크기, 방향, 조명 조건 등에 덜 민감하게 학습하도록 돕는다.
주요 데이터 증강 기법은 다음과 같다.
기법 | 설명 | 주요 효과 |
|---|---|---|
기하학적 변환 | 이미지를 회전, 이동, 확대/축소, 뒤집기(수평/수직)하는 변환 | 위치, 크기, 방향 불변성 학습 |
색상 공간 변환 | 밝기, 대비, 색조, 채도 조정 또는 색상 정규화 적용 | 조명 및 색상 변화에 대한 강인성 향상 |
노이즈 추가 | 가우시안 노이즈, 솔트 앤 페퍼 노이즈 등을 이미지에 첨가 | 센서 노이즈나 압축 아티팩트에 대한 강인성 학습 |
임의 영역 제거/은닉 | 이미지의 일부 영역(예: 사각형)을 무작위로 잘라내거나 가림 | 모델이 전체 컨텍스트보다 지역적 특징에 집중하도록 유도 |
효과적인 데이터 증강을 위해서는 도메인 지식을 활용하는 것이 중요하다. 예를 들어, 손글씨 숫자 인식에서는 회전 변환을 과도하게 적용하면 '6'과 '9'를 혼동할 수 있으므로 제한이 필요하다. 또한, 배치 정규화 계층과 결합하거나, 믹스업이나 컷아웃과 같은 고급 기법을 활용하여 그 효과를 극대화할 수 있다. 현대의 딥러닝 프레임워크에서는 이러한 증강 기법들을 실시간으로 파이프라인에 통합하여 효율적으로 적용한다.

합성곱 신경망의 학습 과정은 주어진 데이터를 바탕으로 모델의 매개변수(가중치와 편향)를 조정하여 원하는 작업의 성능을 최적화하는 것을 목표로 한다. 이 과정은 손실 함수를 정의하고, 옵티마이저를 통해 이 손실을 최소화하는 방향으로 매개변수를 업데이트하며, 과적합을 방지하기 위한 다양한 기법을 적용하는 것으로 구성된다.
손실 함수는 모델의 예측값과 실제 정답값 사이의 차이를 계산하는 지표이다. 이미지 분류 작업에서는 교차 엔트로피 손실이 가장 널리 사용된다. 이 함수는 모델이 예측한 각 클래스에 대한 확률 분포와 실제 레이블의 분포 사이의 차이를 측정한다. 손실 값이 작을수록 모델의 예측이 정답에 가깝다는 의미이다. 회귀 문제에는 평균 제곱 오차가 자주 사용된다.
옵티마이저는 손실 함수의 값을 최소화하기 위해 매개변수를 업데이트하는 알고리즘이다. 기본적인 확률적 경사 하강법은 매개변수의 기울기(그래디언트) 반대 방향으로 일정한 학습률만큼 조정한다. 더 발전된 옵티마이저로는 모멘텀을 적용한 SGD with Momentum, 적응적 학습률을 사용하는 Adam 등이 있다. 이들은 학습 속도와 안정성을 개선한다.
옵티마이저 | 주요 특징 | 일반적인 사용처 |
|---|---|---|
간단하지만 수렴이 느리고 진동 가능성 있음 | 기본적인 학습 | |
과거 그래디언트를 고려하여 관성을 부여, 진동 감소 | 더 안정적인 수렴이 필요할 때 | |
각 매개변수에 대해 적응적 학습률 조정, 모멘텀 적용 | 다양한 문제에서 널리 사용되는 표준 옵티마이저 |
과적합은 모델이 훈련 데이터에 지나치게 맞춰져 새로운 데이터에 대한 일반화 성능이 떨어지는 현상이다. 이를 방지하기 위한 주요 기법으로는 드롭아웃이 있다. 드롭아웃은 학습 중에 뉴런을 무작위로 일정 비율만큼 비활성화하여, 네트워크가 특정 뉴런에 지나치게 의존하는 것을 방지한다. 또한, 가중치에 패널티를 부과하는 L2 정규화는 가중치의 크기를 제한하여 복잡한 모델을 단순화하는 효과가 있다. 학습 데이터가 부족할 때는 데이터 증강 기법이 유용하게 적용된다.
합성곱 신경망 모델의 학습 과정에서 손실 함수는 모델의 예측값과 실제 정답값 사이의 차이를 계산하는 역할을 한다. 이 함수의 출력값, 즉 손실은 모델이 얼마나 잘못 예측했는지를 수치화한 것으로, 학습의 목표는 이 손실 값을 최소화하는 모델의 매개변수를 찾는 것이다. 손실 함수의 선택은 해결하려는 문제의 종류에 따라 결정되며, 올바른 함수 선택은 학습의 성공과 모델 성능에 직접적인 영향을 미친다.
이미지 분류와 같은 다중 클래스 분류 문제에서는 교차 엔트로피 손실이 가장 널리 사용된다. 이 함수는 모델이 예측한 각 클래스에 대한 확률 분포와 실제 정답 레이블의 분포 사이의 차이를 측정한다. 구체적으로, 소프트맥스 함수와 결합된 형태로 사용되며, 모델이 정답 클래스에 높은 확신을 가질수록 손실 값은 낮아진다. 이진 분류 문제에서는 이진 교차 엔트로피 손실이 사용되며, 회귀 문제(예: 객체의 위치 좌표 예측)에서는 예측값과 실제값의 평균 제곱 오차를 계산하는 평균 제곱 오차 손실 함수가 일반적이다.
손실 함수의 기울기는 역전파 알고리즘을 통해 네트워크의 각 층으로 전파되어 가중치를 업데이트하는 데 사용된다. 따라서 손실 함수는 미분 가능해야 한다는 기본 조건을 가진다. 일부 특수한 응용 분야, 예를 들어 생성 모델의 학습에는 대립적 손실과 같은 복잡한 형태의 손실 함수가 사용되기도 한다.
합성곱 신경망의 학습 과정에서 옵티마이저는 손실 함수의 값을 최소화하는 방향으로 모델의 가중치와 편향을 업데이트하는 알고리즘이다. 학습률과 같은 하이퍼파라미터를 조절하며, 경사 하강법의 효율성과 수렴 속도를 결정하는 핵심 요소이다.
가장 기본적인 옵티마이저는 확률적 경사 하강법이다. 이 방법은 전체 데이터셋 대신 미니배치를 사용해 기울기를 계산하고 가중치를 업데이트한다. 이는 계산 효율성을 높이고 메모리 사용을 줄이며, 국소 최솟값에서 벗어날 가능성을 제공한다. 그러나 학습률이 고정되어 있을 때 진동 현상이 발생하거나 수렴이 느려질 수 있다.
이러한 한계를 보완하기 위해 모멘텀, Adam, RMSProp 등 다양한 고급 옵티마이저가 개발되었다. 예를 들어, 모멘텀은 과거 기울기의 방향을 일종의 관성으로 활용하여 업데이트 경로를 부드럽게 만든다. Adam은 모멘텀과 RMSProp의 아이디어를 결합하여, 각 가중치에 대해 적응형 학습률을 조정하는 방식으로 널리 사용된다. 옵티마이저의 선택은 문제의 특성, 데이터의 규모, 모델의 복잡도에 따라 달라진다.
과적합은 모델이 훈련 데이터에 지나치게 맞춰져 새로운 데이터에 대한 일반화 성능이 떨어지는 현상이다. 합성곱 신경망은 많은 매개변수를 가지기 때문에 과적합에 취약한 경향이 있다. 이를 방지하기 위한 주요 기법으로는 드롭아웃, 배치 정규화, 데이터 증강, 가중치 감쇠, 조기 종료 등이 있다.
드롭아웃은 학습 과정에서 신경망의 일부 뉴런을 무작위로 비활성화하는 기법이다. 이는 매 학습 단계마다 다른 네트워크 구조를 학습하는 효과를 내어, 단일 모델이 여러 하위 모델의 앙상블처럼 동작하도록 한다. 배치 정규화는 각 계층의 입력 분포를 안정화하여 학습 속도를 높이고, 가중치 초기값에 대한 의존성을 줄이며, 일종의 정규화 효과를 제공한다. 데이터 증강은 훈련 데이터에 회전, 이동, 자르기, 색상 변환 등의 변형을 가해 인위적으로 데이터를 늘리는 방법으로, 모델의 일반화 능력을 향상시킨다.
기법 | 주요 작동 원리 | 일반적인 적용 위치 |
|---|---|---|
학습 중 뉴런 무작위 비활성화 | ||
미니배치의 활성화값 정규화 | 합성곱 또는 완전 연결 계층 후, 활성화 함수 전 | |
가중치의 큰 값을 패널티 | 옵티마이저의 정규화 항으로 적용 | |
검증 손실 모니터링을 통한 학습 중단 | 학습 과정 전반에 걸쳐 |
L2 가중치 감쇠는 손실 함수에 가중치의 제곱합에 비례하는 항을 추가하여 가중치가 지나치게 커지는 것을 방지한다. 조기 종료는 훈련 데이터와 별도로 준비한 검증 데이터의 성능을 모니터링하다가, 검증 손실이 더 이상 개선되지 않으면 학습을 중단하는 방법이다. 이러한 기법들은 종종 함께 사용되어 모델의 일반화 성능을 극대화하고, 훈련 데이터에 대한 지나친 fitting을 효과적으로 억제한다.

합성곱 신경망은 컴퓨터 비전 분야의 여러 핵심 문제를 해결하는 데 널리 사용된다. 가장 기본적인 응용은 이미지 분류로, 입력 이미지가 어떤 범주에 속하는지를 판단하는 작업이다. ImageNet 대회에서 CNN 모델의 성공은 이 분야의 발전을 주도했다. 분류를 넘어 이미지 내에서 객체의 위치와 범주를 모두 찾아내는 객체 탐지는 자율 주행, 보안 시스템 등에 활용된다. R-CNN, YOLO, SSD와 같은 모델이 대표적이다.
더 정밀한 분석을 요구하는 이미지 분할은 이미지의 각 픽셀이 어떤 객체에 속하는지를 분류한다. 이는 의료 영상 분석에서 종양 영역을 식별하거나, 자율 주행에서 도로와 보행자를 정확히 구분하는 데 필수적이다. U-Net, Mask R-CNN 등의 아키텍처가 이 작업에 특화되어 있다.
이미지 처리 외에도 CNN의 응용 범위는 확장되고 있다. 자연어 처리에서는 1차원 합성곱을 적용해 텍스트 분류나 감정 분석에 사용된다. 시계열 분석에서도 센서 데이터나 주가 데이터의 패턴을 인식하는 데 적용된다. 또한, 생성적 적대 신경망의 생성기와 판별기 구성 요소로 CNN이 frequently 사용되어 사실적인 이미지를 생성하는 데 기여한다.
응용 분야 | 주요 작업 | 대표 모델/기법 |
|---|---|---|
이미지 인식 | 이미지 분류 | |
객체 인식 | 객체 탐지 | |
픽셀 단위 분석 | 이미지 분할 | |
이미지 생성 | 합성 이미지 생성 | GAN (생성기/판별기 네트워크) |
기타 영역 | 자연어 처리, 시계열 분석 | 1D-CNN |
이미지 분류는 합성곱 신경망이 가장 널리 알려지고 성공적으로 적용된 분야이다. 이는 입력된 이미지가 어떤 사전 정의된 범주에 속하는지를 판단하는 작업으로, MNIST 데이터셋의 손글씨 숫자 인식부터 ImageNet 데이터셋의 1,000개 물체 범주 분류에 이르기까지 다양한 수준에서 활용된다. CNN은 이미지의 계층적 특징(예: 가장자리, 질감, 형태, 객체 부분)을 자동으로 학습하여 효과적인 분류를 수행한다.
일반적인 이미지 분류 파이프라인은 다음과 같다. 먼저, 입력 계층에 정규화된 이미지 데이터가 공급된다. 이후 여러 개의 합성곱 계층과 풀링 계층이 교대로 배치되어 공간적 차원을 점차 줄이면서 특징 맵의 채널 수를 증가시킨다. 마지막으로, 완전 연결 계층을 통해 추출된 고차원 특징을 평탄화하고, 소프트맥스 함수를 사용하여 각 클래스에 대한 확률 분포를 출력한다. 가장 높은 확률을 가진 클래스가 최종 예측 결과가 된다.
이미지 분류 성능의 비약적 발전은 AlexNet이 2012년 ILSVRC에서 우승하면서 시작되었다. 이후 VGGNet, GoogLeNet, ResNet과 같은 깊고 복잡한 아키텍처들이 등장하며 정확도를 크게 향상시켰다. 특히 ResNet은 잔차 블록을 도입하여 매우 깊은 네트워크의 학습 문제를 해결했고, 전이 학습의 기반 모델로 널리 사용된다.
이 기술은 실생활에서 광범위하게 응용된다. 스마트폰의 얼굴 인식 잠금 해제, 소셜 미디어의 사진 자동 태깅, 의료 영상에서의 질병 진단 보조, 자율 주행 자동차의 교통 표지판 인식 등이 대표적인 예이다. 이러한 응용은 단일 객체 분류를 넘어, 한 이미지 내에 여러 객체가 존재하는 다중 레이블 분류로도 확장되고 있다.
객체 탐지는 합성곱 신경망의 핵심 응용 분야 중 하나로, 이미지 내에서 특정 객체의 위치를 찾아내고 그 종류를 분류하는 작업을 말한다. 이미지 분류가 전체 이미지에 대한 라벨을 부여하는 것과 달리, 객체 탐지는 객체의 위치를 바운딩 박스로 표시하고 각 박스에 대한 클래스를 동시에 예측한다. 이 기술은 자율 주행, 보안 시스템, 의료 영상 분석 등 다양한 실용적인 분야에서 활용된다.
객체 탐지 모델은 일반적으로 두 가지 주요 접근 방식으로 나뉜다. 첫 번째는 2단계 탐지기로, 후보 영역을 먼저 추출한 후 해당 영역을 분류하는 방식이다. 대표적인 모델로는 R-CNN, Fast R-CNN, Faster R-CNN이 있다. 두 번째는 1단계 탐지기로, 영역 추출과 분류를 단일 신경망에서 한 번에 처리하여 속도를 극대화한다. YOLO와 SSD가 이 범주에 속하는 대표적인 모델이다.
접근 방식 | 대표 모델 | 주요 특징 |
|---|---|---|
2단계 탐지기 | R-CNN 계열 (Fast R-CNN, Faster R-CNN) | 정확도가 높지만 상대적으로 느림 |
1단계 탐지기 | YOLO, SSD | 실시간 처리에 적합하며 속도가 빠름 |
성능 평가는 주로 평균 정밀도 지표를 사용한다. 이는 탐지 정확도와 위치 정확도를 종합적으로 반영하며, PASCAL VOC나 COCO와 같은 공개 벤치마크 데이터셋에서 표준 평가 지표로 널리 사용된다. 최근에는 트랜스포머 아키텍처를 기반으로 한 DETR과 같은 모델도 등장하며, 기존 합성곱 신경망 기반 방식과 다른 패러다임을 제시하고 있다.
이미지 분할은 합성곱 신경망을 활용하여 이미지 내 각 픽셀이 어떤 객체나 클래스에 속하는지 분류하는 작업이다. 이는 이미지 전체를 하나의 레이블로 분류하는 이미지 분류와 달리, 픽셀 단위의 세밀한 예측을 수행한다. 주요 목표는 의미론적 경계를 따라 이미지를 여러 영역으로 나누는 것이다.
의미론적 분할과 인스턴스 분할이라는 두 가지 주요 하위 작업으로 구분된다. 의미론적 분할은 동일한 클래스에 속하는 모든 객체를 하나의 영역으로 묶어 픽셀에 의미적 레이블을 할당한다[5]. 반면, 인스턴스 분할은 동일한 클래스 내에서도 개별 객체를 서로 구분하여 식별한다[6].
이를 위한 대표적인 CNN 아키텍처로는 U-Net, FCN, Mask R-CNN 등이 있다. 이 모델들은 일반적으로 인코더-디코더 구조를 채택한다. 인코더 부분은 합성곱 계층과 풀링 계층을 통해 특징을 추출하고 해상도를 점차 낮추는 반면, 디코더 부분은 전치 합성곱이나 업샘플링을 통해 공간 해상도를 복원하고 세부적인 위치 정보를 복구한다. 특히, U-Net은 인코더와 디코더 사이의 스킵 연결을 통해 저수준의 세부 특징을 전달하여 정확한 경계 분할을 가능하게 한다.
이미지 분할 기술은 자율 주행, 의료 영상 분석, 위성 이미지 해석 등 다양한 분야에서 핵심적으로 활용된다. 예를 들어, 의료 영상에서는 MRI나 CT 스캔에서 종양이나 특정 장기를 정확하게 분리하여 진단을 보조한다. 자율 주행에서는 카메라 입력을 통해 도로, 보행자, 차량 등을 실시간으로 구분하여 주변 환경을 이해하는 데 기여한다.

성능 평가 지표는 합성곱 신경망 모델의 예측 성능을 정량적으로 측정하고 비교하는 데 사용되는 기준이다. 특히 이미지 분류와 같은 작업에서 모델의 효과성을 객관적으로 판단하는 데 필수적이다.
가장 기본적인 지표는 정확도이다. 정확도는 전체 샘플 중 모델이 올바르게 분류한 샘플의 비율을 의미한다. 그러나 클래스 간 데이터 불균형이 심한 경우, 정확도만으로는 모델 성능을 왜곡하여 평가할 수 있다. 예를 들어, 90%의 샘플이 A 클래스인 데이터셋에서 모든 샘플을 A로 예측하는 모델은 90%의 높은 정확도를 보이지만, 실제로는 B 클래스를 전혀 구분하지 못하는 문제가 있다. 이러한 한계를 보완하기 위해 정밀도, 재현율, F1 점수와 같은 세분화된 지표가 함께 사용된다. 정밀도는 모델이 특정 클래스로 예측한 결과 중 실제로 맞은 비율을, 재현율은 실제 특정 클래스인 샘플 중 모델이 올바르게 찾아낸 비율을 나타낸다. F1 점수는 정밀도와 재현율의 조화 평균으로, 두 지표를 균형 있게 고려한 단일 점수를 제공한다.
이러한 지표들은 혼동 행렬을 기반으로 계산된다. 혼동 행렬은 예측 클래스와 실제 클래스의 조합을 표 형태로 정리한 것이다. 일반적인 이진 분류의 혼동 행렬 구조는 다음과 같다.
실제 긍정 | 실제 부정 | |
|---|---|---|
예측 긍정 | True Positive (TP) | False Positive (FP) |
예측 부정 | False Negative (FN) | True Negative (TN) |
위 표에서 TP, FP, FN, TN의 값을 바탕으로 정밀도(TP / (TP + FP)), 재현율(TP / (TP + FN)), 정확도((TP + TN) / 총 샘플 수) 등을 산출할 수 있다. 다중 클래스 분류에서는 각 클래스를 긍정 클래스로, 나머지를 부정 클래스로 간주하는 방식으로 One-vs-Rest 전략을 적용하여 클래스별 지표를 계산한 후 평균을 내는 방법이 흔히 사용된다.
객체 탐지나 이미지 분할과 같은 더 복잡한 작업에서는 다른 평가 지표가 필요하다. 객체 탐지에서는 예측된 바운딩 박스와 실제 박스의 겹침 정도를 측정하는 IoU와, 이를 기준으로 계산된 평균 정밀도가 핵심 지표로 활용된다. 이미지 분할에서는 픽셀 단위의 분류 정확도를 평가하기 위해 Dice 계수나 Jaccard 지수가 널리 사용된다.
정확도는 모델이 전체 샘플 중 올바르게 예측한 샘플의 비율을 나타내는 가장 기본적인 지표이다. 이는 (진양성 + 진음성) / (전체 샘플 수)의 공식으로 계산된다. 정확도는 클래스 분포가 균형잡힌 데이터셋에서는 유용한 지표이지만, 클래스 불균형이 심한 경우에는 오해의 소지가 있다. 예를 들어, 95%의 샘플이 A 클래스이고 5%만이 B 클래스인 데이터셋에서, 모델이 모든 샘플을 A 클래스로 예측해도 정확도는 95%가 되어 높은 성능을 보이는 것처럼 보일 수 있기 때문이다.
이러한 한계를 보완하기 위해 정밀도와 재현율이 함께 사용된다. 정밀도는 모델이 특정 클래스로 예측한 샘플 중 실제로 그 클래스였던 샘플의 비율을 의미한다. 즉, "양성이라고 예측한 것들 중에 진짜 양성은 얼마나 되는가?"에 대한 답이다. 공식은 진양성 / (진양성 + 거짓양성)이다. 정밀도는 거짓양성(False Positive)의 비용이 높은 상황, 예를 들어 스팸 메일 탐지에서 정상 메일을 스팸으로 잘못 분류하는 경우를 최소화하고자 할 때 특히 중요하게 고려된다.
정확도와 정밀도는 단독으로 사용되기보다는 다른 지표들과 함께 종합적으로 평가된다. 정밀도와 재현율은 일반적으로 트레이드오프 관계에 있어, 하나를 높이면 다른 하나가 낮아지는 경우가 많다. 이를 조화롭게 평가하기 위해 F1 점수가 사용되며, 이는 정밀도와 재현율의 조화평균이다. 성능 평가 시에는 데이터의 특성과 업무의 목적에 따라 적절한 지표를 선택하거나, 여러 지표를 함께 살펴보는 것이 바람직하다.
혼동 행렬은 이진 분류 문제에서 분류 모델의 성능을 세부적으로 평가하기 위한 표 형식의 도구이다. 예측 결과와 실제 값을 네 가지 경우의 수로 나누어 보여주며, 특히 클래스 간 불균형이 있을 때 단순 정확도보다 더 유용한 통찰을 제공한다.
혼동 행렬은 2x2 행렬로 구성되며, 각 셀은 다음과 같은 의미를 가진다.
실제 \ 예측 | 양성(Positive) 예측 | 음성(Negative) 예측 |
|---|---|---|
양성(Positive) 실제 | 진양성(True Positive, TP) | 위음성(False Negative, FN) |
음성(Negative) 실제 | 위양성(False Positive, FP) | 진음성(True Negative, TN) |
이 표를 바탕으로 정밀도, 재현율, F1 점수 등 여러 중요한 평가 지표를 계산할 수 있다. 예를 들어, 정밀도는 TP / (TP + FP)로 계산되며, 모델이 양성이라고 예측한 것 중 실제로 양성인 비율을 나타낸다. 재현율은 TP / (TP + FN)으로 계산되며, 실제 양성 샘플 중 모델이 올바르게 찾아낸 비율을 의미한다.
다중 클래스 분류 문제로 확장될 경우, 혼동 행렬은 n x n 행렬이 된다. 여기서 n은 클래스의 수이며, 대각선 요소는 각 클래스에 대해 올바르게 분류된 샘플 수를, 비대각선 요소는 한 클래스를 다른 클래스로 잘못 예측한 오류의 패턴을 보여준다. 이를 통해 모델이 특정 클래스 쌍을 혼동하는 취약점을 명확히 파악할 수 있다.

최근 합성곱 신경망 모델의 발전은 모델의 경량화와 효율성 향상, 그리고 주의 메커니즘의 통합이라는 두 가지 주요 흐름을 중심으로 이루어지고 있다.
모델 경량화는 복잡한 모델을 모바일 기기나 임베디드 시스템과 같은 제한된 컴퓨팅 자원 환경에 배포하기 위한 핵심 과제이다. 이를 위해 모바일넷과 셰이플넷 같은 아키텍처는 깊이별 분리 합성곱 연산을 도입하여 매개변수 수와 계산량을 크게 줄였다. 경량화 기법으로는 가지치기, 양자화, 지식 증류 등이 활발히 연구되고 있다. 가지치기는 모델에서 중요도가 낮은 연결이나 뉴런을 제거하고, 양자화는 가중치와 활성화 값을 낮은 비트 정수로 표현하여 모델 크기를 축소한다. 지식 증류는 큰 모델(교사 모델)의 지식을 작은 모델(학생 모델)에 전이시키는 방법이다.
주의 메커니즘은 모델이 입력 데이터의 모든 부분을 균등하게 처리하는 대신, 현재 작업에 더 관련성이 높은 부분에 '주의'를 집중하도록 하는 패러다임이다. 트랜스포머 아키텍처의 성공 이후, 합성곱 신경망에도 시공간 주의 메커니즘이 통합되고 있다. 대표적인 예로 비전 트랜스포머는 패치 임베딩 방식을 통해 이미지를 처리하며, 순수 주의 메커니즘 기반의 아키텍처를 제시했다. 합성곱 신경망과 주의 메커니즘을 결합한 하이브리드 모델도 등장하여, 컨볼루션의 지역적 특징 추출 능력과 주의 메커니즘의 장기 의존성 모델링 능력을 동시에 활용한다. 이러한 발전은 이미지 분류를 넘어 객체 탐지와 이미지 분할 등 다양한 컴퓨터 비전 태스크의 성능을 한층 높이고 있다.
합성곱 신경망의 성능이 향상되면서 모델의 크기와 복잡도도 함께 증가하여, 높은 계산 비용과 메모리 사용량이 문제가 되었다. 이는 스마트폰, 사물인터넷 장치, 자율주행차와 같은 제한된 하드웨어 자원을 가진 엣지 컴퓨팅 환경에서의 배포를 어렵게 만들었다. 이러한 문제를 해결하기 위해 모델의 크기를 줄이면서도 성능을 유지하거나 약간만 저하시키는 경량화 모델 연구가 활발히 진행되었다.
경량화는 주로 모델의 매개변수 수와 부동소수점 연산 횟수를 줄이는 방향으로 이루어진다. 주요 접근법은 크게 세 가지로 나눌 수 있다. 첫째는 효율적인 네트워크 설계로, MobileNet 시리즈는 깊이별 분리 합성곱을 도입하여 표준 합성곱보다 적은 계산량으로 유사한 성능을 달성했다. ShuffleNet은 채널 셔플링을 통해 그룹 합성곱의 효율성을 높였고, SqueezeNet은 파이어 모듈을 사용하여 매개변수를 크게 줄였다. 둘째는 모델 압축 기법으로, 중요도가 낮은 가중치를 제거하는 가지치기, 가중치의 정밀도를 낮추는 양자화, 그리고 지식 증류를 통해 큰 모델의 지식을 작은 모델로 전이하는 방법이 포함된다. 셋째는 하드웨어 가속에 최적화된 신경망 구조 탐색을 활용한 자동화된 경량 모델 설계이다.
이러한 경량화 모델들은 이미지 분류 및 객체 탐지와 같은 주요 컴퓨터 비전 작업에서 기존 대형 모델에 버금가는 성능을 보여주며 실용성을 입증했다. 예를 들어, MobileNet과 EfficientNet은 ImageNet 데이터셋에서 높은 정확도를 유지하면서도 ResNet 같은 모델보다 훨씬 적은 계산 자원을 요구한다. 경량화 기술의 발전은 인공지능 모델의 보급을 확대하고, 실시간 처리와 에너지 효율성이 중요한 응용 분야에서 CNN의 활용 가능성을 크게 넓혔다.
주의 메커니즘은 합성곱 신경망이 입력 데이터의 모든 부분을 균등하게 처리하는 대신, 특정 부분에 더 많은 '주의'를 기울이도록 하는 계산 구조이다. 이는 인간의 시각적 주의 체계에서 영감을 받아, 모델이 관련성이 높은 특징에 집중함으로써 계산 효율성과 성능을 동시에 향상시키는 것을 목표로 한다. 초기 합성곱 신경망은 모든 공간 위치의 특징을 동등하게 취급했으나, 주의 메커니즘은 네트워크가 '어디를 봐야 하는지' 학습하도록 유도한다.
주요 주의 메커니즘 유형으로는 공간 주의, 채널 주의, 그리고 이 둘을 결합한 하이브리드 방식이 있다. 공간 주의 맵은 입력 특징 맵의 어떤 공간적 위치가 중요한지를 나타내는 가중치 맵을 생성한다. 채널 주의는 각 특징 채널의 중요도를 재조정하여, 어떤 채널의 정보를 강화하거나 억제할지 결정한다. 대표적인 모듈인 SE-Net의 Squeeze-and-Excitation 블록은 채널 주의를 효과적으로 구현한 사례이다[7].
주의 메커니즘의 도입은 모델 성능에 긍정적인 영향을 미친다. 불필요한 배경 정보를 억제하고 핵심 객체나 세부 특징에 대한 표현력을 강화하여, 이미지 분류 및 객체 탐지 정확도를 높인다. 또한, 계산 자원을 중요한 영역에 집중시켜 모델의 효율성을 개선하는 경향이 있다. 이는 경량화 모델 설계에 특히 유용하게 적용된다.
메커니즘 유형 | 설명 | 대표 모듈/네트워크 |
|---|---|---|
공간 주의 | 특징 맵의 공간적 위치별 중요도를 학습 | Spatial Attention Module |
채널 주의 | 특징 채널별 중요도를 학습 및 재가중 | SE-Net(Squeeze-and-Excitation Network) |
하이브리드 주의 | 공간과 채널 주의를 결합 | CBAM(Convolutional Block Attention Module) |
이러한 메커니즘은 트랜스포머 아키텍처의 등장 이후 더욱 확산되었다. 비전 트랜스포머 모델들은 자기 주의 메커니즘을 핵심으로 하여, 이미지 패치 간의 전역적인 관계를 모델링한다. 이는 기존 합성곱 신경망의 지역적 수용장 한계를 넘어서는 강력한 모델링 능력을 제공하며, 합성곱 신경망과의 결합 형태로도 활발히 연구되고 있다.
