배치 정규화

1. 개요

배치 정규화는 딥러닝 모델의 학습을 안정화하고 속도를 높이기 위해 고안된 기법이다. 2015년 세르게이 이오페와 크리스티안 세게디가 발표한 논문에서 처음 제안되었다[1]. 이 기법은 신경망의 각 은닉층에 입력되는 데이터의 분포를 평균 0, 분산 1로 정규화하는 과정을 학습 중에 삽입한다.

배치 정규화의 핵심 아이디어는 내부 공변량 변화 문제를 완화하는 것이다. 신경망의 가중치가 업데이트될 때마다 각 층의 입력 분포가 급격하게 변하면, 학습이 불안정해지고 느려진다. 배치 정규화는 각 층의 활성화 값을 정규화함으로써 이 문제를 해결하고, 그래디언트 소실 문제를 완화하며 학습률을 크게 설정할 수 있게 한다.

이 기법은 컨볼루션 신경망과 순환 신경망을 포함한 다양한 신경망 구조에 폭넓게 적용된다. 배치 정규화를 사용하면 모델의 성능과 일반화 능력이 향상되며, 학습 과정에서 규제 효과도 제공하는 것으로 알려져 있다. 결과적으로 배치 정규화는 현대 딥러닝 모델 설계에서 거의 필수적인 구성 요소로 자리 잡았다.

2. 배치 정규화의 동기와 필요성

심층 신경망의 학습 과정에서, 특히 많은 은닉층을 가진 네트워크에서는 내부 공변량 변화라는 문제가 발생한다. 이는 네트워크의 각 층의 입력 분포가 학습이 진행됨에 따라 이전 층의 매개변수 갱신으로 인해 지속적으로 변화하는 현상을 의미한다. 이러한 입력 분포의 불안정한 변화는 각 층이 지속적으로 변화하는 입력에 적응해야 하게 만들어, 학습 속도를 늦추고 학습률을 낮게 설정하도록 강제한다.

또한, 활성화 함수의 특성과 결합되어 그래디언트 소실 또는 그래디언트 폭발 문제를 악화시킬 수 있다. 예를 들어, 시그모이드 함수나 하이퍼볼릭 탄젠트 함수를 사용할 경우, 입력값이 특정 범위를 벗어나면 그래디언트가 매우 작아지는 영역에 빠지기 쉽다. 네트워크 깊이가 깊어질수록 이러한 작은 그래디언트가 여러 층을 거치며 곱해지면, 최종적으로 출력층 근처의 그래디언트는 거의 사라지게 되어 매개변수 갱신이 이루어지지 않는다. 배치 정규화는 각 층의 입력을 정규화하여 이러한 문제를 완화한다.

문제	설명	배치 정규화의 역할
내부 공변량 변화	층별 입력 분포가 학습 중 지속적으로 변화함	각 층의 입력을 평균 0, 분산 1로 정규화하여 분포를 안정화
그래디언트 소실/폭발	깊은 네트워크에서 그래디언트가 지나치게 작아지거나 커짐	활성화 값을 적절한 범위로 유지시켜 그래디언트 흐름을 개선

따라서 배치 정규화는 단순히 학습 속도를 가속화하는 도구를 넘어, 매우 깊거나 복잡한 네트워크 구조를 효과적으로 학습시키기 위한 핵심적인 필요 조건으로 자리 잡았다. 이를 통해 연구자들은 더 높은 학습률을 사용할 수 있게 되었고, 가중치 초기화에 대한 예민함을 줄이며, 네트워크의 수렴 안정성을 크게 높일 수 있었다.

2.1. 내부 공변량 변화 문제

내부 공변량 변화는 심층 신경망의 학습 과정에서 발생하는 핵심적인 문제 중 하나이다. 이는 신경망의 각 층의 입력 분포가 학습이 진행됨에 따라 계속해서 변화하는 현상을 가리킨다. 네트워크의 매개변수가 갱신되면, 이전 층의 출력이 변하고, 이는 다음 층의 입력으로 전달되어 그 입력 분포를 바꾸게 된다. 결과적으로, 깊은 네트워크의 뒷부분 층들은 지속적으로 변화하는 입력 분포에 적응해야 하는 부담을 지게 된다.

이 문제는 학습을 불안정하게 만들고 학습 속도를 현저히 떨어뜨린다. 각 층은 자신에게 들어오는 입력의 분포가 고정되어 있다는 가정 하에 최적의 매개변수를 학습하려고 시도하지만, 실제로는 그 분포가 계속 변하기 때문에 층마다 최적화 목표가 흔들리게 된다. 이로 인해 학습률을 낮게 설정해야만 안정적인 학습이 가능해지며, 이는 결국 수렴에 필요한 시간을 크게 증가시킨다.

내부 공변량 변화는 특히 시그모이드 함수나 하이퍼볼릭 탄젠트와 같은 포화 비선형 활성화 함수를 사용할 때 더욱 두드러진 문제를 일으킨다. 입력 분포의 변화가 활성화 함수의 포화 영역으로 값을 밀어넣으면, 기울기 소실 문제가 발생하여 가중치 갱신이 거의 이루어지지 않게 된다. 배치 정규화는 각 층의 입력을 평균 0, 분산 1로 정규화함으로써 이 내부 공변량 변화를 억제하고, 활성화 값이 포화 영역에 머무르는 것을 방지하는 메커니즘을 제공한다.

2.2. 그래디언트 소실/폭발 문제 완화

그래디언트 소실 문제는 심층 신경망에서 활성화 함수를 통과할 때마다 그래디언트의 크기가 지속적으로 감소하여, 네트워크의 하위 층으로 갈수록 가중치 업데이트가 거의 이루어지지 않는 현상을 말한다. 반대로 그래디언트 폭발 문제는 그래디언트가 지나치게 커져서 학습이 불안정해지는 현상을 의미한다. 이 두 문제는 특히 시그모이드 함수나 하이퍼볼릭 탄젠트 함수와 같은 포화 비선형 활성화 함수를 사용할 때 심각해진다.

배치 정규화는 이러한 문제를 완화하는 데 기여한다. 각 층의 입력 분포를 평균 0, 분산 1로 정규화함으로써, 활성화 함수의 입력값이 포화 영역에 치우치는 것을 방지한다. 예를 들어, 시그모이드 함수의 입력이 너무 크거나 작으면 그래디언트가 0에 가까워지지만, 배치 정규화는 입력을 대부분 선형 영역에 위치하도록 유도한다. 이는 역전파 과정에서 그래디언트가 더 크고 안정적으로 흐를 수 있도록 만들어, 네트워크의 깊은 층까지 효과적인 학습 신호가 전달되게 한다.

결과적으로, 배치 정규화를 적용한 네트워크는 그래디언트의 흐름이 원활해지고, 학습률을 더 크게 설정할 수 있으며, 학습 과정의 안정성이 크게 향상된다. 이는 깊은 네트워크를 훨씬 빠르고 안정적으로 학습시키는 데 핵심적인 역할을 한다.

3. 배치 정규화의 원리

배치 정규화의 핵심 원리는 각 은닉층의 활성화값 분포를 안정화시키는 것이다. 이를 위해 네트워크의 각 층에서, 현재 미니배치 데이터를 기반으로 통계량을 계산하여 입력 데이터를 정규화한다. 구체적으로, 각 특성 차원에 대해 배치 내 모든 데이터 포인트의 평균과 분산을 구한 후, 이 통계량을 사용하여 데이터를 평균 0, 분산 1의 분포로 변환한다.

이 변환은 두 단계로 이루어진다. 첫 번째 단계는 정규화 통계량 계산이다. 주어진 층의 입력값(또는 활성화값) $x$에 대해, 미니배치 $B = {x_1, ..., x_m}$의 평균 $\mu_B$와 분산 $\sigma_B^2$을 계산한다. 수식은 다음과 같다.

$$\mu_B = \frac{1}{m} \sum_{i=1}^{m} x_i$$

$$\sigma_B^2 = \frac{1}{m} \sum_{i=1}^{m} (x_i - \mu_B)^2$$

이후, 작은 상수 $\epsilon$을 더해 수치적 불안정성을 방지하며, 각 입력값을 정규화한다: $\hat{x}_i = \frac{x_i - \mu_B}{\sqrt{\sigma_B^2 + \epsilon}}$.

두 번째 단계는 스케일과 시프트 변환이다. 단순히 정규화만 수행하면 층의 표현력이 제한될 수 있다. 예를 들어, 시그모이드 함수의 선형 영역으로 모든 값이 강제될 수 있다. 이를 보완하기 위해 학습 가능한 매개변수인 스케일 계수 $\gamma$와 시프트 계수 $\beta$를 도입한다. 최종 출력 $y_i$는 $y_i = \gamma \hat{x}_i + \beta$로 계산된다. 이 변환을 통해 네트워크는 필요에 따라 정규화 효과를 취소하거나 조절할 수 있으며, 원래의 분포를 복원하는 것도 가능해진다[2]. 이 과정은 네트워크가 학습하는 동안 각 층의 입력 분포를 안정적으로 유지하도록 돕는다.

3.1. 정규화 통계량 계산

배치 정규화에서 정규화 통계량 계산은 각 은닉층의 입력 데이터 분포를 변환하기 위한 첫 번째 단계이다. 이 과정은 현재 학습 중인 미니배치 데이터를 기반으로 각 특성 차원별로 평균과 분산을 추정하는 것을 핵심으로 한다.

구체적으로, 주어진 미니배치 $B = \{x_1, ..., x_m\}$에 대해, 각 특성 $k$에 대한 통계량은 다음과 같이 계산된다. 먼저, 배치 평균 $\mu_B$는 배치 내 모든 데이터 포인트의 해당 특성값의 산술 평균으로 구해진다. 다음으로, 배치 분산 $\sigma^2_B$는 동일한 특성에 대한 값들의 분산으로 계산된다. 이때, 수치적 안정성을 위해 분산 계산식에 작은 상수 $\epsilon$이 더해지며, 이는 분모가 0이 되는 것을 방지한다[3]. 이 계산은 완전 연결층에서는 뉴런 단위로, 합성곱 신경망에서는 각 특성 맵 채널 단위로 독립적으로 수행된다.

통계량	수식	설명
배치 평균 ($\mu_B$)	$\mu_B = \frac{1}{m} \sum_{i=1}^{m} x_i$	미니배치 내 데이터의 특성별 평균값
배치 분산 ($\sigma^2_B$)	$\sigma^2_B = \frac{1}{m} \sum_{i=1}^{m} (x_i - \mu_B)^2$	미니배치 내 데이터의 특성별 분산

이렇게 계산된 평균과 분산은 즉시 사용되어 배치 내 각 데이터 포인트를 정규화하는 데 활용된다. 각 데이터 $x_i$는 $ \hat{x}_i = \frac{x_i - \mu_B}{\sqrt{\sigma^2_B + \epsilon}} $ 공식에 따라 평균이 0이고 분산이 1인 분포로 변환된다. 이 계산은 순전파 과정 중에 이루어지며, 역전파를 통해 그래디언트가 흐를 수 있도록 한다.

3.2. 스케일과 시프트 변환

정규화된 데이터에 스케일과 시프트 변환을 적용하는 단계는 배치 정규화의 핵심적인 설계 요소이다. 단순히 평균을 0, 분산을 1로 맞추는 것만으로는 활성화 함수의 표현력이 제한될 수 있다. 예를 들어, 시그모이드 함수의 선형 구간만을 사용하게 되어 네트워크의 복잡한 패턴 학습 능력이 떨어질 수 있다. 따라서 이 변환은 네트워크가 필요에 따라 정규화된 분포를 원래 분포로 되돌리거나, 더 유용한 새로운 분포로 변형할 수 있는 유연성을 부여한다.

이 변환은 학습 가능한 매개변수인 감마와 베타에 의해 수행된다. 수식으로 표현하면, 정규화된 값 $\hat{x}$에 대해 출력 $y$는 $y = \gamma \hat{x} + \beta$가 된다. 여기서 $\gamma$는 스케일 파라미터, $\beta$는 시프트 파라미터이다. 이 두 파라미터는 경사 하강법을 통해 다른 가중치들과 함께 학습된다. 만약 최적의 분포가 정규화된 분포 자체라면, 네트워크는 $\gamma$를 분산 $\sigma$ 값에, $\beta$를 평균 $\mu$ 값에 가깝게 학습하여 원래의 분포를 사실상 복원할 수 있다.

이 과정의 효과는 다음과 같이 요약할 수 있다.

변환 요소	역할	학습 가능 여부
스케일 ($\gamma$)	정규화된 데이터의 분산을 조정한다. 네트워크가 각 층의 활성화 값 범위를 확장하거나 축소하도록 한다.	예
시프트 ($\beta$)	정규화된 데이터의 평균을 조정한다. 활성화 값의 중심을 이동시킨다.	예
결과 ($y$)	$\gamma$와 $\beta$가 적용된 최종 출력으로, 표준화의 제약에서 벗어나 풍부한 표현이 가능하다.	-

결과적으로, 스케일과 시프트 변환은 배치 정규화가 단순한 정규화 도구를 넘어 네트워크 구조에 통합된 하나의 학습 가능한 층으로 기능하게 만든다. 이는 표현력을 유지하면서도 내부 공변량 변화를 안정화시키는 데 기여한다.

4. 알고리즘과 수식

배치 정규화의 알고리즘은 학습 단계에서 미니배치 단위로 적용된다. 주어진 딥러닝 모델의 한 층에 대해, 입력 데이터 또는 활성화 함수를 통과하기 전의 값인 활성값을 정규화하는 과정을 수행한다.

알고리즘은 크게 두 단계로 구성된다. 첫 번째 단계는 미니배치의 통계량을 계산하여 정규화를 수행하는 것이고, 두 번째 단계는 학습 가능한 매개변수를 통해 스케일과 시프트를 조정하는 것이다. 구체적인 수식은 다음과 같다.

미니배치 $B = \{x_1, ..., x_m\}$이 주어졌을 때, 배치 정규화는 다음 연산을 적용한다.

1. 미니배치 평균 계산:

$\mu_B \leftarrow \frac{1}{m} \sum_{i=1}^{m} x_i$

2. 미니배치 분산 계산:

$\sigma_B^2 \leftarrow \frac{1}{m} \sum_{i=1}^{m} (x_i - \mu_B)^2$

3. 정규화:

$\hat{x}_i \leftarrow \frac{x_i - \mu_B}{\sqrt{\sigma_B^2 + \epsilon}}$

여기서 $\epsilon$은 분모가 0이 되는 것을 방지하기 위한 매우 작은 상수(예: $10^{-5}$)이다.

4. 스케일과 시프트:

$y_i \leftarrow \gamma \hat{x}_i + \beta \equiv \text{BN}_{\gamma,\beta}(x_i)$

여기서 $\gamma$와 $\beta$는 학습을 통해 최적화되는 모델의 매개변수이다. 이들은 각각 정규화된 데이터의 표준편차와 평균을 조정하는 역할을 한다. 초기값은 일반적으로 $\gamma=1$, $\beta=0$으로 설정된다.

단계	수식	설명
평균 계산	$\mu_B = \frac{1}{m} \sum x_i$	미니배치 $B$의 평균
분산 계산	$\sigma_B^2 = \frac{1}{m} \sum (x_i - \mu_B)^2$	미니배치 $B$의 분산
정규화	$\hat{x}_i = \frac{x_i - \mu_B}{\sqrt{\sigma_B^2 + \epsilon}}$	평균 0, 분산 1로 표준화
선형 변환	$y_i = \gamma \hat{x}_i + \beta$	학습 가능한 매개변수 $\gamma$, $\beta$로 스케일/시프트

이 변환의 출력 $y_i$는 다음 층의 입력으로 사용된다. 알고리즘의 핵심은 정규화 단계에서 데이터 분포를 고정시키고, 이후의 선형 변환 단계에서 네트워크가 원본 표현력을 유지하거나 변화시킬 수 있는 유연성을 부여한다는 점이다. 이 과정은 역전파 알고리즘을 통해 미분 가능하며, $\gamma$와 $\beta$는 다른 모델 가중치와 함께 경사 하강법으로 학습된다.

5. 학습 및 추론 시 적용 방법

학습 단계에서는 각 미니배치마다 독립적으로 정규화 통계량을 계산하여 적용합니다. 구체적으로, 현재 배치의 데이터로부터 평균과 분산을 계산한 후, 이를 사용하여 배치 내 각 활성화 값을 정규화합니다. 이 과정은 순전파 중에 각 배치 정규화 레이어에서 실시간으로 수행됩니다. 계산된 배치 통계량은 지수 이동 평균을 통해 누적 평균과 누적 분산을 업데이트하는 데 사용됩니다. 이 누적 통계량은 학습이 진행됨에 따라 점진적으로 갱신되며, 최종적으로는 전체 학습 데이터 분포를 대표하는 값으로 수렴하게 됩니다.

추론 단계에서는 학습 중에 누적된 고정된 통계량(평균과 분산)을 사용합니다. 학습 단계와 달리 미니배치 단위의 계산을 하지 않으며, 단일 샘플에 대해서도 일관된 변환을 적용할 수 있습니다. 이는 학습이 완료된 모델을 배포할 때 필수적입니다. 배포 환경에서는 일반적으로 한 번에 하나의 샘플만 입력으로 들어오거나, 배치 구성이 학습 시와 다를 수 있기 때문입니다. 따라서 추론 시에는 아래의 고정된 매개변수를 사용하여 정규화를 수행합니다.

단계	사용 통계량	업데이트 여부	목적
학습	현재 미니배치의 평균/분산	매 배치마다 계산 및 누적 통계량 갱신	그래디언트 흐름 개선
추론	학습 중 누적된 고정 평균/분산	고정됨 (업데이트 없음)	출력의 결정론적 및 안정적 생성

이러한 두 단계의 차이는 구현 시 중요한 부분입니다. 대부분의 딥러닝 프레임워크는 training 플래그를 통해 모드를 구분하며, 사용자는 일반적으로 이를 명시적으로 설정할 필요가 없습니다. 학습 중에는 배치 정규화 레이어가 통계량 계산과 누적을 자동으로 처리하고, 평가나 예측 모드에서는 학습된 고정 매개변수를 로드하여 사용합니다.

5.1. 학습 단계

학습 단계에서 배치 정규화는 각 미니배치 단위로 통계량을 계산하여 변환을 적용합니다. 구체적으로, 현재 미니배치에 속한 샘플들로부터 평균과 분산을 실시간으로 추정합니다. 이 과정은 네트워크의 순전파 과정 중에 해당 배치 정규화 계층에서 수행됩니다.

계산된 미니배치 평균과 분산을 사용하여 각 활성화 값을 정규화한 후, 학습 가능한 매개변수인 스케일 파라미터(γ)와 시프트 파라미터(β)를 통해 변환합니다. 이 변환은 네트워크가 항등 함수를 학습할 수 있도록 하여, 정규화로 인한 표현력 손실을 방지합니다.

동시에, 학습 단계에서는 지수 이동 평균을 사용하여 평균과 분산의 이동 평균을 누적합니다. 이 누적 통계량은 미니배치 통계량의 노이즈를 제거한 추정치로, 이후 추론 단계에서 사용하기 위해 별도로 저장됩니다. 이는 학습이 진행됨에 따라 네트워크의 전체 데이터 분포에 대한 추정치를 점진적으로 업데이트하는 역할을 합니다.

단계	계산 대상	사용 통계량	출력
순전파	미니배치 데이터	현재 미니배치의 평균(μ_B), 분산(σ_B²)	y = γ * ^x + β (여기서 ^x는 정규화된 값)
역전파	그래디언트	미니배치 통계량을 통해 계산된 그래디언트	γ, β 및 이전 층 가중치 업데이트
통계량 업데이트	이동 평균	지수 이동 평균을 통한 평균(μ)과 분산(σ²) 누적	저장만 하고 순전파/역전파에는 사용되지 않음

이 과정에서 매개변수 γ와 β는 다른 네트워크 가중치와 함께 확률적 경사 하강법 등의 옵티마이저를 통해 학습됩니다.

5.2. 추론 단계

학습 단계와 달리, 추론 단계에서는 미니배치의 통계량을 사용할 수 없습니다. 추론은 보통 한 번에 하나의 샘플(또는 고정된 소수의 샘플)에 대해 이루어지기 때문입니다. 따라서 네트워크는 결정론적이고 안정적인 출력을 생성해야 합니다.

이를 위해 학습 과정에서 계산된 이동 평균과 이동 분산을 사용합니다. 학습 중 각 배치 정규화 레이어는 해당 층의 입력에 대한 평균과 분산의 이동 평균을 지수적으로 감소하는 평균을 통해 누적하여 추적합니다. 추론 시에는 이렇게 저장된 고정된 평균과 분산, 그리고 학습된 감마와 베타 파라미터를 사용하여 정규화 변환을 수행합니다. 수식은 다음과 같습니다.

출력 = γ * (입력 - 이동 평균) / √(이동 분산 + ε) + β

이 접근 방식은 배치 의존성을 제거하고, 네트워크가 학습 데이터 분포를 요약한 통계량을 바탕으로 일관된 예측을 하도록 보장합니다. 구현 시, 학습 모드와 평가(추론) 모드를 명확히 구분하는 것이 중요합니다. 대부분의 딥러닝 프레임워크는 training=True/False 플래그를 통해 이 모드를 제어합니다.

6. 배치 정규화의 효과와 장점

배치 정규화를 적용하면 각 층의 입력 분포가 안정화되어 경사 하강법이 더 빠르게 최적점에 수렴할 수 있다. 이는 학습률을 크게 설정할 수 있게 하여 전체 학습 속도를 크게 향상시킨다. 또한, 활성화 함수의 입력이 적절한 범위에 머무르도록 하여 그래디언트 소실 문제를 완화하는 데 기여한다.

배치 정규화는 네트워크가 가중치 초기화 방법에 덜 민감해지도록 만든다. 초기 가중치를 어떻게 설정하든, 배치 정규화 층이 데이터를 정규화하기 때문에 학습이 더 안정적으로 시작된다. 이는 하이퍼파라미터 튜닝 부담을 줄여준다. 또한, 미세한 드롭아웃 효과를 제공하여 일정 수준의 규제 역할을 수행하기도 한다. 이는 각 샘플이 미니배치 내 다른 샘플들의 통계에 의해 정규화되기 때문에 발생하는 효과이다.

배치 정규화의 주요 장점을 요약하면 다음과 같다.

장점	설명
학습 속도 향상	높은 학습률 사용 가능, 빠른 수렴
초기화 의존성 감소	다양한 초기화 방법에 대해 강건한 학습 시작
규제 효과	드롭아웃 의존도 감소, 일정 정도의 일반화 성능 향상
활성화 함수 안정화	그래디언트 소실/폭발 문제 완화

6.1. 학습 속도 향상

배치 정규화는 그래디언트의 흐름을 안정화시켜 학습 과정에서 더 높은 학습률을 사용할 수 있게 한다. 일반적으로 높은 학습률은 손실 함수의 표면에서 큰 폭으로 이동하게 만들어 학습을 빠르게 진행할 수 있지만, 동시에 그래디언트 폭발이나 불안정한 학습으로 이어질 위험이 있다. 배치 정규화는 각 은닉층의 활성화 값을 평균 0, 분산 1 근처로 재조정함으로써, 이러한 위험 없이 높은 학습률을 안정적으로 적용할 수 있는 환경을 제공한다.

이는 옵티마이저가 손실 공간의 곡률에 덜 민감해지도록 돕는다. 배치 정규화가 적용되지 않은 네트워크에서는 입력 분포의 변화(내부 공변량 변화)로 인해 손실 공간의 경사가 가파르거나 얕은 영역이 생겨 학습률을 조정하기 어렵다. 배치 정규화는 이러한 입력 분포의 변화를 상쇄시켜, 손실 공간을 더 평탄하고 예측 가능하게 만든다. 결과적으로 옵티마이저는 더 공격적인 단계 크기로 최적점을 향해 빠르게 이동할 수 있다.

또한, 배치 정규화는 시그모이드 함수나 하이퍼볼릭 탄젠트와 같은 포화 비선형 활성화 함수를 사용할 때 발생하는 문제를 완화하여 학습 속도를 높인다. 이러한 함수는 입력값이 크거나 작을 때 그래디언트가 0에 가까워지는 포화 영역이 존재한다. 배치 정규화는 활성화 함수로 들어오는 입력을 대부분의 경우 포화 영역이 아닌 선형 영역에 위치하도록 강제한다. 이로 인해 그래디언트가 사라지는 현상이 줄어들고, 각 가중치 업데이트가 더 효과적으로 이루어져 전체 학습 수렴 속도가 빨라진다.

배치 정규화 적용 전 문제점	배치 정규화 적용 후 개선 효과
높은 학습률 사용 시 불안정	높은 학습률을 안정적으로 적용 가능
내부 공변량 변화로 인한 손실 공간 왜곡	손실 공간 평탄화로 빠른 수렴 촉진
포화 활성화 함수에서의 그래디언트 소실	그래디언트 흐름 개선으로 효율적 가중치 업데이트

실험적으로, 배치 정규화를 적용한 네트워크는 동일한 학습률에서 더 빠르게 손실이 감소하며, 종종 최종 정확도에 도달하는 데 필요한 에포크 수를 크게 줄일 수 있다.

6.2. 가중치 초기화 의존성 감소

심층 신경망의 학습을 시작하기 전에는 네트워크의 가중치와 편향을 특정 값으로 설정하는 가중치 초기화 과정이 필요하다. 초기화 방법의 선택은 학습의 수렴 속도와 최종 성능에 큰 영향을 미친다. 부적절한 초기화는 그래디언트 소실이나 그래디언트 폭발 문제를 야기하거나, 학습이 매우 느려지는 원인이 될 수 있다.

배치 정규화는 각 층의 입력 분포를 안정화시킴으로써, 네트워크가 초기 가중치 값에 덜 민감하도록 만든다. 배치 정규화 층이 삽입되면, 해당 층의 출력은 평균 0, 분산 1 근처로 강제로 조정된다. 이는 네트워크의 깊은 부분으로 전달되는 신호의 스케일이 초기 가중치에 크게 좌우되지 않음을 의미한다. 결과적으로, 학습 초기 단계에서 활성화 함수가 포화 상태에 빠지는 것을 방지하고, 그래디언트의 흐름을 원활하게 한다.

이로 인해, Xavier 초기화나 He 초기화와 같은 정교한 초기화 기법에 대한 의존도가 낮아진다. 배치 정규화를 사용하면 상대적으로 단순한 초기화(예: 작은 범위의 무작위 초기화)로도 효과적인 학습이 가능해진다. 이는 하이퍼파라미터 튜닝의 부담을 줄이고, 모델 구현 및 실험의 복잡성을 낮추는 실용적인 장점으로 이어진다.

초기화 방식 의존성	배치 정규화 미사용 시	배치 정규화 사용 시
초기화 민감도	매우 높음. 정확한 초기화 필요	상대적으로 낮음
사용 가능한 초기화 방법	제한적 (Xavier, He 등)	범위가 넓어짐 (단순 균일 분포 등도 가능)
학습 초기 안정성	초기화에 크게 영향받음	초기화 영향 감소

따라서 배치 정규화는 네트워크가 초기 조건으로부터 더욱 견고하게 학습을 시작할 수 있도록 하는 안정장치 역할을 한다.

6.3. 규제 효과

배치 정규화는 과적합을 방지하는 규제 효과를 제공하여 모델의 일반화 성능을 향상시킨다. 이 효과는 명시적인 드롭아웃이나 L2 정규화와 같은 기법을 추가하지 않고도 발생하는 부수적인 이점이다.

주요 규제 메커니즘은 각 층의 활성화 값을 정규화하는 과정에서 발생하는 작은 양의 확률적 노이즈에 기인한다. 학습 시, 배치 정규화는 현재 미니배치의 통계량(평균과 분산)을 사용하여 정규화를 수행한다. 미니배치의 표본 통계량은 전체 훈련 데이터의 통계량에 대한 추정치이므로, 각 학습 단계마다 약간의 변동성을 가진다. 이 변동성은 활성화 값에 노이즈를 주입하는 효과를 만들어내며, 이는 모델이 특정 뉴런의 정확한 활성화 값에 지나치게 의존하는 것을 방해한다. 결과적으로 모델은 더 강건한 표현을 학습하게 되어 과적합 위험을 줄인다.

또한, 배치 정규화는 그래디언트의 흐름을 안정화시킴으로써 간접적인 규제 효과를 낸다. 그래디언트 소실이나 폭발이 억제되면, 학습이 더 깊고 복잡한 네트워크에서도 원활하게 진행될 수 있다. 이는 모델이 필요 이상으로 크고 복잡해지는 것을 방지하는 조기 멈춤과 유사한 역할을 할 수 있다. 일부 연구에서는 배치 정규화가 적용된 네트워크가 학습률을 높게 설정할 수 있어 최적화 과정이 더 빠르게 수렴하고, 이 빠른 수렴이 특정 최적점에 과도하게 피팅되는 것을 완화한다고 설명한다[4].

7. 배치 정규화의 한계와 변형 기법

배치 정규화는 배치 단위로 통계량을 계산하는 특성상, 배치 크기가 매우 작을 경우 정규화에 사용되는 평균과 분산의 추정값이 불안정해지는 문제가 발생한다. 이는 특히 배치 크기가 1인 경우나 메모리 제약으로 인해 작은 배치를 사용해야 하는 상황에서 두드러진다. 작은 배치에서는 배치 내 표본 통계량이 전체 데이터 분포를 대표하지 못해 성능이 저하될 수 있으며, 이를 작은 배치 크기 문제라고 부른다.

이러한 한계를 보완하기 위해 다양한 변형 정규화 기법이 제안되었다. 대표적인 예로는 레이어 정규화가 있다. 레이어 정규화는 배치 차원이 아닌, 각 샘플의 특징 차원에 대해 평균과 분산을 계산하여 정규화를 수행한다. 이는 배치 크기에 의존하지 않으므로 순환 신경망이나 배치 크기가 1인 온라인 학습에 효과적으로 적용될 수 있다. 또 다른 변형으로는 인스턴스 정규화가 있으며, 이는 주로 이미지 스타일 변환 작업에서 각 샘플의 채널별 통계를 정규화하여 스타일 정보를 제거하는 데 사용된다.

기법	정규화 축	주요 적용 분야	배치 크기 의존성
배치 정규화	배치 차원	일반적인 컨볼루션 신경망	높음
레이어 정규화	특징 차원	순환 신경망, 변환기	없음
인스턴스 정규화	채널 차원 (이미지별)	이미지 스타일 변환, 생성 모델	낮음
그룹 정규화	그룹화된 채널 차원	작은 배치 크기의 컨볼루션 신경망	없음

이 외에도 그룹 정규화는 채널을 여러 그룹으로 나누어 그룹 내에서 정규화를 수행하며, 배치 크기와 무관하게 안정적인 성능을 보인다. 이러한 변형 기법들은 배치 정규화의 핵심 아이디어를 유지하면서, 문제 도메인이나 학습 환경에 맞게 정규화 축을 재설정하여 적용 범위를 확장했다는 공통점이 있다.

7.1. 작은 배치 크기 문제

배치 정규화는 각 은닉층의 활성화 값을 정규화하기 위해 현재 미니배치의 평균과 분산을 사용한다. 이 방식은 배치 크기가 충분히 클 때(예: 32, 64) 통계량이 안정적이어서 효과적이다. 그러나 배치 크기가 매우 작을 경우(예: 1, 2, 4), 계산된 배치 평균과 분산이 전체 데이터 분포를 대표하지 못하고 노이즈가 매우 커진다. 이는 정규화 과정 자체가 불안정해져 학습을 방해할 수 있다.

작은 배치 크기에서 발생하는 구체적인 문제는 다음과 같다. 첫째, 추정된 통계량의 신뢰도가 낮아져, 각 학습 단계마다 정규화에 사용되는 평균과 분산이 급격하게 변동한다. 이는 모델이 최적화해야 할 목표 함수를 불안정하게 만들고, 효과적인 그래디언트 흐름을 방해한다. 둘째, 배치 정규화가 갖는 미묘한 규제 효과가 과도해질 수 있다. 각 배치의 통계량에 대한 의존성은 훈련 데이터에 대한 노이즈를 추가하는 역할을 하는데, 배치 크기가 너무 작으면 이 노이즈가 지나치게 커져 유용한 학습 신호를 압도할 수 있다.

이 문제를 해결하기 위해 여러 변형 기법이 제안되었다. 대표적으로 레이어 정규화는 배치 차원이 아닌, 각 샘플의 특징 차원에 대해 평균과 분산을 계산하여 배치 크기와 무관하게 동작한다. 인스턴스 정규화는 이미지 생성 작업에서 주로 사용되며, 각 샘플의 각 채널별로 정규화를 수행한다. 또한, 그룹 정규화는 채널을 여러 그룹으로 나누어 그룹 내에서 정규화를 수행하는 방식으로, 작은 배치 크기에서도 안정적인 성능을 보인다.

따라서, 배치 크기를 크게 설정할 수 없는 메모리 제약이 심한 환경이나, 순환 신경망과 같이 시퀀스 단위로 배치를 구성해야 하는 경우에는 배치 정규화의 표준 형태 대신 이러한 대안 기법을 고려하는 것이 일반적이다.

7.2. 레이어 정규화, 인스턴스 정규화

배치 정규화가 작은 배치 크기에서 성능이 저하되는 문제를 해결하기 위해, 또는 다른 네트워크 구조에 더 적합하도록 다양한 변형 기법이 제안되었다. 이 중 대표적인 방법으로 레이어 정규화와 인스턴스 정규화가 있다.

레이어 정규화는 배치 차원이 아닌, 각 개별 샘플의 채널 차원에 대해 정규화를 수행한다. 즉, 하나의 샘플 내의 모든 뉴런 출력에 대해 평균과 분산을 계산하여 정규화한다. 이 방식은 배치 크기에 의존하지 않으며, 순차 데이터를 처리하는 순환 신경망이나 배치 크기가 1인 온라인 학습 상황에서 효과적으로 적용될 수 있다. 레이어 정규화는 주로 Transformer 아키텍처의 핵심 구성 요소로 널리 사용된다.

반면, 인스턴스 정규화는 컨볼루션 신경망에서 주로 사용되며, 각 샘플의 각 채널을 독립적으로 정규화한다. 구체적으로, 한 샘플의 특정 채널에 해당하는 공간 차원(가로, 세로)에 대한 평균과 분산을 계산한다. 이 기법은 스타일 변환 작업에서 처음 제안되었으며, 이미지 생성 및 시각적 스타일의 정규화에 특히 효과적인 것으로 알려져 있다. 인스턴스 정규화는 배치 정규화와 달리 미니배치 내 다른 샘플들의 정보를 전혀 사용하지 않는다는 특징을 가진다.

이러한 변형 기법들의 핵심 차이는 정규화 통계량을 계산하는 축(axis)에 있다. 아래 표는 주요 정규화 기법들의 통계량 계산 방식을 비교하여 보여준다.

기법	평균/분산 계산 축 (예: (N, C, H, W) 텐서)	주요 적용 분야
배치 정규화	배치(N)와 공간(H, W) 축	일반적인 컨볼루션 신경망
레이어 정규화	채널(C), 높이(H), 너비(W) 축 (배치 제외)	순환 신경망, Transformer
인스턴스 정규화	공간(H, W) 축 (배치와 채널 제외)	이미지 스타일 변환, 생성 모델
그룹 정규화[5]	채널 그룹과 공간(H, W) 축	작은 배치 크기의 객체 감지 등

이외에도 그룹 정규화와 같은 하이브리드 방식이 제안되어, 배치 크기의 제약을 받지 않으면서도 배치 정규화의 장점을 일부 유지하고자 시도되었다.

8. 주요 응용 분야

배치 정규화는 컨볼루션 신경망의 학습 안정화를 위해 처음 제안되었으며, 이후 해당 분야에서 사실상 표준 구성 요소로 자리 잡았다. 특히 깊은 CNN 구조에서 각 컨볼루션층이나 완전연결층 뒤에 배치 정규화 층을 삽입하여 사용한다. 이는 이미지 분류, 객체 탐지, 세그멘테이션 등 다양한 컴퓨터 비전 과제에서 학습 수렴 속도를 크게 높이고, 과적합을 완화하는 데 기여한다. VGGNet, ResNet, EfficientNet 등 현대적인 컨볼루션 신경망 아키텍처 대부분이 배치 정규화를 채택하고 있다.

순환 신경망에 배치 정규화를 적용하는 것은 구조적 특성상 더 복잡하다. RNN은 시퀀스 데이터를 순차적으로 처리하며, 시간 단계마다 동일한 가중치를 재사용하기 때문이다. 일반적으로 RNN 셀의 은닉 상태에 직접 배치 정규화를 적용하는 것보다는, 순환 가중치 입력 직전이나 활성화 함수 적용 후에 정규화를 하는 변형 방법들이 연구되었다[6]. 이러한 접근법은 장기 의존성 문제를 완화하고 그래디언트 소실을 줄이는 데 일정 부분 효과가 있다.

배치 정규화의 원리는 생성적 적대 신경망 및 강화학습 모델에서도 유용하게 적용된다. GAN의 생성기와 판별기 학습은 종종 불안정한데, 배치 정규화 층을 삽입하면 학습 과정을 안정화시키고 생성되는 샘플의 품질을 향상시키는 데 도움을 준다. 또한, 심층 강화학습에서 정책 네트워크나 가치 네트워크와 같은 함수 근사기에 배치 정규화를 사용하면, 다양한 환경 상태 입력의 스케일 차이를 조정하고 더 빠르고 안정적인 학습을 가능하게 한다.

8.1. 컨볼루션 신경망

배치 정규화는 컨볼루션 신경망의 학습 안정성과 성능을 획기적으로 향상시킨 핵심 기법 중 하나이다. 컨볼루션 신경망은 깊은 네트워크 구조와 컨볼루션 연산의 특성상, 학습 과정에서 활성화 값의 분포가 급격하게 변화하는 내부 공변량 변화 문제에 취약하다. 배치 정규화는 각 컨볼루션 레이어의 출력 또는 활성화 함수 적용 전의 값에 대해 미니배치 단위로 정규화를 수행하여 이 문제를 완화한다.

컨볼루션 신경망에서 배치 정규화는 일반적으로 컨볼루션 연산 이후, 비선형 활성화 함수(예: ReLU) 적용 이전에 삽입된다. 이때, 특징 맵의 각 채널별로 독립적으로 정규화 통계량(평균과 분산)을 계산한다는 점이 중요하다. 이는 공간 차원(가로, 세로)에 걸쳐 모든 위치의 값을 하나의 채널에 대해 평균화하여 계산함을 의미한다. 이 방식은 컨볼루션 연산의 특성인 평행 이동 불변성을 보존하는 데 기여한다.

배치 정규화의 적용은 컨볼루션 신경망에 몇 가지 결정적인 이점을 제공한다. 첫째, 학습률을 크게 높여도 학습이 안정적으로 진행되도록 하여 수렴 속도를 가속화한다. 둘째, 드롭아웃과 같은 다른 규제 기법에 대한 의존도를 낮추는 경우가 많다. 셋째, 네트워크가 더 깊고 복잡한 구조를 안정적으로 학습할 수 있는 기반을 마련하여, 잔차 신경망과 같은 초심층 네트워크의 발전을 가능하게 하는 데 기여했다.

적용 위치	통계량 계산 범위	주요 효과
컨볼루션 레이어 후, 활성화 함수 전	채널별, 공간 차원(가로x세로) 및 배치 내 샘플 전체	학습 안정화, 수렴 가속, 규제 효과
완전 연결 레이어 후, 활성화 함수 전	뉴런별, 배치 내 샘플 전체	그래디언트 흐름 개선

이러한 효과로 인해 배치 정규화는 현대의 대부분의 컨볼루션 신경망 아키텍처 설계에서 사실상 표준 구성 요소로 자리 잡았다.

8.2. 순환 신경망

배치 정규화는 주로 컨볼루션 신경망에서 개발되고 널리 적용되었으나, 순환 신경망 구조에도 적용을 시도하여 다양한 연구가 이루어졌다. 그러나 RNN에 배치 정규화를 직접 적용하는 것은 구조적 특성으로 인해 CNN보다 복잡한 문제를 야기한다.

RNN의 핵심 구성 요소인 순환 연결은 시간 단계를 거치며 동일한 가중치를 재사용한다. 이로 인해 각 시간 단계의 은닉 상태는 동일한 분포를 유지해야 할 필요가 있으며, 시간 축을 따라 정규화를 적용할 경우 이 순환적 동역학을 교란시킬 수 있다. 초기 연구에서는 RNN의 각 시간 단계의 은닉 상태에 직접 배치 정규화를 적용하면 성능 향상이 미미하거나 오히려 학습이 불안정해지는 경우가 보고되었다[7].

이러한 문제를 해결하기 위해 제안된 주요 방법은 순환 가중치로의 입력과 은닉 상태 간의 선형 변환(affine transformation) 직전에만 배치 정규화를 적용하는 것이다. 구체적으로, 매 시간 단계 t에서 이전 은닉 상태 h_{t-1}과 현재 입력 x_t를 결합하여 계산되는 선형 프로젝션(Wh*h_{t-1} + Wx*x_t + b)의 결과를 정규화한 후, 활성화 함수를 적용하여 h_t를 얻는다. 이 방식은 순환 구조 내부의 변화를 안정화시키면서도 시간 축을 가로지르는 정규화의 어려움을 피할 수 있다. LSTM이나 GRU와 같은 게이트 메커니즘을 가진 RNN 셀에서는 게이트의 선형 합산 부분에 배치 정규화를 적용하는 변형 기법들이 연구되었다.

RNN에 대한 배치 정규화의 효과는 작업에 따라 다르지만, 적절히 적용될 경우 기울기 소실 문제를 완화하고 장기 의존성 학습을 개선하며 학습 속도를 높이는 데 기여할 수 있다. 특히 음성 인식, 언어 모델링, 비디오 처리 등 긴 시퀀스를 다루는 작업에서 유용한 도구로 평가받는다.

9. 구현 시 고려사항

배치 정규화를 실제 신경망에 구현할 때는 몇 가지 실용적인 요소를 고려해야 한다. 가장 중요한 요소는 미니배치 크기이다. 배치 정규화는 배치 차원에 대한 평균과 분산을 계산하므로, 배치 크기가 너무 작으면(예: 1 또는 2) 통계량 추정이 불안정해져 성능이 저하될 수 있다. 일반적으로 32 이상의 배치 크기를 권장한다. 또한, 합성곱 신경망에서는 채널별로 독립적으로 정규화를 수행하는 것이 일반적이다. 공간 차원(높이와 너비)에 걸쳐 모든 위치의 활성화 값을 하나의 배치로 간주하여, 각 채널마다 별도의 평균과 분산을 계산한다.

학습 시와 추론 시의 동작을 일관되게 만드는 것도 중요하다. 학습 중에는 이동 평균을 업데이트하기 위한 모멘텀 파라미터(보통 0.9, 0.99, 0.999를 사용)를 적절히 설정해야 한다. 너무 작은 값은 최신 통계를 과도하게 반영하고, 너무 큰 값은 업데이트를 느리게 만든다. 또한, 오차역전파법을 구현할 때는 정규화 통계량에 대한 그래디언트도 올바르게 계산되어야 한다. 대부분의 딥러닝 프레임워크는 이를 자동으로 처리한다.

구현 시 주의할 점은 다음과 같이 정리할 수 있다.

고려사항	설명 및 권장 값
배치 크기	통계 추정을 위해 충분히 큰 크기(예: 32 이상)를 사용한다.
감마(γ)와 베타(β) 초기화	γ는 일반적으로 1, β는 0으로 초기화한다.
모멘텀(지수 이동 평균)	추론용 통계 업데이트 속도를 조절한다. 일반값은 0.9, 0.99, 0.999이다.
엡실론(ε)	분산에 더해지는 작은 상수로, 0으로 나누는 것을 방지한다. 일반값은 1e-5 또는 1e-8이다.
학습과 추론 모드 구분	프레임워크의 `.train()`과 `.eval()` 모드를 사용해 전환을 명시적으로 관리한다.

마지막으로, 배치 정규화 계층은 일반적으로 선형 변환이나 합성곱 연산 직후, 활성화 함수 적용 전에 배치 정규화 계층을 삽입한다. 배치 정규화를 적용한 후에도 여전히 드롭아웃과 같은 다른 정규화 기법을 함께 사용할 수 있지만, 배치 정규화 자체가 규제 효과를 내므로 드롭아웃의 강도를 줄이는 것이 일반적이다.

배치 정규화

이름	배치 정규화
영문명	Batch Normalization
분류	딥러닝 정규화 기법
제안 연도	2015년
제안자	Sergey Ioffe, Christian Szegedy
주요 목적	내부 공변량 변화 감소, 학습 안정화 및 가속
적용 위치	신경망의 은닉층 또는 입력층
핵심 연산	배치 평균 및 분산 계산, 정규화, 스케일 및 시프트
기술 상세
수학적 표현	입력 미니배치 $x$에 대해 $\hat{x} = \frac{x - \mu_B}{\sqrt{\sigma_B^2 + \epsilon}}$, $y = \gamma \hat{x} + \beta$
학습 시 동작	미니배치 통계량 사용, 지수 이동 평균으로 모집단 통계량 추정
추론 시 동작	학습 중 추정된 모집단 통계량 사용
주요 장점	학습률 증가 가능, 가중치 초기화 의존성 감소, 과적합 완화 (일부 경우), 그래디언트 소실/폭발 문제 완화
한계 및 단점	미니배치 크기에 민감, 순환 신경망 적용 복잡, 계산 비용 증가
변형 기법	레이어 정규화, 인스턴스 정규화, 그룹 정규화
주요 적용 모델	ResNet, Inception, Transformer (변형 적용) 등 다양한 심층 신경망
관련 개념	정규화, 드롭아웃, 가중치 감쇠, 활성화 함수

배치 정규화

이름	배치 정규화
영문명	Batch Normalization
분류	딥러닝 정규화 기법
제안 연도	2015년
제안자	Sergey Ioffe, Christian Szegedy
주요 목적	내부 공변량 변화 감소, 학습 안정화 및 가속
적용 위치	신경망의 은닉층 또는 입력층
핵심 연산	배치 평균 및 분산 계산, 정규화, 스케일 및 시프트
기술 상세
수학적 표현	입력 미니배치 $x$에 대해 $\hat{x} = \frac{x - \mu_B}{\sqrt{\sigma_B^2 + \epsilon}}$, $y = \gamma \hat{x} + \beta$
학습 시 동작	미니배치 통계량 사용, 지수 이동 평균으로 모집단 통계량 추정
추론 시 동작	학습 중 추정된 모집단 통계량 사용
주요 장점	학습률 증가 가능, 가중치 초기화 의존성 감소, 과적합 완화 (일부 경우), 그래디언트 소실/폭발 문제 완화
한계 및 단점	미니배치 크기에 민감, 순환 신경망 적용 복잡, 계산 비용 증가
변형 기법	레이어 정규화, 인스턴스 정규화, 그룹 정규화
주요 적용 모델	ResNet, Inception, Transformer (변형 적용) 등 다양한 심층 신경망
관련 개념	정규화, 드롭아웃, 가중치 감쇠, 활성화 함수