경사 하강법 최적화 (r1)

1. 개요

경사 하강법은 함수의 최솟값을 찾기 위한 반복적인 최적화 알고리즘이다. 주로 머신러닝과 딥러닝에서 모델의 매개변수를 학습시키기 위한 핵심 방법으로 사용된다. 기본 아이디어는 현재 위치에서 함수의 기울기(경사)를 계산하고, 그 기울기가 감소하는 방향으로 조금씩 이동하여 점진적으로 최솟값에 접근하는 것이다.

이 알고리즘은 손실 함수라고 불리는 목적 함수를 최소화하는 데 적용된다. 손실 함수는 모델의 예측값과 실제 값 사이의 오차를 측정하며, 경사 하강법은 이 오차를 최소화하는 매개변수 값을 찾는다. 과정은 무작위로 초기화된 매개변수에서 시작하여, 기울기와 미리 정해진 학습률을 이용해 매개변수를 반복적으로 업데이트한다.

경사 하강법의 주요 변종에는 전체 데이터를 한 번에 사용하는 배치 경사 하강법, 하나의 데이터 샘플마다 업데이트하는 확률적 경사 하강법, 그리고 소규모 데이터 묶음(미니배치)을 사용하는 미니배치 경사 하강법이 있다. 각 방식은 계산 효율성과 수렴 안정성 사이에 다른 트레이드오프를 가진다.

이 방법은 구현이 비교적 간단하고 대규모 데이터셋에도 적용 가능하다는 장점이 있지만, 학습률 선택, 국소 최적점에 갇힐 위험, 기울기 소실 문제 등의 과제도 안고 있다. 이러한 한계를 극복하기 위해 모멘텀, RMSProp, Adam과 같은 다양한 고급 최적화 알고리즘이 개발되었다.

2. 수학적 원리

손실 함수는 모델의 예측값과 실제값 사이의 오차를 측정하는 함수이다. 기계 학습에서 모델 학습의 목표는 일반적으로 이 손실 함수의 값을 최소화하는 매개변수 집합을 찾는 것이다. 경사 하강법은 손실 함수의 기울기(gradient)를 계산하여 이 최소점을 찾아가는 반복적 최적화 알고리즘이다.

기울기는 다변수 함수의 각 변수 방향으로의 순간 변화율을 나타내는 벡터이다. 손실 함수 J(θ)의 매개변수 θ에 대한 기울기 ∇J(θ)는 함수 값이 가장 가파르게 증가하는 방향을 가리킨다. 따라서, 반대 방향인 -∇J(θ)는 함수 값이 가장 빠르게 감소하는 방향이 된다. 경사 하강법은 이 원리를 이용한다.

매개변수 업데이트는 다음 규칙에 따라 이루어진다.

θ_{new} = θ_{old} - η * ∇J(θ_{old})

여기서 θ는 최적화 대상 매개변수 벡터이고, η는 학습률이라는 양의 스칼라 값이다. 학습률은 각 반복(에포크)에서 기울기 방향으로 얼마나 큰 보폭을 이동할지를 결정한다. 이 과정은 기울기의 크기가 매우 작아지거나, 미리 정한 반복 횟수에 도달할 때까지 반복된다.

용어	설명	역할
θ (세타)	모델의 매개변수 (가중치, 편향)	최적화의 대상
J(θ)	손실 함수	최소화해야 할 목적 함수
∇J(θ)	손실 함수의 기울기 (그래디언트)	매개변수 업데이트 방향과 크기 결정
η (에타)	학습률	매 업데이트의 보폭(step size) 조절

기울기 계산은 미분을 통해 이루어진다. 선형 회귀의 평균 제곱 오차(MSE) 손실 함수처럼 간단한 경우에는 해석적 미분이 가능하지만, 심층 신경망과 같은 복잡한 모델에서는 연쇄 법칙을 활용한 자동 미분이 널리 사용된다.

2.1. 손실 함수와 기울기

손실 함수는 머신러닝 모델의 예측값과 실제 목표값 사이의 오차를 정량화하는 함수이다. 이 함수의 출력값, 즉 손실을 최소화하는 모델 매개변수를 찾는 것이 학습의 목표이다. 대표적인 손실 함수로는 평균 제곱 오차와 교차 엔트로피가 있다.

기울기(그래디언트)는 손실 함수의 각 매개변수에 대한 편미분으로 구성된 벡터이다. 이 벡터는 다변수 함수에서 가장 가파르게 증가하는 방향을 가리킨다. 따라서, 손실을 최소화하기 위해서는 이 기울기의 반대 방향으로 매개변수를 조정해야 한다.

기울기의 계산은 연쇄 법칙을 통해 이루어진다. 특히 딥러닝에서는 오차 역전파 알고리즘을 사용하여 네트워크의 출력층부터 입력층 방향으로 효율적으로 기울기를 계산한다. 이 과정에서 각 층의 가중치에 대한 손실의 변화율이 결정된다.

손실 함수 종류	주 사용 분야	수식 특징
평균 제곱 오차	회귀 문제	예측값과 실제값 차이의 제곱 평균
교차 엔트로피	분류 문제	예측 확률 분포와 실제 분포의 차이

기울기의 크기와 방향은 매개변수 공간에서 현재 위치의 지형을 정확히 나타낸다. 기울기가 0에 가까운 지점은 극값(최소점 또는 최대점)일 가능성이 높지만, 반드시 전역 최소점이라는 보장은 없다.

2.2. 업데이트 규칙

경사 하강법의 핵심은 매개변수를 업데이트하는 규칙에 있다. 이 규칙은 현재 지점에서 계산된 기울기 벡터의 반대 방향으로 매개변수를 조금씩 이동시킨다. 기본적인 업데이트 공식은 다음과 같다.

θ_{new} = θ_{old} - η * ∇J(θ)

여기서 θ는 최적화하려는 매개변수 벡터(예: 가중치), ∇J(θ)는 현재 θ에서 평가된 손실 함수 J의 기울기(경사) 벡터, η는 학습률이라는 양의 스칼라 값이다. 기울기 벡터는 손실 함수가 가장 가파르게 증가하는 방향을 가리킨다. 따라서 이 방향의 반대 방향(-∇J(θ))으로 이동함으로써 손실 함수의 값을 감소시킬 수 있다.

학습률 η는 업데이트의 보폭을 결정하는 핵심 하이퍼파라미터이다. 학습률이 너무 크면 최적점을 지나쳐 발산할 수 있고, 너무 작으면 수렴 속도가 매우 느려지거나 국소 최적점에 갇힐 위험이 커진다. 업데이트는 일반적으로 모델의 모든 매개변수에 대해 동시에(벡터 연산으로) 수행되며, 이 과정은 사전에 정의된 횟수(에포크)만큼 또는 손실이 충분히 줄어들 때까지 반복된다.

요소	설명	역할
θ (Theta)	최적화 대상 매개변수 (가중치, 편향)	모델의 예측을 결정하는 변수
∇J(θ)	기울기 (Gradient)	현재 θ에서 손실 함수의 순간 변화율과 방향
η (Eta)	학습률 (Learning Rate)	매 업데이트 단계의 보폭을 조절
- η * ∇J(θ)	업데이트 양 (Update Amount)	매개변수를 조정할 방향과 크기

이 기본 규칙은 모든 경사 하강법 변형 알고리즘의 토대가 된다. 이후 발전된 알고리즘들은 이 업데이트 항에 모멘텀 항을 추가하거나, 기울기의 제곱에 비례하여 학습률을 조정하는(RMSProp, Adam) 등 다양한 방식으로 이 기본 규칙을 개선한다.

3. 경사 하강법의 종류

경사 하강법은 사용하는 데이터의 양과 방식에 따라 여러 종류로 나뉜다. 주요한 세 가지 접근법은 배치 경사 하강법, 확률적 경사 하강법, 그리고 미니배치 경사 하강법이다.

종류	데이터 사용 방식	매 스텝 계산 비용	수렴 속도	업데이트 변동성
배치 경사 하강법	전체 학습 데이터셋	높음	느림	낮음(안정적)
확률적 경사 하강법	단일 데이터 샘플 1개	매우 낮음	빠름	높음(불안정)
미니배치 경사 하강법	미니배치(일부 샘플)	중간	중간	중간

배치 경사 하강법은 매 반복마다 전체 학습 데이터셋을 사용하여 손실 함수의 기울기를 정확하게 계산한다. 이로 인해 매 스텝의 계산 비용이 크고 메모리 요구사항이 높지만, 업데이트 방향이 매우 안정적이다. 대규모 데이터셋에서는 한 번의 업데이트를 수행하는 데에도 상당한 시간이 소요되어 실용적이지 않을 수 있다.

확률적 경사 하강법은 매 반복마다 단 하나의 무작위 샘플을 선택하여 그 샘플에 대한 기울기로 매개변수를 업데이트한다. 이 방법은 계산이 매우 빠르고 메모리 효율이 높으며, 노이즈가 많은 업데이트 덕분에 국소 최적점을 탈출할 가능성이 있다. 그러나 업데이트의 변동성이 매우 커서 수렴 경로가 불안정하고, 최종 수렴 지점에서 진동할 수 있다는 단점이 있다.

미니배치 경사 하강법은 위 두 방법의 절충안으로, 일반적으로 32, 64, 128개와 같은 작은 크기의 데이터 묶음(미니배치)을 무작위로 샘플링하여 기울기를 계산한다. 이는 벡터화 구현을 통해 현대 GPU나 CPU의 병렬 처리 능력을 효율적으로 활용할 수 있게 하며, 배치 방식보다는 빠르고 확률적 방식보다는 안정적인 업데이트를 제공한다. 이로 인해 딥러닝을 포함한 대부분의 실용적인 머신러닝 응용에서 표준적인 최적화 방법으로 사용된다.

3.1. 배치 경사 하강법

배치 경사 하강법은 가장 기본적인 형태의 경사 하강법으로, 매 학습 단계에서 전체 훈련 데이터 집합을 사용하여 손실 함수의 기울기를 계산한다. 이 방법은 모든 데이터 포인트에 대한 오차의 합을 기반으로 기울기를 구하기 때문에, 진정한 손실 함수의 기울기 방향을 가장 정확하게 추정한다는 특징을 가진다. 따라서 각 업데이트 단계는 전체 데이터에 대한 목적 함수의 전역적 개선을 목표로 한다.

그러나 이 방식은 계산 비용이 매우 크다는 명확한 단점을 가진다. 데이터셋이 클수록 한 번의 파라미터 업데이트를 위해 모든 샘플을 처리해야 하므로, 계산에 소요되는 시간과 메모리 요구량이 급격히 증가한다. 또한 전체 데이터셋을 메모리에 한 번에 로드해야 할 수 있어, 대규모 데이터를 다루기에는 비효율적이다. 업데이트 속도가 느리고, 국소 최적점에 빠지면 탈출하기 어려운 경향도 보인다.

배치 경사 하강법의 동작을 요약하면 다음과 같은 표로 나타낼 수 있다.

특징	설명
기울기 계산 범위	매 반복마다 전체 훈련 데이터셋 사용
업데이트 정확도	높음 (노이즈가 적은 안정적인 기울기)
수렴 속도	반복 횟수 대비 느림 (한 번의 업데이트에 많은 계산 필요)
메모리 사용량	높음 (전체 데이터셋 처리)
수렴 행동	매끄럽지만 느리게 전역 최적점 또는 국소 최적점으로 향함

이 방법은 데이터셋의 크기가 비교적 작을 때, 또는 정확한 기울기 계산이 중요한 경우에 주로 사용된다. 이후 개발된 확률적 경사 하강법이나 미니배치 경사 하강법은 이러한 계산상의 비효율성을 해결하기 위해 등장한 변형 알고리즘이다.

3.2. 확률적 경사 하강법

확률적 경사 하강법(Stochastic Gradient Descent, SGD)은 배치 경사 하강법의 단점을 보완하기 위해 고안된 변형 알고리즘이다. 배치 경사 하강법은 매 단계에서 전체 훈련 데이터를 사용해 기울기를 계산하므로 계산 비용이 크고 데이터셋이 클 경우 매우 느려진다. SGD는 이와 달리 매 반복(iteration)마다 단 하나의 훈련 샘플을 무작위로 선택하여 그 샘플에 대한 기울기만을 계산하고 매개변수를 업데이트한다.

이 방식은 몇 가지 중요한 특징을 가진다. 첫째, 단일 샘플에 대한 계산만 필요하므로 매 단계의 계산 속도가 매우 빠르다. 둘째, 무작위로 샘플을 선택하기 때문에 손실 함수의 표면을 매우 불규칙하게(noisy) 탐색하게 된다. 이 불규칙성은 알고리즘이 국소 최적점에 갇히는 것을 방지하는 데 도움을 줄 수 있다. 그러나 동시에 수렴 경로가 매우 요동치며, 최종적으로 최적점 근처에서 진동하는 현상을 보인다.

SGD의 수렴성을 보장하기 위해서는 학습률을 점차 감소시키는 학습률 스케줄링을 적용하는 것이 일반적이다. 초기에는 큰 학습률로 빠르게 근접하고, 후반부에는 작은 학습률로 세밀하게 조정하여 진동을 줄이는 전략이다. 또한, 단일 샘플의 노이즈가 너무 커서 수렴이 불안정할 수 있으므로, 이를 절충한 미니배치 경사 하강법이 더 널리 사용된다. SGD는 특히 온라인 학습 환경에서 새로운 데이터가 지속적으로 유입될 때 효과적으로 적용될 수 있다.

3.3. 미니배치 경사 하강법

미니배치 경사 하강법은 배치 경사 하강법과 확률적 경사 하강법의 절충안이다. 이 방법은 전체 훈련 데이터를 한 번에 사용하지도 않고, 단 하나의 샘플만 사용하지도 않는다. 대신, 매 반복(iteration)마다 전체 데이터셋에서 무작위로 추출한 작은 부분집합인 미니배치(mini-batch)를 사용하여 기울기를 계산하고 매개변수를 업데이트한다.

미니배치의 크기는 일반적으로 2의 거듭제곱(예: 32, 64, 128, 256)으로 설정하며, 하이퍼파라미터로 조정한다. 이 방법은 배치 경사 하강법에 비해 매 단계의 계산 비용이 낮아 더 빠르게 업데이트를 수행할 수 있다. 동시에, 단일 샘플 대신 여러 샘플의 평균 기울기를 사용하므로 확률적 경사 하강법보다 기울기 추정의 분산이 작아져 더 안정적인 수렴을 보인다. 이는 특히 GPU와 같은 병렬 처리 하드웨어에서 효율적으로 동작하도록 설계되었다.

미니배치 경사 하강법의 알고리즘 흐름은 다음과 같다.

1. 훈련 데이터를 섞고(shuffle), 미니배치 크기만큼 나눈다.

2. 각 미니배치에 대해 순서대로 다음을 반복한다:

* 해당 미니배치에 대한 손실 함수의 기울기를 계산한다.

* 계산된 기울기와 학습률을 사용하여 모델 매개변수를 업데이트한다.

3. 모든 미니배치를 한 번 처리하면 1 에포크(epoch)가 완료되며, 필요한 에포크 수만큼 과정을 반복한다.

방법	기울기 계산 데이터	업데이트 안정성	계산 효율성	하드웨어 병렬화
배치 경사 하강법	전체 데이터셋	매우 높음	낮음	보통
확률적 경사 하강법	단일 샘플	낮음	매우 높음	낮음
미니배치 경사 하강법	미니배치(부분 집합)	높음	높음	매우 높음

미니배치 크기는 성능에 중요한 영향을 미친다. 작은 미니배치는 더 많은 노이즈를 포함하지만 지역 최적점에서 빠져나올 가능성이 높다. 큰 미니배치는 더 정확한 기울기 방향을 제공하지만, 계산 비용이 증가하고 메모리 요구량이 커진다. 현대 딥러닝 프레임워크의 대부분은 기본 최적화 방법으로 미니배치 경사 하강법의 변형들을 채택하고 있다.

4. 학습률 최적화

학습률은 매개변수 업데이트의 보폭을 결정하는 경사 하강법의 핵심 하이퍼파라미터이다. 너무 작은 학습률은 학습 속도를 지나치게 느리게 만들어 수렴에 많은 시간이 소요되며, 너무 큰 학습률은 손실 함수의 값을 발산시키거나 최적점 주변에서 진동하게 만든다. 따라서 적절한 학습률을 설정하거나 학습 과정 중에 동적으로 조정하는 것은 알고리즘의 성능과 효율성을 보장하는 데 필수적이다.

가장 기본적인 접근법은 고정 학습률을 사용하는 것이다. 이는 학습 과정 전체에 걸쳐 학습률 값이 변하지 않는다. 구현이 간단하지만, 최적의 값을 찾기 위해 여러 번의 실험이 필요하며, 학습 후반에 최적점에 가까워졌을 때는 더 작은 보폭이 유리할 수 있어 비효율적일 수 있다.

학습률 스케줄링은 학습이 진행됨에 따라 학습률을 점차 감소시키는 전략이다. 시간 기반 감소, 단계별 감소, 지수 감소 등의 방법이 있다[1]. 이를 통해 학습 초기에는 비교적 큰 보폭으로 빠르게 진전하고, 후반에는 작은 보폭으로 정밀하게 최적점에 접근할 수 있다. 스케줄링 방식은 사전에 정의된 규칙에 따라 이루어진다.

보다 정교한 방법으로는 Adam, RMSProp, Adagrad와 같은 적응형 학습률 알고리즘이 있다. 이 알고리즘들은 각 매개변수마다 개별적인 학습률을 동적으로 조정한다. 과거 기울기의 제곱값의 이동 평균 등을 활용하여, 자주 업데이트되거나 기울기가 큰 매개변수는 학습률을 작게, 반대의 경우는 학습률을 크게 설정한다. 이는 희소한 데이터를 다루거나 매개변수별 스케일 차이가 큰 경우에 특히 효과적이다.

최적화 방식	주요 특징	장점	단점
고정 학습률	학습 내내 동일한 값 유지	구현이 매우 간단함	최적값 탐색이 어려움, 비효율적일 수 있음
학습률 스케줄링	사전 정의된 규칙에 따라 점차 감소	후반부 정밀 조정 가능, 수렴 안정성 향상	최적의 스케줄을 찾아야 함
적응형 학습률	매개변수별로 과거 기울기 기반 자동 조정	수동 튜닝 부담 감소, 복잡한 문제에 효과적	알고리즘이 복잡하고, 추가 계산 비용 발생

4.1. 고정 학습률

고정 학습률은 경사 하강법 최적화 과정에서 학습률 매개변수를 훈련 시작 시 설정한 후, 훈련이 진행되는 동안 그 값을 변경하지 않고 일정하게 유지하는 방식을 가리킨다. 이는 가장 기본적이고 직관적인 학습률 설정 방법이다. 학습률은 각 반복(iteration)에서 기울기 벡터에 곱해져 가중치 업데이트의 크기와 방향을 결정하는 스칼라 값이다. 고정 학습률을 사용할 경우, 알고리즘의 구현과 이해가 간단하며, 하이퍼파라미터 튜닝을 위한 실험이 비교적 명확해진다.

적절한 고정 학습률 값을 선택하는 것은 매우 중요하다. 너무 큰 학습률을 설정하면 목적 함수의 최적점을 지나쳐 발산하거나 진동하는 현상이 발생할 수 있다. 반면, 너무 작은 학습률을 사용하면 수렴 속도가 매우 느려지고, 국소 최적점에 조기에 갇힐 위험이 커진다. 일반적으로 0.01, 0.001, 0.0001과 같은 10의 거듭제곱 형태의 값을 시작점으로 하여 실험적으로 최적값을 찾는다.

학습률 크기	영향	일반적인 증상
너무 큼	업데이트가 과도함	손실 값이 발산하거나 크게 진동함
적절함	안정적으로 최적점에 수렴함	손실 값이 꾸준히 감소함
너무 작음	업데이트가 미미함	수렴 속도가 매우 느리고, 조기에 멈출 수 있음

고정 학습률의 단점은 문제의 특성에 따라 동일한 학습률이 최적이 아닐 수 있다는 점이다. 손실 함수의 표면이 복잡하거나, 훈련 초기와 후기의 최적 학습률 크기가 다를 경우, 고정된 값 하나로는 효율적인 최적화가 어렵다. 이러한 한계를 극복하기 위해 학습률 스케줄링이나 적응형 학습률 알고리즘과 같은 더 정교한 방법들이 개발되었다.

4.2. 학습률 스케줄링

학습률 스케줄링은 훈련 과정 중에 학습률을 동적으로 조정하는 전략이다. 고정된 학습률을 사용할 경우, 최적점 근처에서 진동하거나 수렴 속도가 느려지는 문제가 발생할 수 있다. 학습률 스케줄링은 초기에는 상대적으로 큰 학습률로 빠르게 진전하다가, 후반부에는 작은 학습률로 세밀하게 조정하여 손실 함수의 최적점에 안정적으로 도달하도록 돕는다.

주요 스케줄링 방법은 다음과 같다.

방법	설명	특징
단계적 감소	미리 정해진 에포크 또는 반복 횟수에 도달할 때마다 학습률을 일정 비율(예: 10배)로 감소시킨다.	구현이 간단하고 널리 사용된다.
지수적 감소	학습률이 초기값에 지수함수를 곱한 형태로 감소한다. (예: η = η₀ * e^(-kt))	부드럽게 감소하지만 추가 하이퍼파라미터가 필요하다.
코사인 감소	학습률이 코사인 함수 곡선을 따라 0에 근접하도록 감소한다.	학습 후반부에 매우 작은 학습률로 미세 조정이 가능하다.
1/t 감소	학습률이 반복 횟수 t에 반비례하여 감소한다. (예: η = η₀ / (1 + kt))	확률적 경사 하강법의 이론적 수렴 보장 조건에 부합한다.

이러한 방법들은 과적합을 방지하고 수렴 속도를 개선하는 데 기여한다. 최적의 스케줄링 전략은 모델의 구조, 데이터의 특성, 그리고 사용된 최적화 알고리즘에 따라 달라지며, 실험을 통해 결정되는 경우가 많다.

4.3. 적응형 학습률 알고리즘

적응형 학습률 알고리즘은 학습 과정에서 각 매개변수에 대해 개별적이고 동적으로 학습률을 조정하는 최적화 기법이다. 고정된 학습률이나 사전 정의된 스케줄을 사용하는 방식의 한계를 극복하기 위해 개발되었다. 이 알고리즘들은 과거 기울기의 정보를 활용하여 매개변수 업데이트의 방향과 크기를 조정함으로써, 손실 함수의 곡면이 복잡하거나 스케일이 다른 경우에도 더 효율적인 수렴을 목표로 한다.

주요 알고리즘으로는 Adagrad, RMSProp, Adam 등이 있다. Adagrad는 각 매개변수에 대해 지금까지 누적된 기울기의 제곱을 이용해 학습률을 조정한다. 이는 자주 등장하는 매개변수의 학습률은 작게, 드물게 등장하는 매개변수의 학습률은 크게 만들어주지만, 학습이 진행될수록 누적 값이 커져 학습률이 지나치게 감소할 수 있다는 단점이 있다. RMSProp은 Adagrad의 단점을 보완하여 기울기 제곱의 이동 평균을 사용함으로써 학습률이 과도하게 줄어드는 것을 방지한다.

Adam(Adaptive Moment Estimation)은 현재 가장 널리 사용되는 적응형 알고리즘 중 하나이다. Adam은 모멘텀의 개념(기울기의 일차 모멘트 추정)과 RMSProp의 개념(기울기 제곱의 이차 모멘트 추정)을 결합한다. 이 두 모멘트의 추정값을 바탕으로 각 매개변수에 대한 업데이트 크기를 조정한다. Adam은 일반적으로 다양한 문제에 대해 강건한 성능을 보이며, 초기 학습률 설정에 비교적 덜 민감한 특징을 가진다[2].

알고리즘	핵심 아이디어	주요 특징
Adagrad	과거 기울기 제곱의 누적 합으로 학습률 조정	희소한 특성에 효과적이지만, 학습률이 지속적으로 감소
RMSProp	기울기 제곱의 지수 이동 평균으로 학습률 조정	Adagrad의 학습률 감소 문제를 완화
Adam	기울기의 일차 모멘트(모멘텀)와 이차 모멘트(RMSProp)를 결합	일반적으로 빠른 수렴과 안정적인 학습을 제공

이러한 적응형 알고리즘들은 특히 딥러닝과 같이 매개변수의 수가 많고 데이터와 손실 함수의 형태가 복잡한 모델의 학습에서 표준적인 도구가 되었다. 그러나 모든 문제에 대해 최적인 단일 알고리즘은 존재하지 않으며, 문제의 특성에 따라 다른 알고리즘이 더 나은 성능을 보일 수 있다.

5. 최적화 알고리즘 변형

경사 하강법의 기본 형태는 간단하지만, 수렴 속도가 느리거나 특정 문제 상황에서 비효율적일 수 있다. 이를 개선하기 위해 다양한 최적화 알고리즘 변형이 개발되었다. 이 변형들은 기울기 정보를 더 효율적으로 활용하거나 과거 정보를 축적하여 업데이트 방향을 조정하는 방식을 도입한다.

가장 대표적인 변형 중 하나는 모멘텀이다. 모멘텀은 물리학의 관성 개념을 차용하여, 이전 업데이트 방향의 일부를 현재 기울기에 더해 새로운 업데이트 방향을 결정한다. 이는 골짜기 같은 지형에서 진동을 줄이고 더 빠르게 최적점을 향해 나아가도록 돕는다. 수식적으로는 이동 평균을 유지하는 변수(v)를 도입하여 매 단계마다 이를 업데이트하고, 이 변수를 사용해 매개변수를 갱신한다.

보다 발전된 적응형 학습률 알고리즘들도 널리 사용된다. RMSProp은 각 매개변수마다 학습률을 적응적으로 조정한다. 과거 기울기의 제곱값의 지수 이동 평균을 계산하여, 기울기가 크게 변동하는 매개변수에는 작은 학습률을, 일관된 매개변수에는 상대적으로 큰 학습률을 적용한다. 이는 기울기 소실/폭발 문제를 완화하는 데 도움을 준다. Adam은 모멘텀과 RMSProp의 아이디어를 결합한 알고리즘이다. Adam은 기울기의 1차 모멘트(평균, 모멘텀 역할)와 2차 모멘트(제곱의 평균, RMSProp 역할)의 지수 이동 평균을 모두 유지하며, 초기 편향을 보정한 후 매개변수를 업데이트한다. 이로 인해 다양한 문제에 대해 강건하고 효율적인 성능을 보여주며, 현재 딥러닝 분야에서 가장 널리 채택되는 최적화 알고리즘 중 하나이다.

알고리즘	핵심 아이디어	주요 장점
모멘텀	이전 업데이트 방향의 관성을 현재 기울기에 더함	곡선 골짜기에서 진동 감소, 수렴 가속
RMSProp	각 매개변수의 기울기 제곱 평균으로 학습률을 적응적으로 조정	변동이 큰 기울기에 대한 안정성 향상
Adam	모멘텀(1차 모멘트)과 RMSProp(2차 모멘트)을 결합하고 편향 보정	빠른 수렴과 강건한 성능

5.1. 모멘텀

모멘텀은 경사 하강법의 수렴 속도를 높이고 진동을 줄이기 위해 도입된 최적화 기법이다. 이 방법은 물리학의 관성 개념을 차용하여, 매개변수 업데이트 방향에 이전 업데이트 방향의 일부를 더해준다. 이는 공이 언덕을 굴러내려갈 때 관성에 의해 가속되는 현상에 비유된다.

기본적인 경사 하강법은 현재 지점의 기울기만을 반영하여 매개변수를 갱신한다. 반면 모멘텀은 과거의 기울기 정보를 누적하여 현재의 업데이트 방향을 결정한다. 구체적인 업데이트 규칙은 다음과 같다. 먼저 모멘텀 항이라고 불리는 속도 벡터 *v*를 도입한다. 이 벡터는 매 반복마다 현재 기울기와 이전 속도 벡터의 선형 결합으로 갱신된다. 그 후, 매개변수는 이 속도 벡터를 사용하여 업데이트된다. 수식으로 표현하면 다음과 같다.

단계	수식	설명
속도 갱신	v = β \* v + (1 - β) \* ∇J(θ)	β는 모멘텀 계수(보통 0.9), ∇J(θ)는 현재 기울기
매개변수 갱신	θ = θ - α \* v	α는 학습률

이 방식은 손실 함수의 표면이 한 방향으로는 완만하고 다른 방향으로는 가파른 골짜기 모양일 때 효과적이다. 기본 경사 하강법은 이러한 경우 지그재그로 진동하며 느리게 진행하지만, 모멘텀은 진동 방향의 업데이트를 상쇄시키고 골짜기 축 방향으로는 가속시켜 더 빠르고 안정적인 수렴을 돕는다.

모멘텀의 변형으로는 네스테로프 가속 경사법이 있다. 이 방법은 기본 모멘텀이 현재 위치의 기울기를 계산하는 것과 달리, 모멘텀에 의해 예상되는 다음 위치를 미리 보고 그 지점의 기울기를 계산한다. 이는 "살짝 미리 보기"를 구현하여 수렴 성능을 더욱 개선시킨다.

5.2. RMSProp

RMSProp은 제프리 힌튼이 제안한 적응형 학습률 알고리즘이다. 이 방법은 경사 하강법의 변형으로, 각 매개변수에 대해 학습률을 개별적으로 조정하는 것을 핵심 아이디어로 삼는다. 특히, 기울기의 최근 크기에 기반하여 학습 속도를 조절함으로써, 손실 함수의 곡면에서 기울기가 크게 변하는 방향(고차원의 경우)이나 진동이 심한 방향에서는 학습률을 낮추고, 상대적으로 일정한 방향에서는 학습률을 높게 유지한다. 이는 RMSProp이 RMS라는 이름이 시사하듯, 기울기의 제곱의 이동 평균(Root Mean Square)을 사용하여 각 차원의 기울기 변화량을 정규화하기 때문이다.

알고리즘의 작동 방식은 다음과 같다. 먼저, 각 매개변수 $w$에 대해 기울기 제곱의 지수 가중 이동 평균 $E[g^2]_t$를 계산한다. 이때 감쇠율 $\beta$ (보통 0.9)를 사용하여 이전 평균의 대부분을 유지하면서 새로운 기울기 제곱 $g_t^2$의 작은 부분을 반영한다. 수식은 $E[g^2]_t = \beta E[g^2]_{t-1} + (1 - \beta) g_t^2$와 같다. 그런 다음, 매개변수 업데이트 시 원래의 기울기 $g_t$를 이 평균의 제곱근으로 나누어 조정된 기울기를 만든다. 따라서 업데이트 규칙은 $w_{t+1} = w_t - \frac{\eta}{\sqrt{E[g^2]_t + \epsilon}} g_t$가 된다. 여기서 $\eta$는 전역 학습률이고, $\epsilon$은 0으로 나누는 것을 방지하기 위한 아주 작은 값(예: $10^{-8}$)이다.

특징	설명
핵심 메커니즘	기울기 제곱의 지수 가중 이동 평균으로 각 매개변수의 학습률을 적응적으로 조정
주요 장점	진동이 심한 방향의 업데이트를 억제하여 보다 안정적인 수렴을 도모[3]
단점	학습률이 지나치게 감소하여 수렴이 매우 느려질 수 있음
후속 발전	Adam 최적화 알고리즘의 핵심 구성 요소로 통합됨

이 방식은 특히 순환 신경망(RNN)과 같이 곡률이 급격히 변하는 문제에서 효과적인 것으로 알려졌다. RMSProp은 AdaGrad 알고리즘이 갖는 학습률이 지나치게 빠르게 감소하는 문제를 완화한다. AdaGrad는 모든 과거 기울기의 제곱을 누적하여 학습률을 나누기 때문에, 학습이 진행될수록 업데이트 크기가 급격히 줄어드는 단점이 있었다. 반면 RMSProp은 지수 가중 평균을 사용해 최근의 기울기 역사에 더 민감하게 반응하므로, 이 문제를 상당 부분 해결한다.

5.3. Adam

Adam은 적응형 학습률 알고리즘의 일종으로, 2014년에 제안된 경사 하강법 최적화 알고리즘이다. 이 알고리즘은 모멘텀과 RMSProp의 아이디어를 결합하여, 각 매개변수에 대해 개별적으로 학습률을 조정한다. Adam은 경사의 첫 번째 모멘트(평균)와 두 번째 모멘트(분산)의 추정값을 사용하여 매개변수를 업데이트한다.

Adam의 업데이트 규칙은 다음 네 단계로 요약된다. 먼저, 현재 기울기를 기반으로 모멘트 추정값을 계산한다. 이때, 일차 모멘트는 기울기의 지수 가중 이동평균이며, 이차 모멘트는 기울기 제곱의 지수 가중 이동평균이다. 다음으로, 초기 추정값의 편향을 보정하기 위해 편향 보정을 수행한다. 마지막으로, 편향이 보정된 모멘트 추정값을 사용하여 매개변수를 업데이트한다. 이 과정은 모든 매개변수에 대해 독립적으로 이루어진다.

Adam의 주요 하이퍼파라미터는 학습률, 일차 모멘트 감쇠 계수, 이차 모멘트 감쇠 계수가 있다. 일반적으로 권장되는 기본값이 제안되어 있어 상대적으로 튜닝이 쉽다는 장점이 있다. Adam은 스파스 기울기를 효과적으로 처리하며, 계산 효율성이 높고 메모리 요구량이 적다.

이 알고리즘은 실전에서 매우 널리 사용되며, 특히 딥러닝 모델의 학습에서 기본 최적화 도구로 자리 잡았다. 컨볼루션 신경망이나 순환 신경망과 같은 다양한 신경망 구조에서 안정적이고 빠른 수렴 성능을 보인다. 그러나 매우 큰 배치 크기를 사용할 때나 특정 문제 설정에서는 다른 최적화 알고리즘이 더 나은 성능을 보일 수 있다는 점은 주목할 필요가 있다.

6. 수렴성과 문제점

경사 하강법은 반복적인 파라미터 업데이트를 통해 손실 함수의 값을 최소화하는 방향으로 수렴하려 한다. 이론적으로 적절한 조건(예: 볼록 함수인 손실 함수, 적절한 학습률) 하에서는 전역 최적점으로 수렴함이 보장된다. 그러나 실제 문제에서는 비볼록 함수를 다루는 경우가 많으며, 이로 인해 여러 수렴성 문제가 발생한다.

주요 문제점으로는 국소 최적점에 빠지는 현상이 있다. 손실 함수의 표면이 복잡할 경우, 알고리즘이 전역 최소점이 아닌 주변의 더 깊은 골짜기(국소 최적점)에 갇혀 더 이상 진전이 없을 수 있다. 또한, 기울기 소실 문제는 심층 신경망에서 주로 발생하며, 역전파 과정에서 기울기가 연쇄 법칙을 통해 곱해지면서 0에 가까워져 하위 층의 가중치가 효과적으로 업데이트되지 않는 현상이다. 반대로 기울기 폭발은 기울기가 지나치게 커져 수치적 불안정성을 초래한다.

과적합은 모델이 훈련 데이터에 지나치게 맞춰져 새로운 데이터에 대한 일반화 성능이 떨어지는 문제이다. 경사 하강법은 훈련 손실을 계속해서 줄이려 하기 때문에 과적합의 위험이 있다. 이를 완화하기 위해 조기 종료 기법이 자주 사용된다. 이는 검증 데이터 세트의 성능을 모니터링하다가 성능이 더 이상 개선되지 않을 때 훈련을 중단함으로써 과적합을 방지한다.

6.1. 국소 최적점

경사 하강법은 손실 함수의 기울기를 따라 반복적으로 매개변수를 업데이트하여 함수의 최솟값을 찾는 알고리즘이다. 그러나 이 방법은 항상 전역 최적점을 찾는다는 보장이 없다. 손실 함수의 지형이 복잡할 경우, 알고리즘이 기울기가 0에 가까운 지점인 국소 최적점에 갇혀 더 이상 진전하지 못할 수 있다. 이는 해당 지점 주변의 어떤 작은 이동도 손실을 증가시키기 때문에 발생하는 현상이다.

국소 최적점 문제는 특히 고차원의 비볼록 함수에서 두드러진다. 딥러닝 모델의 손실 함수는 수많은 국소 최적점과 안장점을 포함하는 매우 복잡한 표면을 가진다. 안장점은 한 방향으로는 기울기가 증가하고 다른 방향으로는 감소하는 지점으로, 기울기가 0이 되어 알고리즘이 멈출 수 있으나 실제 최솟값은 아닌 경우가 많다.

이 문제를 완화하기 위한 여러 방법이 개발되었다. 모멘텀은 과거 기울기의 방향을 일종의 관성으로 활용하여 알고리즘이 평평한 지역이나 얕은 국소 최적점을 빠져나가도록 돕는다. 확률적 경사 하강법은 매 단계에서 무작위로 선택된 하나의 데이터 샘플에 대한 기울기를 사용함으로써 업데이트에 잡음을 더해 국소 최적점에서 탈출할 가능성을 높인다. 미니배치 경사 하강법도 비슷한 원리로 동작한다. 더욱 정교한 적응형 학습률 알고리즘인 Adam이나 RMSProp은 매개변수마다 학습률을 동적으로 조정하여 이러한 함정을 피하는 데 도움을 준다.

또한, 가중치 초기화 전략을 개선하거나 배치 정규화를 사용하면 최적화 과정이 더 나은 지역에서 시작되도록 하여 국소 최적점에 빠질 위험을 줄일 수 있다. 현대의 관점에서는 고차원 공간에서 진정한 국소 최적점은 드물며, 대부분의 임계점은 안장점이라는 해석이 우세하다[4]. 따라서 많은 최적화 알고리즘은 이러한 안장점을 효과적으로 통과하는 데 초점을 맞추고 있다.

6.2. 기울기 소실/폭발

기울기 소실 문제는 심층 신경망과 같이 많은 층을 가진 모델을 역전파 알고리즘으로 학습할 때 발생하는 현상이다. 역전파 과정에서 출력층에서 입력층 방향으로 기울기가 연쇄 법칙을 통해 곱해지면서 전파되는데, 이때 기울기 값이 1보다 작은 값이 반복적으로 곱해지면 기울기가 점점 작아져 0에 수렴하게 된다. 결과적으로 네트워크의 앞쪽 층(입력층에 가까운 층)의 가중치는 거의 업데이트되지 않고 학습이 멈추게 된다. 이 문제는 특히 시그모이드 함수나 하이퍼볼릭 탄젠트 함수와 같은 포화 함수를 활성화 함수로 사용할 때 두드러지게 나타난다. 이 함수들의 도함수는 입력값이 크거나 작을 때 0에 가까운 값을 출력하기 때문이다[5].

반대로 기울기 폭발 문제는 역전파 과정에서 기울기 값이 1보다 큰 값이 반복적으로 곱해지면서 기하급수적으로 커지는 현상을 말한다. 이는 매우 불안정한 학습을 초래하며, 가중치 값이 급격히 증가하여 NaN (Not a Number)과 같은 수치적 불안정성을 야기하고 학습을 완전히 실패하게 만들 수 있다. 기울기 폭발은 주로 가중치 초기화 값이 너무 크거나, 매우 깊은 네트워크에서 발생한다.

이러한 문제들을 완화하기 위한 여러 기법이 개발되었다. 활성화 함수 측면에서는 포화 영역이 없는 ReLU 계열의 함수(Leaky ReLU, ELU 등)를 사용하는 것이 일반적이다. 네트워크 구조 설계 측면에서는 잔차 연결을 도입한 ResNet과 같은 아키텍처가 기울기 소실을 효과적으로 해결했다. 또한, 그래디언트 클리핑은 기울기의 최대 노름 값을 제한하여 폭발 문제를 제어하는 간단하면서도 효과적인 방법이다. 가중치 초기화 전략(예: He 초기화, Xavier 초기화)과 배치 정규화도 안정적인 기울기 흐름을 유도하는 데 기여한다.

6.3. 과적합과 조기 종료

과적합은 모델이 훈련 데이터에 지나치게 맞춰져 새로운 데이터에 대한 일반화 성능이 떨어지는 현상이다. 경사 하강법을 사용한 학습 과정에서 반복 횟수(에포크)가 증가할수록 훈련 데이터의 손실은 계속 감소하지만, 검증 데이터의 손실은 어느 순간부터 다시 증가하기 시작한다. 이는 모델이 훈련 데이터의 노이즈나 특정 패턴까지 암기하게 되어 발생한다.

조기 종료는 이러한 과적합을 방지하기 위한 규제 기법 중 하나이다. 검증 데이터 세트의 손실을 모니터링하다가, 사전에 정의된 인내 기간 동안 검증 손실이 개선되지 않으면 학습을 중단하는 방법이다. 이는 학습을 적절한 시점에 멈춤으로써 모델이 과적합되기 전의 가중치를 저장하고 사용하게 한다. 조기 종료는 구현이 간단하면서도 효과적인 규제 방법으로 평가된다.

조기 종료를 구현할 때는 일반적으로 다음과 같은 절차를 따른다.

1. 데이터를 훈련 세트, 검증 세트, 테스트 세트로 나눈다.

2. 각 에포크 후에 검증 세트로 모델 성능을 평가한다.

3. 검증 손실이 최소 기록을 갱신하면 모델 가중치를 별도로 저장한다.

4. 지정된 에포크 수(인내 기간) 동안 최소 기록이 갱신되지 않으면 학습을 중단하고 저장된 최적의 가중치를 복원한다.

이 방법은 경사 하강법의 반복적 특성을 활용하여, 명시적인 정규화 항을 손실 함수에 추가하지 않아도 암묵적으로 모델 복잡도를 제한하는 효과를 낸다. 조기 종료의 단점으로는 검증 데이터를 별도로 확보해야 하며, 학습 중단 시점을 결정하는 인내 기간을 적절히 설정해야 한다는 점이 있다.

7. 데이터 처리와의 연관성

특성 스케일링은 경사 하강법의 효율성과 수렴 속도에 직접적인 영향을 미치는 중요한 전처리 과정이다. 서로 다른 범위를 가진 특성(예: 나이(0-100)와 소득(0-10,000,000))이 존재할 경우, 손실 함수의 형태가 비대칭적으로 늘어나 기울기의 방향이 최적점을 직접적으로 가리키지 않게 된다. 이로 인해 학습률을 작게 설정해야 하며, 알고리즘이 지그재그 경로를 따라 느리게 수렴하게 된다. 표준화나 정규화를 통해 모든 특성의 범위를 비슷한 수준으로 맞추면, 손실 함수의 등고선이 더 원형에 가까워져 기울기가 최적점 방향을 더 정확히 가리키게 되어 학습이 안정화되고 가속화된다.

배치 정규화는 주로 심층 신경망의 내부에서 활성화값의 분포를 안정화시키는 기술로, 경사 하강법의 최적화 과정을 용이하게 한다. 심층 네트워크에서 데이터는 여러 층을 통과하며 변환되는데, 이 과정에서 각 층의 입력 분포가 학습 중에 변화하는 현상(내부 공변량 변화)이 발생한다. 이는 네트워크의 뒷부분 층이 계속해서 변화하는 입력 분포에 적응해야 함을 의미하며, 이로 인해 학습률을 낮춰야 하고 학습이 느려진다. 배치 정규화는 각 층의 활성화값을 평균 0, 분산 1로 정규화하여 이러한 내부 공변량 변화를 줄인다.

배치 정규화의 효과는 다음과 같이 요약할 수 있다.

효과	설명
더 높은 학습률 허용	기울기의 스케일을 안정화시켜 발산 위험 없이 큰 학습률을 사용할 수 있게 한다.
가중치 초기화 의존도 감소	활성화값의 분포를 정규화하므로 가중치 초기값 선택에 덜 민감해진다.
규제 효과	미니배치의 평균과 분산을 사용함으로써 학습에 약간의 노이즈를 추가하여 과적합을 완화하는 효과가 있다.

결론적으로, 데이터 처리 기법인 특성 스케일링과 배치 정규화는 경사 하강법이 보다 효율적이고 안정적으로 최적점을 찾을 수 있도록 문제의 조건을 개선한다. 이는 단순한 전처리를 넘어 최적화 알고리즘 자체의 성능을 극대화하는 필수적인 단계로 인식된다.

7.1. 특성 스케일링

특성 스케일링은 데이터의 각 특성이 서로 다른 범위와 단위를 가질 때, 이를 일정한 기준으로 조정하는 전처리 과정이다. 경사 하강법 기반의 최적화 알고리즘은 특성의 스케일이 균일하지 않으면 수렴 속도가 느려지거나 심지어 발산할 수 있으므로, 이 과정은 매우 중요하다.

주요 방법으로는 표준화와 정규화가 널리 사용된다. 표준화는 각 특성의 평균을 0, 표준편차를 1로 변환하며, 정규화는 특성값을 특정 범위(예: 0과 1 사이)로 조정한다. 이 외에도 로그 변환, Robust Scaler 등이 상황에 따라 활용된다.

방법	설명	수식 (요약)	주로 사용되는 경우
표준화 (Standardization)	평균 0, 표준편차 1로 조정	(값 - 평균) / 표준편차	데이터가 정규 분포를 따를 때
정규화 (Min-Max Scaling)	값을 지정된 범위(보통 [0,1])로 선형 변환	(값 - 최솟값) / (최댓값 - 최솟값)	데이터의 분포가 정규분포가 아니거나, 고정된 범위가 필요할 때
Robust Scaling	중앙값과 사분위범위(IQR)를 사용하여 조정	(값 - 중앙값) / IQR	데이터에 이상치가 많을 때

이러한 스케일링은 모든 특성이 동일한 스케일을 갖게 하여 학습률을 보다 균일하게 적용할 수 있도록 한다. 결과적으로 경사 하강법이 최적의 방향으로 더 효율적이고 안정적으로 진행되어, 전역 최적점에 더 빠르게 도달하는 데 기여한다. 특히 서포트 벡터 머신이나 K-평균 클러스터링 같은 거리 기반 알고리즘에서는 필수적인 단계로 간주된다.

7.2. 배치 정규화

배치 정규화는 신경망 학습 과정에서 각 은닉층의 입력 분포를 안정화시키는 기법이다. 주로 딥러닝 모델에서 사용되며, 학습 속도를 높이고 과적합을 줄이는 데 도움을 준다. 이 기법은 학습 시 미니배치 단위로 각 층의 입력값의 평균과 분산을 계산하여 정규화한 후, 학습 가능한 매개변수인 감마와 베타를 통해 스케일과 이동을 조정한다.

배치 정규화의 주요 동작은 다음과 같은 단계로 이루어진다. 먼저, 현재 미니배치 데이터에 대해 해당 층 입력의 평균(μ_B)과 분산(σ_B^2)을 계산한다. 그런 다음, 이 통계량을 사용하여 입력값을 정규화한다. 마지막으로, 정규화된 값에 스케일 파라미터 γ를 곱하고 이동 파라미터 β를 더하여 최종 출력을 생성한다. 이 과정은 수식으로 z_norm = (x - μ_B) / √(σ_B^2 + ε) 및 y = γ * z_norm + β 로 표현된다. 여기서 ε은 분모가 0이 되는 것을 방지하기 위한 작은 상수이다.

이 기법은 여러 이점을 제공한다. 내부 공변량 변화[6]를 줄여 학습률을 크게 설정할 수 있게 하므로, 학습 속도가 향상된다. 또한, 정규화 효과가 있어 드롭아웃과 같은 다른 정규화 기법에 대한 의존도를 낮출 수 있다. 그러나 배치 크기가 매우 작을 때는 통계량 추정이 불안정해질 수 있으며, 순환 신경망이나 강화학습과 같은 특정 아키텍처에는 직접 적용하기 어려운 한계도 존재한다.

장점	설명
학습 속도 향상	높은 학습률 사용 가능, 빠른 수렴
초기화 의존도 감소	가중치 초기값에 덜 민감함
정규화 효과	일정程度的으로 과적합을 방지함

고려사항	설명
배치 크기 의존성	작은 배치 크기에서 성능 저하 가능
추론 시 동작	학습 중 계산된 이동 평균을 사용함
계산 오버헤드	추가적인 연산이 필요함

8. 응용 분야

경사 하강법은 머신러닝과 딥러닝 분야에서 모델의 매개변수를 학습시키는 데 가장 널리 사용되는 핵심 최적화 알고리즘이다. 이 방법은 모델의 예측값과 실제값 사이의 오차를 나타내는 손실 함수를 최소화하는 방향으로 파라미터를 반복적으로 조정한다. 선형 회귀, 로지스틱 회귀, 서포트 벡터 머신 같은 전통적인 머신러닝 모델부터 복잡한 인공신경망에 이르기까지 광범위하게 적용된다.

딥러닝에서는 특히 경사 하강법의 다양한 변형이 필수적이다. 순전파 과정으로 계산된 손실을 역전파 알고리즘을 통해 각 층의 가중치와 편향에 대한 기울기로 변환한 후, 경사 하강법을 이용해 이를 업데이트한다. 깊은 신경망의 학습에는 확률적 경사 하강법이나 미니배치 경사 하강법이 효율성을 위해 주로 사용되며, 모멘텀, RMSProp, Adam 같은 고급 최적화 알고리즘들이 수렴 속도와 안정성을 개선하는 데 기여한다.

경사 하강법의 응용은 예측 및 분류 모델 학습을 넘어서 차원 축소, 군집화, 추천 시스템 구축 등 다양한 머신러닝 과제에 활용된다. 또한 강화 학습에서 정책 네트워크를 최적화하거나 생성적 적대 신경망의 생성기와 판별기를 훈련시키는 데에도 핵심적인 역할을 한다. 데이터의 규모와 모델의 복잡성이 증가함에 따라, 경사 하강법을 기반으로 한 분산 및 병렬 처리 기법의 중요성도 함께 커지고 있다.

8.1. 머신러닝 모델 학습

경사 하강법은 머신러닝에서 모델의 매개변수를 학습시키는 데 가장 널리 사용되는 핵심 알고리즘이다. 이 방법은 모델이 예측한 값과 실제 레이블 사이의 오차를 측정하는 손실 함수를 정의하고, 이 함수의 값을 최소화하는 방향으로 매개변수를 반복적으로 조정한다. 선형 회귀, 로지스틱 회귀, 서포트 벡터 머신 등 다양한 모델의 학습 과정에 적용된다.

구체적인 학습 과정은 다음과 같다. 먼저 모델의 가중치와 편향과 같은 매개변수에 임의의 초기값을 부여한다. 그 후, 현재 매개변수에서 손실 함수의 기울기(gradient)를 계산한다. 이 기울기는 손실 함수 값이 가장 가파르게 증가하는 방향을 가리키므로, 그 반대 방향으로 매개변수를 조정하면 손실을 줄일 수 있다. 이 조정은 새 매개변수 = 기존 매개변수 - 학습률 * 기울기라는 업데이트 규칙에 따라 이루어진다. 이 과정을 손실 값의 감소가 미미해질 때까지 반복한다.

사용하는 데이터의 양과 방식에 따라 배치 경사 하강법, 확률적 경사 하강법, 미니배치 경사 하강법 등으로 구분된다. 배치 방식은 전체 훈련 데이터의 기울기를 한 번에 계산하여 정확하지만 계산 비용이 크다. 확률적 방식은 한 개의 데이터 샘플마다 매개변수를 업데이트하여 빠르지만 노이즈가 크다. 실무에서는 두 방법의 절충안인 미니배치 방식이 가장 흔히 쓰인다.

머신러닝 모델 학습에서 경사 하강법의 성능은 학습률, 데이터의 특성 스케일링, 적절한 손실 함수 선택 등에 크게 의존한다. 너무 큰 학습률은 발산을 일으킬 수 있고, 너무 작은 학습률은 수렴 속도를 지나치게 느리게 만든다. 또한 특성들의 스케일이 일정하지 않으면 최적화 경로가 비효율적으로 꼬여 학습이 어려워지므로, 표준화나 정규화가 선행되는 경우가 많다.

8.2. 딥러닝

딥러닝에서 경사 하강법은 신경망의 가중치와 편향을 학습시키는 핵심 최적화 알고리즘이다. 심층 신경망은 수백만에서 수십억 개에 이르는 매개변수를 가지며, 이러한 고차원 공간에서 손실 함수의 최솟값을 찾기 위해 경사 하강법의 다양한 변형이 필수적으로 사용된다. 기본적인 배치 경사 하강법은 계산 비용이 매우 높기 때문에, 대규모 데이터셋과 복잡한 모델에서는 확률적 경사 하강법이나 미니배치 경사 하강법이 표준적으로 활용된다.

딥러닝의 성공은 경사 하강법을 보완하는 고급 최적화 알고리즘의 발전과 밀접한 관련이 있다. 역전파 알고리즘은 신경망의 출력층에서 시작해 입력층 방향으로 오차를 전파하며 각 매개변수에 대한 기울기를 효율적으로 계산하는 메커니즘을 제공한다[7]. 이 계산된 기울기를 바탕으로, 모멘텀, RMSProp, Adam과 같은 알고리즘들이 학습 속도를 가속화하고 불안정한 기울기 문제를 완화하며 수렴 성능을 크게 향상시켰다.

알고리즘	주요 특징	딥러닝에서의 일반적 용도
SGD with Momentum	과거 기울기의 관성을 활용하여 진동을 줄임	합성곱 신경망의 초기 학습 단계
Adam	모멘텀과 RMSProp의 아이디어를 결합, 적응형 학습률	다양한 구조의 신경망(예: Transformer, ResNet)에 널리 사용
AdaGrad	빈번히 등장하는 매개변수는 작은 학습률 적용	자연어 처리 모델의 임베딩 층

심층 신경망의 학습에서는 기울기 소실 문제와 기울기 폭발 문제가 주요 과제로 부상한다. 이러한 문제를 해결하기 위해 ReLU 및 그 변형 활성화 함수의 도입, 배치 정규화 층의 사용, 신경망 구조 설계(예: 잔차 연결) 등이 경사 하강법 기반 학습을 안정화하는 데 기여했다. 결과적으로, 경사 하강법 최적화 기술의 진화는 더 깊고 복잡한 신경망 모델을 효과적으로 학습 가능하게 함으로써 딥러닝 분야의 폭발적 발전을 이끈 동력이 되었다.

경사 하강법 최적화

한국어 명칭	경사 하강법
영문 명칭	Gradient Descent
분류	최적화 알고리즘
주요 용도	함수의 최솟값 또는 최댓값 탐색
핵심 원리	함수의 기울기(gradient)를 이용해 매개변수를 반복적으로 업데이트
주요 변형	배치 경사 하강법, 확률적 경사 하강법(SGD), 미니배치 경사 하강법
알고리즘 상세
수학적 표현	θ = θ - η * ∇J(θ)
학습률	매개변수 업데이트의 보폭을 결정하는 하이퍼파라미터 (η)
손실 함수	최소화하려는 목표 함수 (예: 평균 제곱 오차)
수렴 조건	기울기가 0에 가까워지거나, 반복 횟수 도달, 오차 임계치 달성
장점	구현이 비교적 간단하며, 대규모 데이터셋에도 적용 가능
단점	학습률 선택이 중요하며, 국소 최솟값에 빠질 수 있음
응용 분야	머신러닝, 딥러닝 모델의 가중치 학습, 회귀 분석
관련 알고리즘	모멘텀, Adam, AdaGrad
초기값 의존성	수렴 지점이 초기 매개변수 값에 영향을 받을 수 있음