강화 학습 정책 구배

1. 개요

강화 학습에서 정책 구배는 정책을 직접 최적화하는 알고리즘 계열을 가리킨다. 이 방법들은 정책 경사 정리를 수학적 근간으로 하여, 기대 보상을 극대화하는 방향으로 정책 매개변수를 조정한다. 가치 기반 방법이 최적 가치 함수를 먼저 학습한 후 이를 통해 정책을 유도하는 것과 달리, 정책 구배 방법은 매개변수화된 정책을 직접 탐색 공간에서 최적화한다.

주요 구성 요소는 정책 π, 매개변수 θ, 그리고 목적 함수 J(θ)이다. 목적 함수는 일반적으로 누적 보상의 기댓값으로 정의되며, 알고리즘의 목표는 경사 하강법 또는 그 변형을 통해 J(θ)의 경사를 추정하고 이를 이용해 θ를 업데이트하는 것이다. 이 과정은 에이전트가 환경과의 상호작용을 통해 생성한 궤적 데이터에 의존한다.

정책 구배 방법의 대표적인 장점은 연속적인 행동 공간을 자연스럽게 다룰 수 있고, 확률적 정책을 학습하여 탐험을 용이하게 한다는 점이다. 또한, 수렴성이 보장되는 이론적 토대를 가지고 있다. 반면, 표본 효율성이 낮고, 기울기 추정의 분산이 커서 학습이 불안정할 수 있으며, 지역 최적점에 쉽게 갇힌다는 한계도 지닌다.

이 방법론의 발전은 REINFORCE와 같은 초기 몬테카를로 기반 알고리즘에서 시작되어, 액터-크리틱 구조, 그리고 TRPO와 PPO와 같이 안정성을 강화한 현대적인 알고리즘으로 이어졌다. 이는 로봇 공학, 자율 주행, 게임 AI, 자원 관리 등 다양한 분야에 적용된다.

2. 정책 구배의 수학적 기초

강화 학습에서 정책은 주어진 상태에서 각 행동을 선택할 확률을 출력하는 함수이다. 정책 구배 방법의 핵심은 이 정책의 매개변수를 조정하여 기대 보상을 극대화하는 것이다. 이를 위해 목적 함수 J(θ)를 정책 매개변수 θ에 대한 기대 누적 보상으로 정의한다. 일반적으로 할인된 누적 보상 합을 사용하며, 이는 에이전트가 장기적인 성과를 고려하도록 한다.

목적 함수를 극대화하기 위해서는 목적 함수의 기울기를 계산해야 한다. 정책 경사 정리는 이 기울기가 기대값 형태로 표현될 수 있음을 보여준다. 정책 경사 정리는 다음과 같은 근본적인 식을 제공한다[1].

∇θ J(θ) = Eπ[∇θ log π(a|s; θ) * Qπ(s, a)]

여기서 π(a|s; θ)는 매개변수 θ를 가진 정책 하에서 상태 s에서 행동 a를 선택할 확률이고, Qπ(s, a)는 해당 상태-행동 쌍의 가치 함수이다. 이 정리는 목적 함수의 기울기가 '로그 정책의 기울기'와 '행동 가치'의 곱의 기대값과 같음을 의미한다. 이는 높은 가치를 가진 행동의 선택 확률을 높이는 방향으로 매개변수를 업데이트하는 직관적인 원리를 수학적으로 뒷받침한다.

정책 경사 정리의 유도 과정은 로그 미분법과 기대값의 성질을 활용한다. 목적 함수 J(θ)는 정책 π(θ) 하에서의 보상 기대값이므로, 기울기 ∇θ J(θ)는 보상에 대한 기대값의 기울기이다. 보상은 정책의 샘플링 결과에 의존하므로, 기대값 내부의 미분을 직접 계산하는 것은 어렵다. 정책 경사 정리는 이 문제를 해결하여 기대값과 미분의 순서를 바꿀 수 있게 해주며, 결과적으로 실제 궤적을 샘플링하여 기울기를 추정하는 몬테카를로 방법의 사용을 가능하게 한다.

이 수학적 기초는 REINFORCE 알고리즘과 같은 기본적인 정책 구배 알고리즘부터 액터-크리틱 방법과 같은 발전된 방법론까지 모든 정책 구배 알고리즘의 토대를 이룬다.

2.1. 기대 보상과 목적 함수

강화 학습에서 에이전트의 목표는 정책 π를 매개변수 θ로 표현했을 때, 기대 누적 보상 J(θ)를 최대화하는 θ를 찾는 것이다. 이 기대 보상은 목적 함수 또는 성능 측도로 불린다.

목적 함수 J(θ)는 일반적으로 할인율 γ를 포함한 기대 누적 보상으로 정의된다. 가장 흔한 형태는 다음과 같다.

J(θ) = E[Σ γ^t * r_t | π_θ]

여기서 기대값 E는 정책 π_θ에 의해 생성되는 궤적 (상태, 행동, 보상의 시퀀스) 전체에 걸쳐 취해진다. 이는 에이전트가 정책을 따라 행동할 때, 미래에 받을 모든 보상의 할인된 합의 평균값을 의미한다.

목적 함수를 최대화하는 것은 직관적으로 최선의 장기적 성과를 내는 정책을 찾는 것에 해당한다. 그러나 J(θ)는 환경의 확률적 특성과 정책 자체의 확률적 특성에 의존하기 때문에, θ에 대한 명시적인 함수 형태를 알기 어렵다. 따라서 경사 하강법과 같은 직접적인 최적화 방법을 적용할 수 없으며, 정책의 성능을 평가하는 샘플(에피소드)을 통해 기울기를 추정하는 정책 구배 방법론이 필요해진다.

2.2. 정책 경사 정리

정책 경사 정리는 정책 구배 방법의 핵심 수학적 근거를 제공하는 정리이다. 이 정리는 매개변수화된 정책의 기대 보상에 대한 기울기가, 정책 하에서 생성된 궤적을 사용하여 추정될 수 있음을 보여준다. 구체적으로, 목적 함수인 기대 누적 보상 $J(\theta)$의 기울기는 기대 보상에 로그 정책의 기울기를 가중치로 한 형태로 표현된다[2]$로 나타낸다].

이 정리의 유도 과정은 로그 미분법칙과 기대값의 선형성을 활용한다. 정책 $\pi_{\theta}$ 하에서 생성된 궤적 $\tau$의 확률은 각 단계의 상태 전이 확률과 정책 확률의 곱으로 표현된다. 기대 보상 $J(\theta)$는 보상의 가중합에 궤적 확률을 곱한 총합으로 정의되며, 여기에 로그 미분법칙을 적용하면 기울기 공식이 도출된다. 이 과정에서 환경의 상태 전이 확률은 $\theta$에 의존하지 않는다는 가정이 중요하게 작용한다.

정책 경사 정리가 제공하는 공식의 주요 특징은 기울기 추정에 몬테카를로 샘플링을 직접 적용할 수 있다는 점이다. 에이전트가 정책을 따라 상호작용하며 수집한 궤적 데이터를 사용하여, 각 시간 단계에서의 로그 정책 기울기에 해당 궤적의 총 보상을 곱함으로써 기울기의 불편 추정량을 얻을 수 있다. 이는 복잡한 기대값 계산을 샘플 평균으로 대체할 수 있게 해주며, REINFORCE 알고리즘을 비롯한 많은 정책 구배 알고리즘의 기초가 된다.

정리 요소	설명
핵심 아이디어	기대 보상의 기울기를 샘플 궤적으로부터 직접 추정 가능한 형태로 변환
필요 가정	환경의 상태 전이 확률은 정책 매개변수 $\theta$에 독립적
주요 수식 요소	누적 보상 $G(\tau)$, 로그 정책의 기울기 $ abla_{\theta} \log \pi_{\theta}(a\
추정 방식	궤적 $\tau$에 대한 몬테카를로 샘플링을 통해 기대값 근사

그러나 기본 형태의 정책 경사 정리로부터 얻은 추정량은 일반적으로 높은 분산을 가진다. 이는 단일 궤적의 총 보상 $G(\tau)$가 기울기 추정의 스케일을 결정하는데, 이 값의 변동성이 크기 때문이다. 이를 완화하기 위해 기저선 빼기 기법이 도입되며, 이는 액터-크리틱 방법으로의 발전으로 이어진다.

3. 정책 구배 알고리즘

강화 학습에서 정책 구배 알고리즘은 파라미터화된 정책의 성능을 직접 최적화하는 방법이다. 이 알고리즘들은 정책 경사 정리를 바탕으로, 기대 보상을 높이는 방향으로 정책 파라미터를 반복적으로 업데이트한다. 주요 알고리즘은 정책 경사법의 기본 형태부터 안정성을 높인 고급 방법까지 진화해왔다.

가장 기본적인 알고리즘은 REINFORCE 알고리즘 또는 몬테카를로 정책 구배 알고리즘이다. 이 방법은 한 에피소드가 완전히 종료된 후 얻은 총 보상을 사용하여 기울기를 추정한다. 역전파를 통해 파라미터를 업데이트하며, 높은 분산을 가진 기울기 추정치로 인해 학습이 불안정하고 수렴 속도가 느린 단점이 있다. 이를 보완하기 위해 기저선을 도입한 REINFORCE with Baseline 알고리즘이 자주 사용된다.

액터-크리틱 방법은 정책 구배의 높은 분산 문제를 해결하기 위해 가치 함수를 동시에 학습하는 크리틱을 도입한다. 액터(정책)는 크리틱(가치 평가자)이 제공하는 평가를 바탕으로 업데이트 방향을 조정받는다. 이는 단순한 총 보상 대신, 각 단계에서의 시간차 오차와 같은 더 낮은 분산의 신호를 사용함으로써 학습 효율성을 크게 향상시킨다. 대표적인 알고리즘으로는 A2C와 A3C가 있다.

안정적인 학습을 보장하기 위해 설계된 고급 알고리즘으로는 TRPO와 PPO가 있다. TRPO는 각 업데이트 단계에서 정책의 변화량에 제약을 두어 성능이 갑자기 저하되는 것을 방지하지만, 계산 복잡도가 높다. 이를 단순화하고 실용적으로 개선한 알고리즘이 PPO이다. PPO는 정책 업데이트의 폭을 제한하는 클리핑 목적 함수나 적응형 페널티를 사용하여 TRPO의 안정성은 유지하면서 구현과 계산이 훨씬 간단하다. 이로 인해 PPO는 현재 가장 널리 사용되는 정책 구배 알고리즘 중 하나이다.

알고리즘	핵심 아이디어	주요 특징
REINFORCE	몬테카를로 샘플링과 정책 경사 정리 적용	구현이 간단하지만, 높은 분산으로 학습이 불안정함
액터-크리틱	가치 함수(크리틱)를 이용한 기울기 분산 감소	단일 샘플 기반의 온라인 학습이 가능하며, REINFORCE보다 효율적임
TRPO	신뢰 구간 내에서 최대 성능 향상을 보장하는 제약 최적화	이론적으로 안전한 업데이트를 보장하지만 계산 비용이 큼
PPO	제약 조건을 목적 함수에 페널티 또는 클리핑으로 간접 적용	TRPO의 안정성에 가까우면서 구현과 튜닝이 훨씬 용이함

3.1. REINFORCE 알고리즘

REINFORCE 알고리즘은 정책 경사 정리를 기반으로 한 대표적인 정책 구배 알고리즘이다. 이 알고리즘은 몬테카를로 방법을 사용하여 에피소드가 끝난 후에 얻은 반환값을 통해 정책의 기울기를 추정하고, 이를 이용해 정책 파라미터를 업데이트한다. 알고리즘의 핵심 아이디어는 높은 보상을 얻은 행동의 선택 확률을 높이고, 낮은 보상을 얻은 행동의 선택 확률을 낮추는 것이다.

알고리즘의 업데이트 규칙은 다음과 같은 수식으로 표현된다. 정책 파라미터 θ에 대한 기울기 추정치는 하나의 에피소드 트레이젝토리 τ에서 계산된 반환값 G_t와 해당 상태-행동 쌍에서의 정책 확률의 로그 기울기의 곱으로 구성된다[3]. 이는 기대 보상을 증가시키는 방향으로 파라미터를 조정한다.

특징	설명
방식	몬테카를로 기반 (에피소드 완료 후 학습)
기울기 추정	Likelihood Ratio 방법 (로그 정책 확률의 기울기 사용)
업데이트	정책 파라미터 θ ← θ + α * G_t * ∇_θ log π_θ(a_t \
장점	구현이 간단하고, 이론적으로 정책 경사 정리를 직접 적용함
단점	높은 분산으로 인해 학습이 불안정하고 수렴 속도가 느림

주요 단점은 기울기 추정치의 분산이 크다는 점이다. 단일 에피소드의 반환값 G_t를 사용하기 때문에 추정치의 변동성이 크고, 이로 인해 학습 과정이 불안정해지며 수렴 속도가 느려진다. 이를 완화하기 위해 기저선을 도입한 REINFORCE with Baseline 알고리즘이 제안되었다. 이 변형 알고리즘은 반환값에서 상태 의존적인 기저선 값을 빼서 분산을 줄이는 효과를 가져온다. REINFORCE 알고리즘은 이후 액터-크리틱 방법과 PPO와 TRPO 같은 더 발전된 정책 구배 알고리즘들의 기초를 형성했다.

3.2. 액터-크리틱 방법

액터-크리틱 방법은 정책 경사 알고리즘의 한 종류로, 순수한 정책 기반 방법인 REINFORCE 알고리즘의 높은 분산 문제를 완화하기 위해 고안되었다. 이 방법은 액터와 크리틱이라는 두 개의 구성 요소를 결합한다. 액터는 정책을 담당하여 주어진 상태에서 행동을 선택하고, 크리틱은 가치 함수를 학습하여 현재 정책의 성능을 평가한다. 크리틱이 제공하는 평가 정보를 바탕으로 액터는 정책을 업데이트하는 방식으로 작동한다.

액터-크리틱의 핵심 아이디어는 정책 구배를 계산할 때, 반환의 기댓값 대신 크리틱이 추정한 어드밴티지 함수를 사용하는 것이다. 어드밴티지 함수는 특정 상태에서 특정 행동을 취하는 것이 평균적인 행동보다 얼마나 더 좋은지를 나타내는 지표이다. 이를 수식으로 표현하면 $A(s, a) = Q(s, a) - V(s)$와 같다. 이 접근법은 REINFORCE 알고리즘에서 사용하는 몬테카를로 반환보다 일반적으로 분산이 낮은 추정치를 제공하여 학습 안정성을 높인다.

대표적인 액터-크리틱 알고리즘의 업데이트 규칙은 다음과 같은 형태를 가진다.

구성 요소	역할	업데이트 대상
액터	정책 $\pi_\theta$ 매개변수 $\theta$ 학습	$\theta \leftarrow \theta + \alpha abla_\theta \log \pi_\theta(a
크리틱	가치 함수 $V_\phi(s)$ 매개변수 $\phi$ 학습	$\phi \leftarrow \phi - \beta abla_\phi (R + \gamma V_\phi(s') - V_\phi(s))^2$

구성 요소

역할

업데이트 대상

액터

정책 $\pi_\theta$ 매개변수 $\theta$ 학습

$\theta \leftarrow \theta + \alpha

abla_\theta \log \pi_\theta(a

크리틱

가치 함수 $V_\phi(s)$ 매개변수 $\phi$ 학습

$\phi \leftarrow \phi - \beta

abla_\phi (R + \gamma V_\phi(s') - V_\phi(s))^2$

여기서 $\alpha$와 $\beta$는 학습률이며, $A(s, a)$는 크리틱이 계산한 어드밴티지 추정치이다. 크리틱은 주로 시간차 학습을 통해 가치 함수를 온라인으로 학습한다. A2C와 A3C는 비동기적 학습을 통해 효율성을 높인 대표적인 액터-크리틱 알고리즘이다. 이후 등장한 PPO와 TRPO는 이러한 기본 프레임워크 위에 정책 업데이트의 안정성을 보장하는 제약 조건을 추가한 발전된 형태이다.

3.3. PPO와 TRPO

PPO(Proximal Policy Optimization)와 TRPO(Trust Region Policy Optimization)는 모두 정책 구배 알고리즘의 한계인 학습 불안정성을 해결하기 위해 개발된 고급 기법이다. 이 방법들은 정책 업데이트의 크기를 제한하여 한 번의 업데이트로 정책이 급격하게 악화되는 것을 방지하고, 보다 안정적이고 효율적인 학습을 목표로 한다.

TRPO는 업데이트 전후의 정책 분포 사이의 쿨백-라이블러 발산을 제약 조건으로 활용한다. 구체적으로, 목적 함수(기대 보상)를 최대화하되, 새 정책과 이전 정책 사이의 발산이 미리 정한 임계값(델타)을 넘지 않도록 하는 최적화 문제를 푼다. 이 제약은 정책이 신뢰 영역 내에서만 업데이트되도록 보장하여 안정성을 크게 향상시킨다. 그러나 TRPO는 제약 조건이 있는 최적화 문제를 해결해야 하며, 공액 기울기법 등을 사용해 헤시안 행렬을 근사하는 복잡한 계산 과정을 수반하여 구현 난이도가 높다는 단점이 있다.

PPO는 TRPO의 안정성 목표를 유지하면서 계산 복잡성을 대폭 줄인 알고리즘이다. TRPO의 제약 조건을 목적 함수에 직접 포함시킨 '클리핑된 서로게이트 목적 함수'를 사용하는 것이 핵심이다. 이 방법은 새 정책과 이전 정책의 확률 비율을 계산하고, 이 비율을 특정 구간(예: 0.8 ~ 1.2)으로 클리핑한다. 이를 통해 유리한 방향의 업데이트는 허용하지만, 정책 변화가 너무 커져서 학습이 불안정해지는 것을 방지한다. PPO는 별도의 제약 최적화 과정이 필요 없어 구현이 간단하고, 샘플 효율성과 안정성 면에서 TRPO에 필적하거나 뛰어난 성능을 보인다.

두 알고리즘의 주요 특징을 비교하면 다음과 같다.

특성	TRPO	PPO
핵심 메커니즘	쿨백-라이블러 발산에 대한 제약 조건	클리핑된 서로게이트 목적 함수
계산 복잡도	높음 (2차 근사 필요)	낮음 (1차 최적화만 필요)
구현 난이도	복잡함	상대적으로 간단함
샘플 효율성	높음	높음
실제 적용 빈도	상대적으로 낮음	매우 높음

결과적으로, PPO는 간결한 구현과 강력한 성능 덕분에 심층 강화 학습 분야에서 가장 널리 사용되는 정책 구배 알고리즘 중 하나가 되었다. TRPO는 이론적으로 엄격한 보장을 제공하지만, PPO가 실용성 면에서 더 큰 인기를 얻었다.

4. 기울기 추정 방법

강화 학습에서 정책 구배 방법의 핵심은 목적 함수의 기울기를 정확하게 추정하는 것이다. 기울기 추정은 정책 매개변수를 업데이트할 방향과 크기를 결정하며, 주로 세 가지 방법이 사용된다.

첫 번째 방법은 유한 차분법이다. 이 방법은 매개변수 공간에서 작은 섭동을 주어 보상의 변화를 관찰함으로써 기울기를 근사한다. 각 매개변수에 대해 양의 방향과 음의 방향으로 미세하게 변화시킨 후, 두 경우의 보상 차이를 통해 해당 매개변수의 편미분을 추정한다. 이 방법은 정책이 미분 불가능한 블랙박스 형태일 때도 적용 가능하지만, 매개변수 차원이 높을 경우 평가 횟수가 급증하여 계산 비용이 매우 커진다는 단점이 있다.

두 번째이자 가장 널리 사용되는 방법은 Likelihood Ratio 방법(또는 Score Function 방법)이다. 이 방법은 정책 경사 정리에 기반하여, 로그 정책의 기울기에 누적 보상을 가중치로 곱한 기대값으로 기울기를 표현한다. 실제 구현에서는 몬테카를로 샘플링을 통해 여러 에피소드를 실행하고, 각 시점에서의 로그 정책 기울기와 그 시점부터의 할인된 보상을 곱하여 기울기 추정치를 계산한다. REINFORCE 알고리즘이 이 방식을 사용하는 대표적인 예이다.

방법	원리	장점	단점
유한 차분법	매개변수에 섭동을 가해 보상 변화 측정	정책 미분 불필요, 구현 간단	고차원에서 비효율적, 노이즈 민감
Likelihood Ratio	정책 경사 정리 활용, 로그 정책 기울기 사용	고차원 문제에 효율적, 이론적 토대 확실	추정치의 분산이 높음

Likelihood Ratio 방법으로 얻은 기울기 추정치는 분산이 높은 경향이 있어 학습을 불안정하게 만들 수 있다. 이를 해결하기 위한 여러 기울기 분산 감소 기법이 개발되었다. 대표적으로, 기저선을 도입하여 추정치의 분산을 줄이는 방법이 있다. 또한, 액터-크리틱 방법은 가치 함수를 크리틱으로 사용하여 순간 보상 대신 어드밴티지 함수를 기울기의 가중치로 활용함으로써 분산을 효과적으로 낮춘다. 그 외에도 할인 인자 조정, 정책 엔트로피 항 추가 등의 기법이 분산 감소와 학습 안정화에 기여한다.

4.1. 유한 차분법

유한 차분법은 정책 구배를 추정하는 가장 직관적인 수치적 방법 중 하나이다. 이 방법은 매개변수 공간에서 작은 변화를 주어 그에 따른 보상의 변화를 측정함으로써 기울기의 근사값을 계산한다.

기본적인 접근법은 다음과 같다. 정책 매개변수 θ가 주어졌을 때, 각 매개변수 θ_i에 대해 양의 작은 변동 ε을 더한 θ+와 뺀 θ-를 각각 생성한다. 그런 다음 각 변동된 매개변수 하에서 정책을 실행하여 얻은 기대 보상 J(θ+)와 J(θ-)를 추정한다. 이때, 해당 매개변수에 대한 기울기의 근사치는 (J(θ+) - J(θ-)) / (2ε)로 계산된다. 이를 중앙 차분법이라고 하며, 전방 차분법 (J(θ+) - J(θ)) / ε이나 후방 차분법도 사용 가능하다.

방법	공식	특징
전방 차분법	(J(θ+εe_i) - J(θ)) / ε	한 번의 평가만 필요하지만 정확도가 낮음
중앙 차분법	(J(θ+εe_i) - J(θ-εe_i)) / (2ε)	두 번의 평가 필요, 정확도가 더 높음
후방 차분법	(J(θ) - J(θ-εe_i)) / ε	전방 차분법과 유사한 정확도

이 방법의 주요 단점은 계산 비용이 매우 높다는 점이다. 매개변수가 d개일 경우, 중앙 차분법으로 기울기를 한 번 추정하려면 2d+1회의 정책 평가가 필요하다[4]. 또한, 추정치에 포함되는 분산과 편향이 크며, 적절한 변동 크기 ε을 선택하는 것이 중요하지만 어려운 문제이다. 이러한 한계로 인해 고차원 문제에서는 Likelihood Ratio 방법이나 자동 미분을 사용한 정확한 기울기 계산이 선호된다. 그러나 유한 차분법은 모델의 구현이 간단하고 디버깅 목적으로 기울기 검증에 유용하게 활용된다.

4.2. Likelihood Ratio 방법

Likelihood Ratio 방법은 정책 구배 알고리즘에서 기울기를 추정하는 핵심 기법 중 하나이다. 이 방법은 정책 매개변수에 대한 기대 보상의 기울기를, 실제 샘플링된 궤적 데이터를 사용하여 직접 계산하는 대신 수학적 변환을 통해 추정한다. 핵심 아이디어는 기대값 내부의 미분을 로그 미분법을 사용하여 기대값 외부로 이동시키는 것이다. 이를 통해 모델이나 환경의 역학에 대한 지식 없이도, 오직 정책 하에서 생성된 샘플만으로 기울기의 불편 추정량을 얻을 수 있다.

이 방법의 수학적 표현은 다음과 같다. 정책 매개변수 θ에 대한 목적 함수 J(θ)의 기울기는 정책의 로그 가능도의 기울기에 누적 보상을 가중치로 곱한 기대값으로 표현된다[5]. 즉, ∇_θ J(θ) = E_τ~π_θ [ ∇_θ log π_θ(τ) * G(τ) ] 형태를 가진다. 여기서 τ는 궤적, π_θ(τ)는 해당 궤적이 발생할 정책 하의 확률, G(τ)는 그 궤적의 누적 보상이다. 이 변환의 핵심 장점은 환경의 전이 확률이 식에서 소거되어, 환경 모델을 알 필요가 없다는 점이다.

Likelihood Ratio 방법의 구체적인 구현과 특징은 다음 표와 같다.

특징	설명
추정 방식	단일 궤적(또는 배치)에 대한 Monte Carlo 샘플링으로 기울기를 추정한다.
모델 요구도	환경 모델 또는 전이 함수에 대한 지식을 필요로 하지 않는 모델 프리 방법이다.
기울기 계산	∇_θ log π_θ(a\
장점	구현이 비교적 간단하고, 이론적으로 불편 추정량을 제공한다. 연속적·이산적 행동 공간 모두에 적용 가능하다.
단점	추정치의 분산이 매우 높을 수 있어, 학습이 불안정하거나 수렴 속도가 느려질 수 있다.

이 높은 분산 문제를 완화하기 위해 여러 기법이 개발되었다. 가장 대표적인 것은 기준선을 사용하는 것이다. 누적 보상 G(τ) 대신 [G(τ) - b(s)]를 사용하여 분산을 줄이는데, 여기서 b(s)는 상태 s에서의 예상 보상 값을 나타내는 기준선 함수이다. 이 변형은 기울기의 기대값을 바꾸지 않으면서 분산을 효과적으로 감소시킨다. 이러한 Likelihood Ratio 방법의 원리는 REINFORCE 알고리즘의 기반이 되며, 더 발전된 액터-크리틱 방법론으로 확장되는 토대를 제공한다.

4.3. 기울기 분산 감소 기법

정책 구배 알고리즘의 성능은 기울기 추정치의 분산에 크게 영향을 받는다. 높은 분산은 학습 과정을 불안정하게 만들고 수렴 속도를 저하시키며, 최종 정책의 성능을 낮추는 원인이 된다. 따라서 효과적인 강화 학습을 위해서는 기울기 추정의 분산을 줄이는 기법이 필수적이다.

분산을 줄이는 핵심 방법 중 하나는 기저선을 사용하는 것이다. 이는 기울기 추정식에서 상태의 가치를 나타내는 기준값을 빼는 방식으로, 추정치의 분산을 줄이면서도 기대값은 변하지 않도록 보장한다. 일반적으로 상태 가치 함수 $V(s)$를 추정하여 기저선으로 활용한다. 다른 주요 기법으로는 가치 함수 근사를 크리틱으로 사용하는 액터-크리틱 방법이 있으며, 이는 순수한 정책 구배 방법보다 훨씬 낮은 분산으로 기울기를 추정할 수 있다.

추가적인 분산 감소 기술은 다음과 같다.

기법	설명	주요 효과
할인 인자 $\gamma$ 및 시간적 차이 $\lambda$ 조정	미래 보상의 기여도를 조절하여 신호의 시간적 스케일을 변경한다.	추정치의 편향-분산 트레이드오프를 관리한다.
정책 엔트로피 보너스	정책의 탐험을 장려하는 정규화 항을 목적 함수에 추가한다.	과도하게 확정적인 정책을 방지하고 탐험을 유도한다.
정책 매개변수 공유	액터와 크리틱이 하위층의 특징 추출기를 공유하도록 설계한다.	학습 안정성을 높이고 표현력을 향상시킨다.

이러한 기법들은 단독으로 또는 결합되어 사용되며, REINFORCE나 PPO와 같은 알고리즘의 실질적인 성능을 결정하는 중요한 요소가 된다. 적절한 분산 감소는 샘플 효율성을 높이고 더 복잡한 환경에서의 학습을 가능하게 한다.

5. 실전 적용과 최적화

실전에서 강화 학습 정책 구배 알고리즘을 적용할 때는 알고리즘의 이론적 특성 외에도 하이퍼파라미터 설정과 학습 안정성 관리가 성공을 좌우하는 핵심 요소가 된다.

하이퍼파라미터 튜닝은 매우 중요한 과정이다. 학습률은 가장 민감한 파라미터 중 하나로, 너무 크면 정책이 발산하고 너무 작으면 학습 속도가 극도로 느려진다. 할인율은 미래 보상의 현재 가치를 결정하며, 장기적 계획과 단기적 보상 간의 균형에 영향을 미친다. 정책 네트워크의 구조(은닉층 크기, 활성화 함수)와 탐험을 조절하는 파라미터(예: 엔트로피 보너스 계수)도 최종 성능에 큰 영향을 준다. 이러한 튜닝은 그리드 서치, 랜덤 서치, 또는 베이지안 최적화와 같은 체계적인 방법으로 수행된다.

분산 및 안정성 문제는 정책 구배 방법의 주요 과제이다. 정책 경사 추정치는 본질적으로 높은 분산을 가지며, 이는 불안정한 학습과 느린 수렴으로 이어진다. 이를 완화하기 위해 기저선을 사용한 분산 감소 기법이 널리 채택된다. 또한, 한 번의 업데이트로 정책이 급격하게 변해 성능이 붕괴되는 현상을 방지하는 것도 중요하다. 신뢰 영역 정책 최적화나 근사 정책 최적화 같은 알고리즘은 업데이트 크기를 제한함으로써 안정적인 학습을 보장하려는 시도이다. 실전에서는 학습 곡선을 모니터링하고, 여러 시드를 사용한 반복 실험을 통해 알고리즘의 안정성을 평가하는 것이 일반적이다.

5.1. 하이퍼파라미터 튜닝

하이퍼파라미터 튜닝은 정책 구배 알고리즘의 성능을 최대화하고 학습 안정성을 확보하는 데 필수적인 과정이다. 학습률, 할인율, 엔트로피 계수, 배치 크기, 신경망 구조 등 다양한 하이퍼파라미터가 알고리즘의 수렴 속도, 최종 성능, 샘플 효율성에 결정적 영향을 미친다. 적절하지 않은 하이퍼파라미터 설정은 학습이 전혀 진전되지 않거나, 성능이 급격히 떨어지는 현상을 초래할 수 있다.

튜닝의 핵심은 탐색과 활용 사이의 균형을 찾는 것이다. 주요 튜닝 대상과 고려사항은 다음과 같다.

하이퍼파라미터	주요 영향	일반적인 고려사항
학습률 (Learning Rate)	수렴 속도와 안정성	너무 크면 발산, 너무 작으면 학습이 느림. PPO와 TRPO는 이를 안정화하는 메커니즘을 내장함.
할인율 (Discount Factor, γ)	미래 보상에 대한 가중치	0에 가까우면 근시안적, 1에 가까우면 미래 보상을 중요시함. 환경의 지평선과 관련됨.
엔트로피 계수 (Entropy Coefficient)	탐색 강도	높을수록 정책의 무작위성이 증가하여 탐색을 촉진함. 너무 높으면 최적 정책에 수렴하지 못할 수 있음.
배치 크기 (Batch Size) 및 에포크 수	기울기 추정의 분산과 계산 효율	큰 배치 크기는 낮은 분산의 기울기를 제공하지만 계산 비용이 증가함.

체계적인 튜닝을 위해 무작위 탐색, 그리드 탐색, 베이지안 최적화 등의 방법이 사용된다. 특히, 재현성을 위해 시드 값을 고정하고, 단일 하이퍼파라미터를 변경할 때의 영향을 평가하기 위해 제어된 실험을 설계하는 것이 중요하다. 최근에는 자동화된 머신러닝 도구를 활용하거나, 학습 중에 하이퍼파라미터를 조정하는 적응형 방법에 대한 연구도 진행되고 있다.

5.2. 분산 및 안정성 문제

정책 구배 알고리즘의 학습 과정에서 표본 분산은 주요한 도전 과제 중 하나이다. 기울기 추정이 높은 분산을 가지면 학습이 불안정해지고 수렴 속도가 느려진다. 이는 몬테카를로 방법을 사용하는 REINFORCE 알고리즘에서 특히 두드러지는데, 하나의 에피소드 트레이젝토리로부터 얻은 기울기 추정치는 노이즈가 크다. 분산을 줄이기 위해 기저선 빼기 기법이 흔히 사용되며, 액터-크리틱 방법은 크리틱 네트워크를 도입하여 더 낮은 분산의 기울기 추정치를 제공하는 것을 목표로 한다.

학습의 안정성은 적절한 학습률과 업데이트 크기 조절에 크게 의존한다. 너무 큰 학습률은 정책을 급격히 변형시켜 성능이 갑자기 저하되는 현상을 초래할 수 있다. 이를 해결하기 위해 TRPO는 쿨백-라이블러 발산에 제약을 두어 각 업데이트 단계에서 정책의 변화를 제한한다. PPO는 제약 조건 대신 클리핑된 목적 함수를 사용하여 구현이 더 간단하면서도 안정적인 학습을 달성한다.

정책의 표현력과 탐색 간의 균형 또한 안정성에 영향을 미친다. 높은 표현력을 가진 신경망 정책은 지역 최적점에 빠질 위험이 적지만, 기울기 추정의 분산을 증가시킬 수 있다. 탐색을 촉진하기 위한 엔트로피 보너스는 초기 학습을 도울 수 있으나, 지나치게 높은 값은 최적 정책 수렴을 방해한다. 이러한 하이퍼파라미터들은 환경의 특성에 맞게 신중하게 조정되어야 한다.

문제 유형	주요 원인	완화 기법
높은 분산	단일 트레이젝토리 기반 몬테카를로 추정	기저선 빼기, 액터-크리틱, GAE
불안정한 업데이트	과도한 학습률, 정책의 급격한 변화	학습률 스케줄링, TRPO, PPO 클리핑
탐색 부족/과도	부적절한 정책 엔트로피	엔트로피 보너스 계수 조정, 스케줄링

6. 다른 최적화 방법과의 비교

강화 학습에서 정책 구배 방법은 가치 기반 방법 및 모델 기반 방법과 구별되는 고유한 특성을 지닌다.

가치 기반 방법(예: Q-러닝, SARSA)은 최적 가치 함수를 학습한 후, 이를 바탕으로 정책(예: 탐욕 정책)을 유도한다. 이에 비해 정책 구배 방법은 매개변수화된 정책 자체를 직접 최적화한다. 이로 인해 정책 구배 방법은 연속적인 행동 공간을 다루기에 적합하며, 확률적 정책을 자연스럽게 표현할 수 있다. 또한, 가치 함수의 근사 오류가 정책에 직접 전파되지 않는다는 장점이 있다. 반면, 가치 기반 방법은 일반적으로 더 높은 샘플 효율성을 보이고, 벨만 방정식을 통해 안정적인 학습이 가능하다는 특징이 있다.

모델 기반 방법은 환경의 전이 모델과 보상 함수를 명시적으로 학습하거나 가정하여, 이를 바탕으로 계획을 수행한다. 정책 구배를 포함한 모델 없는 방법은 이러한 환경 모델 없이 경험으로부터 직접 학습한다. 모델 기반 방법은 샘플 효율성이 매우 높고, 학습된 모델을 통해 시뮬레이션 기반 탐색이 가능하다. 그러나 모델의 오차가 누적될 수 있으며, 복잡한 환경에서 정확한 모델을 구축하기 어렵다. 정책 구배를 비롯한 모델 없는 방법은 구현이 상대적으로 단순하고, 모델 오차 문제에서 자유로우나, 일반적으로 더 많은 환경 상호작용을 필요로 한다.

다음 표는 주요 접근법을 요약하여 비교한다.

특성	정책 구배 (모델 없음)	가치 기반 (모델 없음)	모델 기반
최적화 대상	매개변수화된 정책(π)	가치 함수(V, Q)	환경 모델(T, R)
행동 공간 적합성	연속/이산 모두 적합	이산 공간에 더 적합	방법에 따라 다름
샘플 효율성	보통 ~ 낮음	보통	높음
수렴 안정성	보통, 변동 큼	좋음 (오프-폴리시 제외)	모델 정확도에 의존
대표 알고리즘	REINFORCE, PPO	DQN, SARSA	Dyna-Q, MBMF

현대 강화 학습에서는 이러한 방법들을 결합한 하이브리드 접근법이 널리 사용된다. 대표적인 예로 액터-크리틱 방법은 정책(액터)과 가치 함수(크리틱)를 동시에 학습하는 정책 구배의 한 갈래이다. 또한, 모델 기반 방법으로 샘플을 효율적으로 생성한 후, 정책 구배 알고리즘으로 정책을 학습하는 방식도 연구되고 있다.

6.1. 가치 기반 방법 대비

강화 학습에서 정책 구배 방법은 가치 기반 방법과는 다른 접근 방식을 취한다. 가치 기반 방법은 주로 최적 가치 함수를 학습한 후, 이를 바탕으로 (예: 탐욕적 정책) 결정을 내리는 간접적인 방식을 사용한다. 반면, 정책 구배 방법은 매개변수화된 정책을 직접 최적화하는 것을 목표로 한다. 이는 행동 가치 함수를 정확히 추정하는 대신, 보상 신호를 통해 정책 자체의 성능을 향상시키는 경로를 탐색한다.

두 방법의 핵심 차이는 다음과 같은 표로 요약할 수 있다.

비교 항목	가치 기반 방법 (예: DQN, SARSA)	정책 구배 방법 (예: REINFORCE, PPO)
최적화 대상	상태 가치 함수(V) 또는 행동 가치 함수(Q)	정책(π)의 매개변수(θ) 직접 최적화
정책 형태	주로 결정론적 정책 또는 암시적 정책 (가치 최대화로 유도)	명시적 확률론적 정책 또는 결정론적 정책
행동 선택	가치 함수를 최대화하는 행동 선택 (탐색은 ε-greedy 등 별도)	학습 중인 정책 분포에서 직접 샘플링
수렴 특성	일반적으로 더 안정적이지만 국소 최적점에 빠질 수 있음	전역 최적점에 수렴 가능성이 높지만 변동성이 큼
연속 행동 공간	처리 어려움 (이산화 필요)	자연스럽게 처리 가능
탐색 효율성	명시적 탐색 전략에 의존	정책의 확률적 특성에 의해 내재적 탐색 수행

정책 구배 방법의 주요 장점은 연속 행동 공간 문제를 직접 다룰 수 있고, 확률론적 정책을 통해 내재적인 탐색을 수행한다는 점이다. 또한 정책 경사 정리를 통해 기대 보상의 기울기를 추정하여, 목적 함수를 직접 향상시키는 방향으로 학습한다. 반면, 가치 기반 방법은 일반적으로 더 안정적이고 샘플 효율성이 높을 수 있으나, 함수 근사를 사용할 때 발산하거나 과대평가 문제가 발생할 수 있다[6]. 현대의 많은 알고리즘은 두 접근법의 장점을 결합한 액터-크리틱 방법을 사용한다. 여기서 액터는 정책 구배 방식으로 정책을 개선하고, 크리틱은 가치 기반 방식으로 현재 정책을 평가한다.

6.2. 모델 기반 방법 대비

강화 학습의 최적화 방법은 크게 정책 구배 방법과 모델 기반 강화 학습 방법으로 나눌 수 있다. 두 접근법은 환경에 대한 모델의 존재 여부와 활용 방식에서 근본적인 차이를 보인다.

정책 구배 방법은 환경의 역학 모델을 명시적으로 학습하거나 사용하지 않는다. 대신, 에이전트가 환경과의 상호작용을 통해 직접 얻은 경험 샘플로 정책의 성능 기울기를 추정하고 이를 업데이트한다. 이는 모델이 없거나 복잡하여 정확한 모델링이 어려운 환경에 적용하기 적합하다. 반면, 모델 기반 방법은 환경의 전이 확률과 보상 함수를 나타내는 모델을 먼저 학습하거나 주어진 모델을 활용한다. 이 모델을 바탕으로 계획을 수행하거나, 모델에서 생성한 시뮬레이션 데이터로 정책을 학습한다. 모델을 사용함으로써 실제 환경과의 상호작용 횟수를 크게 줄일 수 있는 것이 주요 장점이다.

두 방법의 특성은 다음과 같이 비교할 수 있다.

특성	정책 구배 방법	모델 기반 방법
데이터 효율성	일반적으로 샘플 효율이 낮음. 많은 실제 상호작용 필요.	모델을 통해 시뮬레이션 가능하므로 샘플 효율이 높을 수 있음.
최종 성능	모델 오차의 영향을 받지 않아 더 높은 최종 성능에 도달 가능.	모델 오차가 누적되어 성능 한계가 있을 수 있음.
계산 비용	환경과의 상호작용 비용이 큼. 샘플당 계산은 상대적 저렴.	모델 학습/계획 비용이 큼. 샘플당 계산은 고비용.
수렴 안정성	직접적인 경험 학습으로 비교적 안정적.	모델 오차로 인해 불안정할 수 있음.
적용 환경	모델을 알기 어려운 복잡한 환경(예: 로봇 제어, 게임).	모델링이 가능하거나 시뮬레이션이 쉬운 환경(예: 체스, 일부 제어 문제).

현대 연구는 두 패러다임의 장점을 결합한 하이브리드 접근법을 활발히 탐구한다. 예를 들어, 모델 기반 방법으로 샘플 효율성을 높인 초기 학습을 진행한 후, 정책 구배 방법으로 미세 조정하여 최종 성능을 끌어올리는 방식이다. 또는 학습된 모델에서 생성한 가상 경험을 정책 구배 알고리즘의 학습 데이터로 활용하는 방법도 있다[7].

7. 주요 응용 분야

강화 학습 정책 구배 방법은 로봇 공학 분야에서 로봇의 운동 제어 및 조작 기술을 학습하는 데 널리 적용된다. 구체적으로, 다관절 로봇의 걷기, 달리기, 물체 잡기와 같은 복잡한 연속 제어 문제를 해결하는 데 효과적이다. 시뮬레이션 환경에서 먼저 정책을 학습시킨 후, 실제 로봇으로의 전이(transfer)를 통해 실험 비용과 위험을 줄이는 접근법이 일반적이다.

자연어 처리 및 대화형 에이전트 분야에서도 정책 구배 알고리즘이 활용된다. 대화 관리(dialogue management) 시스템은 사용자와의 상호작용을 통해 보상을 최대화하는 응답 전략을 학습한다. 또한, 텍스트 생성 모델의 출력 품질을 BLEU 점수나 인간 평가자 피드백과 같은 보상 신호로 직접 최적화하는 데에도 사용된다[8].

게임 AI와 실시간 전략 게임은 정책 구배 방법의 대표적인 성공 사례를 제공한다. 알파고의 후속 연구에서는 정책 네트워크와 가치 네트워크를 함께 학습하는 액터-크리틱 구조가 사용되었다. Dota 2나 스타크래프트 II와 같은 복잡한 게임에서 에이전트는 정책 구배를 통해 장기적인 전략과 수많은 가능한 행동 중에서 선택을 학습한다.

응용 분야	주요 과제	대표 알고리즘/사례
로봇 공학	시뮬레이션-현실 격차, 샘플 효율성	PPO, TRPO를 이용한 로봇 보행 학습
자연어 처리	희소하고 지연된 보상, 큰 행동 공간	REINFORCE를 활용한 텍스트 생성 최적화
게임 AI	거대한 상태 공간, 부분 관측성	알파고 및 OpenAI Five에 사용된 액터-크리틱 방법

자율 주행, 금융 포트폴리오 관리, 공급망 최적화와 같은 분야에서도 정책 최적화를 위한 의사결정 프레임워크로 적용 사례가 늘고 있다. 이러한 분야들은 일반적으로 연속적이거나 이산적인 행동 공간을 가지며, 환경 모델을 정확히 알기 어려운 특징이 있어 모델 없는 정책 구배 방법의 적합한 대상이 된다.

8. 한계와 발전 방향

강화 학습의 정책 구배 방법은 직접적인 정책 최적화를 가능하게 하지만 몇 가지 근본적인 한계를 지닌다. 가장 큰 문제는 높은 분산을 가진 기울기 추정으로 인해 학습이 불안정하고 수렴 속도가 느리다는 점이다. 이는 특히 연속 행동 공간이나 고차원 상태 공간에서 샘플 효율성을 크게 떨어뜨린다. 또한, 지역 최적점에 빠지기 쉽고 탐험과 이용 간의 균형을 효과적으로 조절하기 어렵다.

이러한 한계를 극복하기 위한 발전 방향은 크게 세 가지로 나뉜다. 첫째는 기울기 분산을 줄이는 알고리즘의 발전이다. PPO와 TRPO는 신뢰 구간을 설정하여 갑작스러운 정책 업데이트를 제한하고 안정성을 높였다. 최근 연구는 기저 함수를 활용하거나 제어 변수 기법을 도입하여 분산을 체계적으로 감소시키는 데 집중하고 있다. 둘째는 샘플 효율성의 개선이다. 모델 기반 강화 학습과의 결합, 혹은 오프-폴리시 학습을 가능하게 하는 새로운 정책 구배 이론이 활발히 연구되고 있다. 이를 통해 시뮬레이션 데이터나 기존 경험을 더 효과적으로 재활용할 수 있다.

마지막으로, 딥러닝 아키텍처와의 통합 및 실용화가 중요한 도전 과제이다. 더 강건하고 해석 가능한 정책 네트워크 설계, 메타 학습을 통한 빠른 적응, 그리고 로봇 공학이나 자율 주행 같은 실제 물리 시스템에의 안전한 배포를 위한 연구가 진행 중이다. 궁극적인 목표는 이론적으로 타당하면서도 복잡한 현실 문제에 확장 가능한 안정적인 정책 최적화 프레임워크를 구축하는 것이다.

강화 학습 정책 구배

이름	강화 학습 정책 구배
영문명	Policy Gradient
분류	강화 학습 알고리즘
주요 유형	REINFORCE, 액터-크리틱, TRPO, PPO
핵심 아이디어	정책의 매개변수에 대한 기대 보상의 기울기를 추정하여 직접 최적화
장점	연속적 행동 공간 처리 용이, 확률적 정책 학습 가능
단점	높은 분산, 수렴 속도 느림, 샘플 효율성 낮음
알고리즘 상세
수학적 표현	∇θ J(θ) = Eπθ[∇θ log πθ(a\|s) * Qπ(s,a)]
목표 함수	기대 보상 J(θ)
기울기 추정 방식	몬테카를로 샘플링 또는 기능 근사
기본 알고리즘	REINFORCE
개선 기법	기준선 차감, 액터-크리틱 구조, 자연 정책 구배, 신뢰 영역 방법
대표 알고리즘	TRPO, PPO, A3C, SAC
응용 분야	로봇 제어, 게임 AI, 자율 주행, 금융 트레이딩
관련 개념	가치 기반 방법, 모델 기반 강화 학습, 행동자-비평가 방법
주요 연구	Williams(1992), Sutton et al.(2000), Schulman et al.(2015, 2017)

강화 학습 정책 구배

이름	강화 학습 정책 구배
영문명	Policy Gradient
분류	강화 학습 알고리즘
주요 유형	REINFORCE, 액터-크리틱, TRPO, PPO
핵심 아이디어	정책의 매개변수에 대한 기대 보상의 기울기를 추정하여 직접 최적화
장점	연속적 행동 공간 처리 용이, 확률적 정책 학습 가능
단점	높은 분산, 수렴 속도 느림, 샘플 효율성 낮음
알고리즘 상세
수학적 표현	∇θ J(θ) = Eπθ[∇θ log πθ(a\|s) * Qπ(s,a)]
목표 함수	기대 보상 J(θ)
기울기 추정 방식	몬테카를로 샘플링 또는 기능 근사
기본 알고리즘	REINFORCE
개선 기법	기준선 차감, 액터-크리틱 구조, 자연 정책 구배, 신뢰 영역 방법
대표 알고리즘	TRPO, PPO, A3C, SAC
응용 분야	로봇 제어, 게임 AI, 자율 주행, 금융 트레이딩
관련 개념	가치 기반 방법, 모델 기반 강화 학습, 행동자-비평가 방법
주요 연구	Williams(1992), Sutton et al.(2000), Schulman et al.(2015, 2017)