강화 학습 (편집자 확인)

unisquads

2026.02.12

기여도

unisquads

100%

강화 학습

한국어	강화 학습
영어	Reinforcement Learning
분류	머신러닝
핵심 개념	에이전트, 환경, 상태, 행동, 보상
주요 알고리즘	Q-러닝, 정책 경사, 심층 강화 학습
응용 분야	로봇 공학, 게임 AI, 자율 주행, 자원 관리
상세 정보
정의	에이전트가 환경과 상호작용하며 보상을 최대화하는 행동을 학습하는 머신러닝 패러다임.
학습 목표	누적 보상의 기댓값을 최대화하는 정책을 찾는 것.
주요 구성 요소	에이전트, 환경, 상태, 행동, 보상, 정책, 가치 함수
학습 방식	시행착오 탐색과 벨만 방정식 기반 최적화.
모델 기반 vs 모델 프리	환경 모델의 유무에 따른 분류.
탐사 vs 활용 딜레마	새로운 행동 탐색과 알려진 최선의 행동 선택 간의 균형 문제.
역사적 배경	동물 심리학, 동적 계획법, 최적 제어 이론에 뿌리를 둠.
대표적 성과	알파고, 알파스타, Dota 2 AI, Atari 게임 플레이 에이전트.
관련 분야	최적화, 제어 이론, 신경과학, 게임 이론
주요 도전 과제	샘플 효율성, 안정성, 일반화, 안전성, 설명 가능성.

unisquads

2026.02.12

기여도

unisquads

100%

1. 개요

강화 학습은 기계 학습의 한 분야로, 에이전트가 환경과의 상호작용을 통해 보상을 최대화하는 행동 방식을 학습하는 패러다임이다. 다른 주요 기계 학습 방식인 지도 학습과 비지도 학습과 구분되며, 명시적인 정답 데이터 없이 시행착오를 통해 학습한다는 특징을 가진다. 이는 생물이 환경에 적응하는 과정과 유사하여, 인공 지능 연구에서 지능의 본질을 탐구하는 중요한 도구로 여겨진다.

강화 학습의 핵심은 에이전트가 어떤 상태에서 행동을 선택하면, 환경은 그에 따른 새로운 상태와 보상을 제공한다는 것이다. 에이전트의 목표는 시간에 걸쳐 받은 누적 보상을 최대화하는 정책을 찾는 것이다. 이러한 프레임워크는 마르코프 결정 과정이라는 수학적 모델로 공식화되며, 벨만 방정식과 같은 핵심 방정식을 통해 최적의 정책을 계산하는 이론적 기반을 제공한다.

이 분야는 1980년대 후반부터 본격적으로 연구되기 시작했으며, 2010년대 중반 심층 학습과 결합된 심층 강화 학습의 등장으로 큰 발전을 이루었다. 대표적인 성과로는 알파고, Dota 2 및 스타크래프트 II를 정복한 AI, 그리고 Atari 2600 게임을 인간 수준 이상으로 플레이하는 시스템[1] 등이 있다.

강화 학습의 응용 분야는 게임 AI를 넘어 로봇 공학, 자율 주행, 금융 알고리즘 트레이딩, 리소스 관리, 그리고 의료 진료 계획 최적화 등으로 빠르게 확장되고 있다. 그러나 표본 효율성 저하, 탐험과 활용의 균형 문제, 실제 시스템 적용 시의 안전성 보장 등 해결해야 할 중요한 도전 과제도 남아 있다.

unisquads

2026.02.12

기여도

unisquads

100%

2. 기본 개념

강화 학습의 기본 개념은 에이전트가 환경과 상호작용하며 학습하는 과정을 정의하는 핵심 요소들로 구성된다. 이 체계는 에이전트가 어떤 상태에서 행동을 선택하고, 그 결과로 보상을 받으며 새로운 상태로 전이되는 순환 구조를 따른다. 최종 목표는 시간에 걸쳐 받을 수 있는 누적 보상을 최대화하는 최적의 행동 방침, 즉 정책을 학습하는 것이다.

에이전트는 학습을 수행하는 주체이며, 환경은 에이전트가 상호작용하는 외부 세계이다. 에이전트는 매 시간 단계마다 환경의 상태를 관찰하고, 그 상태를 바탕으로 행동을 선택하여 환경에 실행한다. 환경은 이 행동을 받아들여 새로운 상태로 변화하고, 그 행동에 대한 평가로서 보상을 에이전트에게 제공한다. 보상은 단일 숫자 신호로, 에이전트가 당장의 행동이 얼마나 '좋았는지'에 대한 즉각적인 피드백이다. 그러나 에이전트의 목표는 즉각적인 보상이 아닌, 미래에 걸쳐 받을 수 있는 총 보상을 최대화하는 것이다. 이를 위해 할인율이라는 개념이 도입된다. 할인율은 미래 보상의 현재 가치를 계산할 때 적용되는 감가율로, 먼 미래의 보상일수록 그 가치를 낮게 평가하게 만든다.

에이전트의 행동 선택 방식을 결정하는 규칙을 정책이라고 한다. 정책은 주어진 상태에서 각 행동을 선택할 확률을 매핑한다. 에이전트의 성능을 평가하기 위해 가치 함수가 사용된다. 가치 함수에는 크게 두 가지가 있다. 상태 가치 함수는 특정 상태에서 시작하여 정책을 따라갈 때 기대할 수 있는 미래 보상의 총합을 나타낸다. 반면, 행동 가치 함수(일명 Q-함수)는 특정 상태에서 특정 행동을 선택한 후 정책을 따를 때 기대되는 누적 보상을 나타낸다. 강화 학습의 핵심은 이러한 가치 함수를 정확히 추정하거나, 혹은 가치 함수를 거치지 않고 직접 최적의 정책을 찾아내는 것이다.

2.1. 에이전트, 환경, 상태, 행동

강화 학습 시스템의 핵심 구성 요소는 에이전트와 환경이다. 에이전트는 학습하고 의사 결정을 내리는 주체이며, 환경은 에이전트가 상호작용하는 외부 세계이다. 에이전트는 환경을 관찰하고, 특정 행동을 취하며, 그 결과로 보상과 새로운 관찰을 받는다. 이 상호작용은 이산적인 시간 단계를 따라 진행된다.

에이전트가 환경으로부터 관찰하는 정보를 상태라고 한다. 상태는 환경의 상황을 나타내는 표현이다. 완전히 관찰 가능한 환경에서는 상태가 환경의 모든 정보를 포함하지만, 부분적으로만 관찰 가능한 환경에서는 관측이 상태의 일부만을 제공한다. 에이전트는 현재 상태를 바탕으로, 가능한 행동 집합 중 하나를 선택하여 환경에 실행한다.

구성 요소	설명	예시 (미로 찾기 게임)
에이전트	학습 및 의사 결정 주체	미로를 탈출하려는 플레이어
환경	에이전트와 상호작용하는 외부 세계	미로 구조와 규칙 전체
상태 (s)	특정 시점의 환경 상황	에이전트가 위치한 미로의 칸 좌표
행동 (a)	에이전트가 취할 수 있는 선택	위, 아래, 왼쪽, 오른쪽으로 이동

행동이 실행되면 환경은 새로운 상태로 전이되고, 에이전트는 그 행동에 대한 결과로 숫자형 신호인 보상을 받는다. 보상은 즉각적인 피드백으로, 에이전트가 장기적으로 최대의 누적 보상을 얻기 위해 어떤 행동이 바람직한지 학습하는 기준이 된다. 상태, 행동, 보상의 순환적 상호작용은 강화 학습의 기본 골격을 형성한다.

2.2. 보상과 할인율

보상은 에이전트가 특정 상태에서 행동을 취했을 때 환경으로부터 받는 즉각적인 피드백 신호이다. 이는 해당 행동이 얼마나 바람직한지를 수치화한 것으로, 에이전트의 궁극적인 목표는 시간에 걸쳐 받은 누적 보상을 최대화하는 것이다. 보상 설계는 강화 학습의 성패를 좌우하는 핵심 요소로, 에이전트가 원하는 행동을 학습하도록 유도하는 역할을 한다. 잘못 설계된 보상 함수는 의도하지 않은 부작용을 초래할 수 있다[2].

할인율은 미래 보상의 현재 가치를 계산할 때 적용하는 계수이다. 이는 일반적으로 0과 1 사이의 값(γ)을 가지며, 먼 미래에 받을 보상일수록 그 가치를 낮게 평가한다. 수학적으로 시간 t에서 받는 누적 보상(반환) G_t는 G_t = R_{t+1} + γR_{t+2} + γ²R_{t+3} + ... 와 같이 정의된다. 할인율을 사용하는 이유는 몇 가지가 있다. 첫째, 경제학적 개념처럼 미래의 불확실성을 반영한다. 둘째, 무한 시간 동안의 보상 합이 발산하는 것을 방지하여 수학적 처리를 용이하게 한다. 셋째, 에이전트가 즉각적인 보상과 장기적 보상 사이의 균형을 맞추도록 유도한다.

보상과 할인율의 관계는 다음 표를 통해 요약할 수 있다.

개념	역할	특징 및 영향
보상 (Reward)	행동의 즉각적 선호도 신호	에이전트의 학습 방향을 결정. 희소하거나 노이즈가 많으면 학습이 어려워짐.
할인율 (Discount Factor)	미래 보상의 현재 가치 조정	γ=0에 가까울수록 근시안적, γ=1에 가까울수록 장기적 최적화를 지향함.

할인율 γ의 값은 문제의 특성에 따라 설정된다. 에피소드가 명확하게 끝나는 작업에서는 γ를 1에 가깝게 설정할 수 있지만, 무한히 지속되는 과정에서는 γ를 1보다 작게 설정해야 수렴성을 보장할 수 있다. 따라서 보상 함수와 함께 할인율은 에이전트가 학습하게 될 정책의 행동 방식에 결정적인 영향을 미친다.

2.3. 정책과 가치 함수

정책은 주어진 상태에서 에이전트가 어떤 행동을 선택할지 결정하는 규칙 또는 전략이다. 정책은 일반적으로 π(s, a) 또는 π(a|s)로 표기하며, 상태 s에서 행동 a를 선택할 확률을 나타낸다. 결정론적 정책은 각 상태에 대해 하나의 특정 행동을 매핑하는 반면, 확률론적 정책은 가능한 행동들에 대한 확률 분포를 제공한다. 에이전트의 최종 목표는 누적 보상을 최대화하는 최적 정책 π*를 찾는 것이다.

가치 함수는 특정 상태나 상태-행동 쌍의 장기적인 가치를 추정하는 함수이다. 상태 가치 함수 V^π(s)는 정책 π를 따를 때, 상태 s에서 시작해 얻을 것으로 기대되는 미래 보상의 총합(기대 누적 보상)을 나타낸다. 행동 가치 함수 Q^π(s, a)는 상태 s에서 행동 a를 선택한 후 정책 π를 따를 경우의 기대 누적 보상을 나타낸다. 가치 함수는 정책의 성능을 평가하는 기준이 되며, 더 높은 가치를 갖는 상태나 행동이 더 바람직함을 의미한다.

정책과 가치 함수는 밀접하게 연관되어 있다. 가치 함수를 기반으로 더 나은 정책을 유도할 수 있으며(예: 그리디 정책), 새로운 정책을 통해 다시 가치 함수를 평가할 수 있다. 많은 강화 학습 알고리즘은 이 두 개념을 반복적으로 개선하는 방식으로 작동한다. 예를 들어, 정책 반복 알고리즘은 정책 평가(가치 함수 계산)와 정책 개선(가치를 최대화하는 정책으로 업데이트) 단계를 번갈아 수행한다.

함수 유형	기호	설명
상태 가치 함수	V(s) 또는 V^π(s)	정책 π 하에서 상태 s의 가치. 미래 기대 보상의 합.
행동 가치 함수	Q(s, a) 또는 Q^π(s, a)	정책 π 하에서 상태 s에서 행동 a를 택한 후의 가치.
최적 가치 함수	V(s), Q(s, a)	모든 가능한 정책 중 최대의 기대 보상을 내는 최적 정책에 따른 가치.

unisquads

2026.02.12

기여도

unisquads

100%

3. 마르코프 결정 과정

마르코프 결정 과정은 강화 학습을 수학적으로 표현하기 위한 기본적인 프레임워크이다. 이는 의사결정 문제를 상태, 행동, 보상, 상태 전이 확률로 구성된 형식적인 모델로 정의한다. MDP의 핵심 가정은 마르코프 성질로, 미래 상태는 오직 현재 상태와 현재 선택한 행동에만 의존하며 과거 상태와는 독립적이라는 것이다.

MDP는 일반적으로 튜플 (S, A, P, R, γ)로 표현된다. 여기서 S는 가능한 모든 상태의 집합, A는 가능한 모든 행동의 집합, P는 상태 전이 확률, R은 보상 함수, γ는 할인율을 나타낸다. 상태 전이 확률 P(s'|s, a)는 상태 s에서 행동 a를 취했을 때 다음 상태 s'로 전이할 확률을 의미한다. 보상 함수 R(s, a, s')은 해당 전이에서 에이전트가 받는 즉각적인 보상을 정의한다.

MDP 내에서 에이전트의 목표는 누적 보상의 기대값을 최대화하는 정책 π(a|s)을 찾는 것이다. 이를 분석하기 위한 핵심 도구가 벨만 방정식이다. 벨만 방정식은 가치 함수를 재귀적으로 정의하며, 최적의 정책과 가치 함수를 찾는 이론적 기초를 제공한다. 주요 방정식은 다음과 같다.

방정식 이름	수식	설명
상태 가치 함수에 대한 벨만 기대 방정식	V^π(s) = Σ_a π(a	s) Σ_s' P(s'\
행동 가치 함수에 대한 벨만 기대 방정식	Q^π(s, a) = Σ_s' P(s'\	s, a) [ R(s, a, s') + γ Σ_a' π(a'\
벨만 최적 방정식	V*(s) = max_a Σ_s' P(s'\	s, a) [ R(s, a, s') + γ V*(s') ]

이러한 방정식은 가치 함수가 현재의 즉각적인 보상과 미래 상태의 할인된 가치의 기대값의 합임을 보여준다. 벨만 방정식을 통해 동적 프로그래밍, 몬테카를로 방법, 시간차 학습을 포함한 많은 강화 학습 알고리즘들이 유도되고 분석될 수 있다.

3.1. MDP의 구성 요소

마르코프 결정 과정은 강화 학습 문제를 수학적으로 공식화하기 위한 기본적인 틀이다. MDP는 에이전트가 환경과 상호작용하는 과정을 일련의 상태, 행동, 보상으로 정의한다. 이 과정은 마르코프 성질을 만족해야 하며, 이는 현재 상태가 주어졌을 때 미래 상태의 확률 분포가 오직 현재 상태와 선택된 행동에만 의존한다는 것을 의미한다[3]. MDP는 일반적으로 다섯 가지 핵심 구성 요소 (S, A, P, R, γ)로 정의된다.

첫 번째 구성 요소는 상태의 집합 S이다. 상태는 환경의 상황을 완전히 설명하는 정보이다. 두 번째는 행동의 집합 A로, 에이전트가 특정 상태에서 선택할 수 있는 모든 가능한 행동을 포함한다. 세 번째는 상태 전이 확률 P(s'|s, a)이다. 이는 상태 s에서 행동 a를 취했을 때 다음 상태 s'로 전이할 조건부 확률을 나타낸다. 네 번째는 보상 함수 R(s, a, s')이다. 이 함수는 상태 s에서 행동 a를 취해 상태 s'로 전이했을 때 에이전트가 받는 즉각적인 보상의 기댓값을 정의한다.

마지막 구성 요소는 할인율 γ이다. 할인율은 0과 1 사이의 값으로, 미래 보상의 현재 가치를 결정한다. γ가 0에 가까우면 에이전트는 즉각적인 보상만을 중요하게 여기고, 1에 가까우면 장기적인 보상을 균등하게 고려한다. 이 다섯 가지 요소를 통해 MDP는 시간에 따른 의사결정 과정을 모델링할 수 있다. MDP의 목표는 에이전트가 누적 보상의 기댓값을 최대화하는 정책을 학습하는 것이다.

3.2. 벨만 방정식

벨만 방정식은 마르코프 결정 과정에서 최적 정책을 찾기 위한 핵심적인 도구로, 가치 함수가 만족하는 재귀적 관계를 수학적으로 표현한 방정식이다. 이 방정식은 현재 상태의 가치가 즉시 받는 보상과 다음 상태의 가치의 기댓값으로 구성됨을 보여준다. 이 관계를 통해 복잡한 순차적 의사결정 문제를 더 작은 하위 문제로 분해하여 효율적으로 풀 수 있는 기반을 마련한다.

벨만 방정식에는 주로 상태 가치 함수에 대한 벨만 기대 방정식과 벨만 최적 방정식이 있다. 벨만 기대 방정식은 특정 정책 π를 따를 때의 가치 함수 V^π(s)를 정의한다. 수식으로는 V^π(s) = Σ_a π(a|s) Σ_{s', r} p(s', r|s, a)[r + γV^π(s')]로 표현된다[4]. 이는 현재 상태 s의 가치가, 정책에 따라 행동을 선택하고, 그 결과로 얻는 즉시 보상 r과 할인된 다음 상태 s'의 가치의 합에 대한 기댓값임을 의미한다.

반면, 벨만 최적 방정식은 모든 가능한 정책 중에서 최대의 보상을 반환하는 최적 가치 함수 V*(s)를 정의한다. 이 방정식은 V*(s) = max_a Σ_{s', r} p(s', r|s, a)[r + γV*(s')]의 형태를 가진다. 이는 최적의 가치가 각 상태에서 가능한 모든 행동 중 미래 보할인 보상의 총합 기댓값을 최대화하는 행동을 선택했을 때의 값임을 나타낸다. 벨만 최적 방정식은 동적 프로그래밍 기반 알고리즘의 이론적 토대가 된다.

이 방정식들은 시간차 학습이나 Q-러닝과 같은 강화 학습 알고리즘의 핵심 업데이트 규칙을 유도하는 데 직접적으로 사용된다. 예를 들어, Q-러닝의 업데이트 규칙 Q(s,a) ← Q(s,a) + α[r + γ max_{a'} Q(s',a') - Q(s,a)]는 벨만 최적 방정식을 근사적으로 푸는 과정으로 해석할 수 있다.

unisquads

2026.02.12

기여도

unisquads

100%

4. 주요 알고리즘

주요 알고리즘은 강화 학습 문제를 해결하기 위해 개발된 핵심적인 방법론들을 포괄한다. 이들은 문제의 특성과 가용한 정보에 따라 크게 동적 프로그래밍, 몬테카를로 방법, 시간차 학습으로 분류된다.

동적 프로그래밍은 환경의 완전한 모델, 즉 상태 전이 확률과 보상 함수를 알고 있을 때 사용할 수 있는 계획 방법이다. 이 방법은 벨만 방정식을 반복적으로 적용하여 최적 정책과 가치 함수를 계산한다. 정책 평가와 정책 발전을 번갈아 수행하는 정책 반복법, 그리고 가치 함수를 직접 최적화하는 가치 반복법이 대표적이다. 그러나 환경 모델을 요구하고 계산 비용이 높아 대규모 문제에는 적용이 어려운 한계가 있다.

환경 모델을 알지 못할 때는 경험으로부터 직접 학습하는 샘플 기반 방법이 사용된다. 몬테카를로 방법은 한 에피소드가 완전히 종료된 후, 그 동안 얻은 실제 수익을 바탕으로 가치 함수를 추정한다. 이 방법은 환경 모델이 필요 없고, 에피소드적 문제에 잘 적용되지만, 에피소드가 끝날 때까지 기다려야 하며 분산이 큰 단점이 있다. 시간차 학습은 몬테카를로의 샘플 기반 학습과 동적 프로그래밍의 부트스트래핑[5]을 결합했다. 가장 간단한 TD(0) 알고리즘은 다음 상태의 추정값을 이용해 현재 값을 즉시 업데이트한다. 이는 온라인 학습이 가능하고 몬테카를로 방법보다 분산이 낮다는 장점이 있다.

시간차 학습의 중요한 발전은 Q-러닝이다. 이는 오프-폴리시 알고리즘으로, 에이전트가 따르는 행동 정책과 관계없이 최적의 행동 가치 함수(Q 함수)를 학습한다. Q-러닝의 업데이트 규칙은 다음과 같다.

알고리즘	업데이트 규칙	특성
Q-러닝	Q(s,a) ← Q(s,a) + α [ r + γ max<sub>a'</sub> Q(s',a') - Q(s,a) ]	오프-폴리시, 모델 불필요

큰 상태 공간을 다루기 위해 Q 함수를 심층 신경망으로 근사한 것이 DQN(Deep Q-Network)이다. DQN은 경험 재생과 타깃 네트워크라는 두 가지 핵심 기술을 도입하여 학습의 안정성을 크게 높였다.

4.1. 동적 프로그래밍

동적 프로그래밍은 완벽한 환경 모델, 즉 상태 전이 확률과 보상 함수를 알고 있을 때 사용하는 강화 학습의 기초적인 계획 방법이다. 이 방법은 마르코프 결정 과정의 최적 정책과 가치 함수를 계산적으로 효율적으로 구하기 위해 설계되었다. 동적 프로그래밍은 벨만 방정식을 반복적으로 적용하여 문제를 해결하는 반복적 알고리즘에 기반을 둔다.

주요 알고리즘으로는 정책 평가, 정책 개선, 정책 반복, 가치 반복이 있다. 정책 평가는 주어진 고정된 정책에 대한 상태 가치 함수를 반복적으로 계산하는 과정이다. 정책 개선은 평가된 가치 함수를 바탕으로 현재 정책보다 더 나은 정책을 생성한다. 정책 반복은 정책 평가와 정책 개선을 번갈아 가며 수행하여 최적 정책에 수렴하도록 한다. 가치 반복은 정책을 명시적으로 유지하지 않고, 벨만 최적 방정식을 직접 반복 적용하여 최적 가치 함수를 먼저 찾은 후, 이를 통해 최적 정책을 도출한다.

이 방법들의 계산 과정은 일반적으로 표 형태로 표현된다. 아래 표는 가치 반복 알고리즘의 한 단계를 예시로 보여준다.

상태 (s)	현재 가치 V(s)	가능한 행동 (a)	기대 보상 + 할인된 다음 상태 가치	새로운 가치 V'(s)
s1	0.0	위로 이동	0 + 0.9*0.0 = 0.0	0.72
		아래로 이동	1 + 0.90.0 = 1.0*
s2	0.0	왼쪽 이동	-1 + 0.9*0.0 = -1.0	0.81
		오른쪽 이동	0 + 0.90.9 = 0.81*

표에서 볼 수 있듯이, 각 상태에서 가능한 모든 행동에 대한 기대 수익을 계산하고, 그 중 최대값을 선택하여 해당 상태의 새로운 가치로 업데이트한다. 이 과정을 모든 상태에 대해 동시에(synchronous) 반복하면 가치 함수는 최적 가치 함수로 수렴한다.

동적 프로그래밍은 이론적 토대를 제공하지만, 실제 적용에는 큰 제약이 따른다. 환경의 역학(모델)을 완벽히 알아야 하며, 상태 공간이 커질수록 발생하는 '차원의 저주'로 인해 계산이 불가능해질 수 있다. 따라서 이 방법은 주로 이론 분석이나 상태 공간이 작은 문제에 사용되며, 대규모 문제에는 몬테카를로 방법이나 시간차 학습 같은 모델 없는 방법이 더 널리 활용된다.

4.2. 몬테카를로 방법

몬테카를로 방법은 강화 학습에서 환경의 완전한 모델(예: 상태 전이 확률과 보상 함수)을 알지 못하는 경우, 경험으로부터 직접 학습하는 모델 프리 알고리즘 계열을 가리킨다. 이 방법은 실제 또는 시뮬레이션된 에피소드(시작 상태에서 종료 상태까지의 완전한 경로)를 샘플링하여 가치 함수를 추정한다. 동적 프로그래밍이 모든 가능한 미래 상태에 대한 기대값을 계산하는 반면, 몬테카를로 방법은 관찰된 샘플의 평균을 사용하여 근사한다.

몬테카를로 방법의 핵심은 정책 평가를 수행하는 것이다. 주어진 정책 하에서 각 상태의 가치를 추정하기 위해, 해당 상태를 방문한 모든 에피소드를 모아 그 후부터 에피소드가 끝날 때까지 받은 실제 보상의 할인 합(반환값)을 평균낸다. 이 평균은 샘플 수가 증가함에 따라 실제 기대값에 수렴한다[6]. 업데이트 방식은 에피소드가 끝난 후에 일괄적으로 처리하는 방식과, 점진적으로 평균을 업데이트하는 방식이 있다.

몬테카를로 방법은 에피소드적 작업에 적용되며, 부트스트랩하지 않는다는 특징이 있다. 즉, 다른 상태의 추정값을 참조하지 않고 오직 실제 관측된 반환값만을 사용한다. 이로 인해 환경의 확률적 모델에 의존하지 않으며, 경험에서 직접 학습할 수 있다. 그러나 에피소드가 끝나야만 학습이 가능하기 때문에 온라인 학습이 어렵고, 초기 학습 속도가 느릴 수 있다는 단점도 있다.

몬테카를로 방법은 탐험을 보장해야 정확한 가치 추정이 가능하다. 모든 상태-행동 쌍이 충분히 방문되어야 하며, 이를 위해 엡실론-그리디 정책과 같은 탐험 전략이 흔히 사용된다. 또한 차분 몬테카를로 방법과 같은 기법을 통해 정책을 평가함과 동시에 개선하는 정책 제어도 가능하다.

특징	설명
모델	모델 프리. 환경의 역학을 알 필요가 없음.
부트스트랩	사용하지 않음. 실제 반환값에만 의존.
학습 시점	에피소드 종료 후 (일괄 또는 점진적 업데이트).
탐험 요구	모든 상태를 충분히 방문해야 함 (탐험 보장 필요).
수렴	샘플 평균으로 수렴하지만, 분산이 클 수 있음.

4.3. 시간차 학습

시간차 학습은 강화 학습에서 에이전트가 환경과의 상호작용을 통해 직접 경험한 샘플 데이터를 바탕으로 가치 함수를 점진적으로 업데이트하는 방법이다. 이 방법은 동적 프로그래밍의 계획과 몬테카를로 방법의 샘플링을 결합한 특징을 지닌다. 몬테카를로 방법이 에피소드가 완전히 종료된 후에만 학습을 진행하는 반면, 시간차 학습은 각 단계마다 즉시 학습을 진행할 수 있다.

시간차 학습의 핵심 아이디어는 현재의 추정값을 기반으로 미래의 추정값을 통해 업데이트하는 것이다. 이를 시간차 오차라고 부른다. 가장 기본적인 알고리즘인 TD(0)는 다음과 같은 업데이트 규칙을 따른다.

V(S_t) ← V(S_t) + α [R_{t+1} + γV(S_{t+1}) - V(S_t)]

여기서 α는 학습률, γ는 할인율을 나타내며, 대괄호 안의 항이 시간차 오차이다. 에이전트는 상태 S_t에서 행동을 취해 보상 R_{t+1}과 다음 상태 S_{t+1}을 관찰하고, 이를 통해 현재 상태의 가치 V(S_t)를 조정한다.

시간차 학습은 온라인 학습이 가능하고, 에피소드의 종료를 기다리지 않아도 되며, 마르코프 결정 과정의 모델이 필요하지 않다는 장점이 있다. 이 방법은 정책 평가와 정책 제어 모두에 활용될 수 있다. 대표적인 정책 제어 알고리즘으로는 SARSA와 Q-러닝이 있으며, 이들은 행동 가치 함수를 학습한다. SARSA는 온-폴리시 방법인 반면, Q-러닝은 오프-폴리시 방법이라는 차이점이 있다.

시간차 학습의 성능은 학습률, 할인율, 탐험 전략 등의 하이퍼파라미터에 크게 의존한다. 또한 부트스트랩핑을 사용하기 때문에 편향이 있을 수 있지만, 일반적으로 몬테카를로 방법보다 분산이 낮고 학습이 더 빠르게 수렴하는 것으로 알려져 있다. 이는 실시간 제어가 필요한 다양한 응용 분야에서 시간차 학습이 널리 사용되는 이유이다.

4.4. Q-러닝과 DQN

Q-러닝은 시간차 학습의 한 종류로, 에이전트가 환경의 상태에서 특정 행동을 취했을 때 기대할 수 있는 미래 보상의 총합, 즉 Q-값을 직접 학습하는 모델 없는 알고리즘이다. 이 알고리즘의 핵심은 벨만 최적 방정식을 기반으로 한 갱신 규칙에 있다. 에이전트는 현재 상태와 행동에 대한 Q-값을 관찰된 보상과 다음 상태에서 가능한 최대 Q-값을 이용해 반복적으로 업데이트한다. 이 과정을 통해 최적의 행동 가치 함수와 이에 대응하는 최적 정책에 점근적으로 수렴한다.

Q-러닝의 주요 장점은 탐험과 활용의 균형을 유지하는 정책(예: 엡실론-그리디) 하에서도 최적 정책을 학습할 수 있다는 오프-폴리시 특성이다. 그러나 상태와 행동 공간이 크거나 연속적일 경우 모든 Q-값을 테이블 형태로 저장하는 테이블 기반 방법은 실용적이지 못하다. 이 한계를 극복하기 위해 심층 신경망을 Q-값 근사자로 사용하는 방법이 등장했으며, 이를 심층 Q-네트워크라고 한다.

DQN은 Q-러닝에 심층 학습을 접목한 획기적인 발전이었다. 이 방법은 신경망이 상태를 입력받아 가능한 모든 행동에 대한 Q-값을 출력하도록 한다. DQN의 성공을 가능하게 한 두 가지 핵심 기술은 경험 재생과 목표 네트워크이다. 경험 재생은 에이전트의 경험(상태, 행동, 보상, 다음 상태)을 재생 버퍼에 저장하고, 학습 시 무작위로 샘플링하여 데이터 간의 상관관계를 줄이고 표본 효율성을 높인다. 목표 네트워크는 Q-값 갱신의 목표값을 계산하는 데 사용되는 별도의 신경망을 두어, 주기적으로만 주요 네트워크의 가중치를 복사함으로써 학습의 안정성을 크게 향상시켰다.

초기 DQN 이후 다양한 개선 알고리즘이 제안되었다. 이중 DQN은 Q-값을 과대평가하는 경향을 줄이고, 듀얼링 DQN은 상태의 가치와 각 행동의 상대적 장점을 분리하여 네트워크를 구성한다. 이러한 발전들은 DQN이 아타리 2600 게임과 같은 복잡한 고차원 상태 공간에서 인간 수준의 성능을 달성하는 데 기여했다.

unisquads

2026.02.12

기여도

unisquads

100%

5. 정책 기반 방법

정책 기반 방법은 에이전트의 행동을 결정하는 정책을 매개변수화된 함수로 직접 표현하고, 이 매개변수를 최적화하여 기대 보상을 극대화하는 접근법이다. 가치 기반 방법이 가치 함수를 학습한 후 이를 통해 정책을 유도하는 것과 달리, 정책 자체를 학습 대상으로 삼는다. 이 방법은 연속적인 행동 공간을 다루기에 적합하며, 확률적 정책을 통해 자연스러운 탐험을 수행할 수 있다.

핵심 알고리즘 중 하나는 정책 경사법이다. 이 방법은 정책의 매개변수에 대한 기대 보상의 그래디언트를 추정하여, 그래디언트 상승법을 통해 정책을 점진적으로 개선한다. 대표적인 정책 경사법 알고리즘으로는 REINFORCE 알고리즘이 있다. REINFORCE는 에피소드가 끝난 후 얻은 총 보하를 사용하여 그래디언트를 추정하는 몬테카를로 방식의 알고리즘이다. 정책 경사법의 일반적인 업데이트 규칙은 다음과 같은 형태를 가진다.

알고리즘	그래디언트 추정 방식	특징
REINFORCE	몬테카를로 (에피소드 종료 후)	높은 분산을 가질 수 있음
G(PO)MDP	부분 궤적 사용	분산 감소 기법 적용 가능

정책 기반 방법의 주요 단점은 그래디언트 추정의 높은 분산으로 인한 학습 불안정성이다. 이를 해결하기 위해 기준 함수를 도입한 액터-크리틱 방법이 널리 사용된다. 액터-크리틱 방법은 정책을 업데이트하는 '액터'와 상태 또는 상태-행동 쌍의 가치를 평가하는 '크리틱'이라는 두 가지 구성 요소를 결합한다. 크리틱이 제공하는 낮은 분산의 가치 추정치를 사용하여 액터의 정책 그래디언트를 계산함으로써, 더 안정적이고 효율적인 학습이 가능해진다. 이 방식은 시간차 학습의 이점을 정책 업데이트에 결합한 것이다.

5.1. 정책 경사법

정책 경사법은 정책을 매개변수화하고, 그 매개변수에 대한 기대 보상의 경사를 직접 추정하여 정책을 최적화하는 강화 학습 알고리즘 패밀리이다. 이 방법은 정책 자체를 매개변수 θ를 가진 함수 π_θ(a|s)로 표현하고, 이 매개변수를 조정하여 누적 보상 J(θ)를 최대화하는 것을 목표로 한다. 가치 함수를 먼저 학습하는 가치 기반 방법과 달리, 정책 경사법은 정책을 직접 최적화하기 때문에 확률적 정책을 자연스럽게 다룰 수 있고 연속적인 행동 공간에 효과적으로 적용될 수 있다.

정책 경사 정리의 핵심은 목표 함수 J(θ)의 경사(∇_θ J(θ))를 계산하는 것이다. 이 경사는 다음과 같은 형태로 표현된다[7]:

∇_θ J(θ) ∝ E_π [Q^π(s, a) ∇_θ log π_θ(a|s)]

여기서 기댓값은 정책 π_θ 하에서 발생하는 상태-행동 쌍에 대해 취해진다. 이 공식은 높은 가치(Q 값)를 가진 행동의 로그 확률을 증가시키는 방향으로 매개변수를 업데이트함을 의미한다. 경사의 추정은 실제로 에피소드나 여러 스텝 동안 샘플링된 궤적을 사용하여 수행된다.

정책 경사법의 대표적인 알고리즘으로는 REINFORCE가 있다. REINFORCE는 몬테카를로 방식으로, 한 에피소드가 끝난 후 그 에피소드에서 얻은 총 보상(반환 G_t)을 사용하여 각 스텝의 정책을 업데이트한다. 업데이트 규칙은 다음과 같다:

θ ← θ + α G_t ∇_θ log π_θ(a_t|s_t)

이 방법은 직관적이지만, 반환 G_t의 분산이 크기 때문에 학습이 불안정하고 수렴 속도가 느릴 수 있다. 이를 개선하기 위해, 반환에서 기준선을 빼는 기법이 널리 사용된다. 기준선(보통 상태 가치 함수 V(s)의 추정치)을 사용하면 업데이트 분산을 줄여 학습 안정성을 크게 향상시킬 수 있다.

알고리즘	설명	주요 특징
REINFORCE	에피소드 종료 후 반환값으로 경사를 추정하는 몬테카를로 방법	구현이 간단하지만 분산이 높고 느림
기준선이 있는 REINFORCE	반환에서 상태 가치 기준선을 빼서 분산 감소	학습 안정성 향상
액터-크리틱	별도의 크리틱 네트워크로 시간차 오차를 사용해 실시간 업데이트	샘플 효율성과 수렴 속도 개선

정책 경사법은 연속 행동 공간 문제나 정책의 확률적 특성이 중요한 문제에 적합하다. 그러나 높은 분산과 낮은 표본 효율성은 주요 도전 과제로 남아 있으며, 이를 해결하기 위해 TRPO, PPO 같은 고급 알고리즘들이 개발되었다.

5.2. 액터-크리틱 방법

액터-크리틱 방법은 정책 경사법과 가치 함수 기반 방법의 장점을 결합한 강화 학습 알고리즘 패밀리이다. 이 방법은 두 가지 주요 구성 요소, 즉 액터와 크리틱으로 구성된다. 액터는 현재의 정책에 따라 행동을 선택하는 역할을 하며, 크리틱은 선택된 행동이나 현재 상태의 가치를 평가하여 액터에게 학습 신호를 제공한다. 이렇게 분리된 구조를 통해 액터는 정책을 직접 개선하는 동시에, 크리틱이 제공하는 낮은 분산의 피드백을 활용하여 학습의 안정성을 높일 수 있다.

액터-크리틱 방법의 일반적인 작동 원리는 다음과 같다. 에이전트가 환경과 상호작용하며 상태, 행동, 보상의 시퀀스를 생성한다. 크리틱(일반적으로 상태 가치 함수 V(s)를 학습)은 시간차 학습 오차와 같은 신호를 계산한다. 이 오차 신호는 실제로 받은 보상과 크리틱이 예측한 가치의 차이로, 행동의 '놀람' 또는 '유용성'을 나타낸다. 이후 액터는 이 오차 신호를 정책 업데이트의 방향과 크기에 대한 가중치로 사용한다. 예를 들어, 양의 시간차 오차는 해당 행동이 기대보다 좋았다는 의미이므로, 그 행동을 선택할 확률을 높이는 방향으로 정책을 조정한다.

주요 액터-크리틱 알고리즘으로는 A2C와 A3C가 있다. A2C는 동기식 어드밴티지 액터-크리틱으로, 여러 에이전트가 환경을 탐험한 경험을 중앙에서 모아 배치 학습을 수행한다. 반면 A3C는 비동기식 버전으로, 각 에이전트가 자신의 환경 사본과 모델 사본을 가지고 독립적으로 학습한 후, 주기적으로 글로벌 모델의 파라미터를 비동기적으로 업데이트한다[8]. 이들 알고리즘은 크리틱이 어드밴티지 함수를 추정하도록 하여, 단순한 상태 가치보다 더 나은 기준선을 제공함으로써 학습의 안정성을 더욱 향상시킨다.

액터-크리틱 방법의 장점과 단점은 다음과 같이 정리할 수 있다.

장점	단점
정책 경사법에 비해 학습이 안정적이고 분산이 낮음	두 개의 근사 함수(액터와 크리틱)를 동시에 학습해야 하므로 조정이 어려움
연속적인 행동 공간에서도 효과적으로 적용 가능	두 구성 요소의 학습 속도 불일치로 인해 발산할 위험이 존재함
단일 시간 단계마다 업데이트가 가능함(에피소드 종료 대기 불필요)	크리틱의 부정확한 평가가 액터의 정책을 악화시킬 수 있음

이 방법론은 이후 TRPO, PPO 등 더 발전된 정책 최적화 알고리즘들의 기반이 되었다.

unisquads

2026.02.12

기여도

unisquads

100%

6. 심층 강화 학습

심층 강화 학습은 강화 학습의 핵심 요소인 가치 함수나 정책을 근사하는 데 인공 신경망과 같은 심층 학습 모델을 활용하는 접근법이다. 기존의 표 형태로 Q-함수를 표현하는 방식은 상태 공간이 크거나 연속적일 때 한계를 보였으나, 심층 신경망은 이러한 고차원 입력을 처리하고 복잡한 함수를 근사하는 능력을 제공한다. 이 결합은 알파고와 같은 획기적인 성과를 가능하게 한 핵심 동력이었다.

심층 강화 학습의 대표적인 초기 성공 사례는 DQN(Deep Q-Network)이다. DQN은 기본 Q-러닝 알고리즘에 경험 재현과 목표 네트워크라는 두 가지 주요 기법을 도입하여 학습의 안정성을 크게 향상시켰다. 경험 재현은 에이전트의 경험을 재사용함으로써 데이터 효율성을 높이고, 목표 네트워크는 학습 중 발생할 수 있는 발산 문제를 완화한다. DQN은 아타리 2600 게임 여러 개에서 인간 수준의 성능을 처음으로 달성하며 그 가능성을 입증했다.

DQN 이후, 정책을 직접 최적화하는 정책 기반 방법과 가치 기반 방법을 결합한 액터-크리틱 방법 계열의 알고리즘들이 발전했다. 대표적인 알고리즘으로는 비동기적으로 여러 에이전트가 병렬로 학습하는 A3C(Asynchronous Advantage Actor-Critic)와 신뢰 구간을 이용해 안정적인 정책 업데이트를 보장하는 PPO(Proximal Policy Optimization)가 있다. 이들 알고리즘은 더 복잡한 환경과 연속 행동 공간에서도 뛰어난 성능을 보인다.

심층 강화 학습의 주요 알고리즘 발전을 요약하면 다음과 같다.

알고리즘	주요 특징	해결하고자 한 문제
DQN	심층 신경망으로 Q-함수 근사, 경험 재현, 목표 네트워크 사용	고차원 상태 입력 처리, 학습 불안정성
A3C	비동기적 병렬 액터-크리틱, 정책과 가치 함수의 분리 학습	학습 가속화, 샘플 효율성 향상
PPO	정책 업데이트의 크기를 제한하는 클리핑 목적 함수 사용	학습 안정성 및 신뢰성 있는 정책 개선

이러한 발전에도 불구하고 심층 강화 학습은 여전히 높은 계산 비용, 표본 효율성의 부족, 탐험과 활용의 균형 문제 등의 도전 과제를 안고 있다.

6.1. 신경망과의 결합

심층 강화 학습의 핵심은 신경망을 가치 함수나 정책을 근사하는 함수로 사용하는 것이다. 기존 강화 학습 알고리즘은 상태나 행동 공간이 크거나 연속적일 때 차원의 저주 문제로 인해 효율적으로 학습하기 어려웠다. 신경망은 이러한 고차원 입력을 처리하고 복잡한 함수를 근사하는 데 뛰어난 능력을 보여주며, 이 결합은 강화 학습의 적용 범위를 크게 확장시켰다.

주요 결합 방식은 크게 가치 기반과 정책 기반으로 나뉜다. 가치 기반 접근법의 대표적인 예는 DQN이다. DQN은 신경망을 사용해 Q-함수를 직접 근사하며, 학습의 안정성을 높이기 위해 경험 재생과 목표 네트워크 같은 기법을 도입했다. 정책 기반 접근법에서는 신경망이 상태를 입력받아 행동의 확률 분포(정책)를 직접 출력한다. 정책 경사법은 이 정책 네트워크의 파라미터를 보상 신호를 통해 직접 최적화한다.

이러한 결합은 몇 가지 중요한 기술적 발전을 동반했다. 신경망의 계층적 구조는 상태 표현을 자동으로 학습하는 표현 학습을 가능하게 했다. 특히 합성곱 신경망은 이미지와 같은 원시 픽셀 입력을 직접 처리하여 게임 화면에서 특징을 추출하는 데 성공적으로 적용되었다. 또한, 액터-크리틱 방법은 가치 네트워크(크리틱)와 정책 네트워크(액터)를 함께 사용하여 학습의 분산을 줄이고 안정성을 향상시켰다.

결합 방식	설명	대표 알고리즘
가치 기반	신경망이 상태-행동 가치(Q-값)를 근사. 최적 정책은 근사된 Q-함수로부터 유도된다.	DQN, DDQN
정책 기반	신경망이 정책(상태→행동 확률 분포)을 직접 근사. 파라미터는 정책 경사법으로 최적화된다.	REINFORCE, PPO
액터-크리틱	액터(정책 네트워크)와 크리틱(가치 네트워크)을 함께 사용. 크리틱이 제공하는 평가 신호로 액터를 업데이트한다.	A2C, A3C, SAC

6.2. A3C, PPO 등 주요 알고리즘

심층 강화 학습의 발전과 함께, 신경망을 활용한 고성능 알고리즘들이 등장했다. A3C(Asynchronous Advantage Actor-Critic)는 2016년에 소개된 비동기식 액터-크리틱 알고리즘이다. 이 방법은 여러 개의 에이전트(액터-학습자)를 병렬로 실행하여 서로 다른 환경에서 독립적으로 경험을 수집하고, 하나의 글로벌 신경망 모델을 비동기적으로 업데이트한다. 이 구조는 경험 데이터 간의 상관관계를 줄여 학습 안정성을 높이고, 병렬 처리 덕분에 표본 효율성과 학습 속도를 크게 향상시켰다.

PPO(Proximal Policy Optimization)는 2017년에 제안된 정책 경사법 기반 알고리즘으로, 구현이 비교적 간단하면서도 안정적인 성능으로 널리 채택되었다. PPO의 핵심 아이디어는 정책 업데이트 시 새로운 정책과 이전 정책 사이의 차이를 제한하여 한 번의 업데이트로 정책이 너무 크게 변하는 것을 방지하는 것이다. 이를 위해 클리핑된 서로게이트 목적 함수를 사용하거나, KL 발산을 제약 조건으로 하는 방법을 적용한다. 이는 학습의 안정성을 보장하면서도 데이터 효율성을 유지한다.

이 외에도 다양한 심층 강화 학습 알고리즘이 특정 문제에 맞게 발전했다. DDPG(Deep Deterministic Policy Gradient)는 연속적인 행동 공간을 다루기 위해 결정적 정책 경사법을 심층 신경망과 결합했다. TRPO(Trust Region Policy Optimization)는 PPO의 전신으로, 신뢰 구역 방법을 사용하여 안정적인 정책 업데이트를 보장하려 했다. SAC(Soft Actor-Critic)는 최대 엔트로피 강화 학습 프레임워크를 따르며, 탐험을 장려하기 위해 보상에 정책의 엔트로피를 더하는 방식을 채택해 탐험과 활용의 균형 문제를 해결하는 데 강점을 보인다.

알고리즘	출시 연도	주요 특징	적합한 행동 공간
A3C	2016	비동기식 병렬 학습, 액터-크리틱	이산적, 연속적
PPO	2017	클리핑/제약을 통한 안정적 업데이트	이산적, 연속적
DDPG	2015	결정적 정책 기반, 연속 공간 최적화	연속적
SAC	2018	최대 엔트로피 원칙, 강력한 탐험	연속적

이러한 알고리즘들은 게임 AI, 로봇 제어, 자율 주행 등 복잡한 실세계 문제에 적용되며, 표본 효율성과 학습 안정성이라는 지속적인 도전 과제를 해결하기 위해 계속 진화하고 있다.

unisquads

2026.02.12

기여도

unisquads

100%

7. 응용 분야

강화 학습은 에이전트가 환경과의 상호작용을 통해 보상을 최대화하는 행동을 학습하는 머신러닝 패러다임으로, 다양한 실세계 문제에 적용된다. 특히 결정을 순차적으로 내려야 하거나, 시뮬레이션 환경을 구축할 수 있는 분야에서 두각을 나타낸다. 그 핵심은 시행착오를 통한 학습으로, 명시적인 정답 데이터셋이 필요하지 않다는 장점이 있다.

가장 잘 알려진 응용 분야는 게임 AI이다. 딥마인드의 알파고는 바둑 세계 챔피언을 이기며 유명해졌고, 알파스타는 실시간 전략 게임 스타크래프트 II에서, 오픈AI의 시스템은 도타 2와 같은 복잡한 멀티에이전트 게임에서 인간 수준의 성능을 보였다. 이러한 성과는 강화 학습이 장기적인 전략 수립과 불완전 정보 하의 의사결정에 효과적임을 입증했다.

로봇 공학 분야에서는 로봇 제어와 조작 작업에 강화 학습이 활발히 연구된다. 시뮬레이션에서 학습한 정책을 실제 로봇에 전이하는 시뮬레이션 투 리얼리티 기법을 통해, 로봇이 물체 집기, 걸음마, 복잡한 조립 과제 등을 스스로 습득하게 한다. 또한, 자율 주행 시스템에서는 차량의 경로 계획, 차선 변경, 교차로 통과와 같은 의사결정 모듈에 강화 학습을 적용하여 보다 유연하고 적응적인 주행을 목표로 한다.

금융 및 운영 관리 분야에서도 활용된다. 알고리즘 트레이딩에서는 최적의 매매 시점과 포트폴리오 구성을 학습하는 에이전트를 개발하며, 리소스 관리에서는 클라우드 컴퓨팅의 자원 할당, 통신 네트워크의 대역폭 제어, 제조 공정의 스케줄링 등 복잡한 최적화 문제를 해결하는 데 적용된다. 이는 강화 학습이 제한된 자원 하에서 장기적 효용을 극대화하는 문제에 적합하기 때문이다.

응용 분야	주요 과제 예시	관련 알고리즘/시스템 예시
게임 AI	장기 전략 수립, 불완전 정보 처리	DQN, 알파고(몬테카를로 트리 탐색 결합), 알파스타
로봇 제어	실제 세계의 물리적 불확실성, 안전성	정책 경사법, PPO, 시뮬레이션 투 리얼리티
자율 주행	복잡한 도로 환경에서의 실시간 의사결정	심층 강화 학습, 액터-크리틱 방법
금융/리소스 관리	고위험성, 시장의 비정상성, 다중 제약 조건	Q-러닝, 강화 학습을 이용한 포트폴리오 관리

7.1. 게임 AI

강화 학습은 게임 AI 분야에서 특히 뛰어난 성과를 보이며 주목받았다. 고전적인 보드 게임부터 현대적인 비디오 게임까지, 에이전트가 인간 수준을 넘어서는 성능을 달성하는 사례가 다수 보고되었다. 이는 게임이 명확한 규칙과 보상 구조를 가지며, 강화 학습 에이전트가 반복적인 시뮬레이션을 통해 최적의 전략을 학습하기에 이상적인 환경을 제공하기 때문이다.

초기의 대표적인 성공 사례는 바둑 AI인 알파고이다. 알파고는 정책 네트워크와 가치 네트워크를 결합한 신경망과 몬테카를로 트리 탐색을 활용하여 2016년 세계 챔피언 이세돌을 꺾었다. 이후 등장한 알파제로는 인간의 기보 데이터 없이 순수한 자가 대국을 통해 바둑 뿐만 아니라 체스와 장기에서도 최고 수준의 성능을 보여주었다. 이는 탐험을 통한 데이터 생성과 심층 신경망을 이용한 일반화가 강력한 조합임을 입증했다.

게임	주요 알고리즘/시스템	주요 성과	연도
아타리 2600 게임	DQN	인간 수준의 플레이 성능 달성	2015
바둑	알파고	프로 인간 기사 이세돌 9단 승리	2016
바둑, 체스, 장기	[[액터-크리틱 방법	알파제로]]	순수 자가 대국 학습으로 슈퍼휴먼 성능 달성
도타 2	OpenAI Five	5대5 팀 전략 게임에서 세계 챔피언 팀 승리	2019
스타크래프트 II	알파스타	제한된 조건에서 프로 게이머 상대 승리	2019

비디오 게임 분야에서는 DeepMind의 DQN이 아타리 2600의 여러 게임에서 인간 수준의 플레이를 보여주며 돌파구를 마련했다. 더 복잡한 실시간 전략 게임에서는 알파스타가 스타크래프트 II에서, OpenAI Five가 도타 2에서 강화 학습이 복잡한 장기적 전략과 팀 협동을 학습할 수 있음을 증명했다. 이러한 게임 AI 연구는 알고리즘의 효율성, 표본 효율성, 다중 에이전트 상호작용 등 강화 학습의 핵심 과제를 해결하는 데 기여하며, 이론과 실용적 발전 모두에 지대한 영향을 미쳤다.

7.2. 로봇 제어

로봇 제어는 강화 학습의 주요 응용 분야 중 하나이다. 로봇이 물리적 환경에서 복잡한 작업을 자율적으로 수행하도록 학습시키는 것을 목표로 한다. 이 분야는 시뮬레이션 환경에서의 학습과 실제 하드웨어에의 적용이라는 이중적 도전에 직면해 있다.

로봇 제어에 강화 학습을 적용하는 일반적인 접근법은 다음과 같다. 로봇은 에이전트 역할을 하며, 그 상태는 관절의 각도, 속도, 센서 데이터(예: 카메라 이미지, 힘/토크 값) 등으로 정의된다. 행동은 일반적으로 관절 토크 또는 목표 위치 명령이다. 보상 함수는 작업 성공(예: 물체 집기, 문 열기, 걷기)을 장려하고 에너지 소비나 불안정한 동작을 페널티로 부여하도록 설계된다. 학습 초기에는 주로 시뮬레이션 환경에서 진행되어 수많은 시행착오를 안전하고 빠르게 반복할 수 있다. 이후 도메인 랜덤화나 시뮬레이션 투 리얼리티 기술을 통해 실제 로봇으로의 지식 이전을 시도한다.

주요 응용 사례로는 보행 로봇의 걸음걸이 생성, 로봇 팔을 이용한 조작 작업(집기, 놓기, 조립), 드론의 자율 비행 등이 있다. 예를 들어, 정책 경사법이나 액터-크리틱 방법을 사용하여 로봇이 넘어지지 않고 전진하는 보행 정책을 학습할 수 있다. 이러한 방법들은 높은 차원의 연속적인 상태와 행동 공간을 다루는 데 적합하다. 최근에는 심층 강화 학습과 심층 신경망을 결합하여 로봇이 카메라 같은 고차원의 원시 센서 입력으로부터 직접 제어 정책을 학습하는 엔드투엔드 방식의 연구도 활발하다.

그러나 실제 로봇 제어에는 고유한 어려움이 존재한다. 보상 함수를 정밀하게 설계하기 어렵고, 물리적 시스템의 마모 및 노이즈, 학습 과정 중의 안전성 보장, 그리고 시뮬레이션과 현실 간의 괴리 문제가 대표적이다. 이러한 도전 과제를 해결하기 위해 안전 강화 학습, 메타 학습, 오프라인 강화 학습 등의 연구가 진행되고 있다.

7.3. 자율 주행

자율 주행은 강화 학습이 실세계 문제에 적용되는 대표적인 분야 중 하나이다. 자율 주행 차량은 복잡하고 동적인 도로 환경에서 안전하게 주행 결정을 내려야 하는 에이전트 역할을 한다. 이때 환경은 도로, 교통 표지, 다른 차량, 보행자 등으로 구성되며, 에이전트의 행동은 조향, 가속, 제동 등이 된다. 목표는 출발지에서 목적지까지 사고 없이 효율적으로 이동하는 것이다.

주요 도전 과제는 연속적이고 고차원적인 상태 공간을 다루는 것이다. 카메라, 라이다, 레이더 등 다양한 센서로부터 들어오는 방대한 입력 데이터를 처리해야 하며, 이는 심층 강화 학습 기법을 필수적으로 만든다. 신경망은 원시 센서 데이터를 해석하는 정책이나 가치 함수를 근사하는 데 사용된다. DQN이나 PPO와 같은 알고리즘은 시뮬레이션 환경에서 광범위하게 훈련되어, 차량이 다양한 교통 상황에 적응하도록 한다.

실제 적용에서는 시뮬레이션 훈련과 실제 도로 테스트를 결합한다. 시뮬레이션은 위험 없이 수많은 시나리오(예: 긴급 제동, 합류, 악천후)를 빠르게 생성할 수 있어 효율적이다. 그러나 시뮬레이션과 현실 사이의 간격을 줄이는 것이 중요하다. 최종 정책은 제한된 실제 도로 데이터로 미세 조정된다.

적용 영역	강화 학습의 역할	예시 알고리즘/접근법
경로 계획 및 내비게이션	장기적 목표를 고려한 최적 경로 탐색	모델 예측 제어, 심층 결정적 정책 경사법
동적 장애물 회피	갑작스러운 상황에 대한 실시간 반응 학습	Q-러닝 기반 반응 정책
교통 흐름 최적화	신호 제어나 다수 차량 협조를 통한 전체 효율 향상	다중 에이전트 강화 학습

안전성 보장이 가장 큰 과제이다. 탐험과 활용의 균형 문제에서 탐험이 실패하면 심각한 사고로 이어질 수 있다. 따라서 보수적인 정책 초기화, 안전 제약 조건 명시적 학습, 시뮬레이션에서의 철저한 안전 테스트 등이 필수적이다.

7.4. 금융 및 리소스 관리

강화 학습은 금융 시장에서의 알고리즘 트레이딩과 포트폴리오 최적화에 효과적으로 적용된다. 에이전트는 주가, 거래량, 경제 지표 등의 시장 상태를 관찰하고, 매수, 매도, 보유 등의 행동을 선택한다. 목표는 장기적인 누적 수익을 극대화하는 투자 전략을 학습하는 것이다. 특히, 고빈도 거래 환경에서 복잡한 시장 패턴을 실시간으로 학습하고 대응하는 데 유용하다. 또한, 리스크 관리를 위해 볼라틸리티나 드로다운을 보상 함수에 반영하여 위험 조정 수익을 최적화하는 모델을 구축할 수 있다.

자원 관리 분야에서는 에너지 관리 시스템, 컴퓨팅 리소스 할당, 물류 네트워크 최적화 등에 활용된다. 예를 들어, 데이터 센터의 전력 소비를 최소화하기 위해 서버 냉각 팬 속도나 CPU 주파수를 동적으로 조절하는 정책을 학습할 수 있다. 보상은 전력 비용 절감과 성능 목표 달성의 균형으로 설계된다. 스마트 그리드에서는 재생 에너지의 변동성을 고려하여 전력 수요와 공급을 예측하고, 저장 장치의 충방전을 조절하여 전체 시스템 효율을 높인다.

다음은 강화 학습이 적용되는 금융 및 리소스 관리의 주요 예시를 정리한 표이다.

적용 분야	주요 상태(State)	주요 행동(Action)	보상(Reward) 설계 목표
알고리즘 트레이딩	주가, 기술적 지표, 시장 심리	매수/매도/보유, 주문 수량	누적 수익률 극대화, 샤프 비율 향상
포트폴리오 관리	자산별 수익률, 공분산, 위험 노출	자산별 배분 비중 조정	위험 조정 수익 최대화, 분산 투자
데이터 센터 에너지 관리	서버 부하, 실내외 온도, 전력 요금	냉각 강도, 작업 스케줄링	전력 비용 최소화, 서비스 수준 협약 준수
스마트 그리드 제어	전력 수요 예측, 재생 에너지 출력, 저장소 상태	저장 장치 충방전, 수요 반응 제어	전력망 안정화, 운영 비용 절감

이러한 응용은 표본 효율성 문제와 실제 환경에서의 안전한 탐험, 시뮬레이션과 현실 간의 괴리 등의 도전 과제에 직면한다. 특히 금융 데이터의 노이즈와 비정상성은 모델의 일반화를 어렵게 만드는 요인이다.

unisquads

2026.02.12

기여도

unisquads

100%

8. 도전 과제와 한계

강화 학습은 이론적으로 강력한 프레임워크를 제공하지만, 실제 문제에 적용할 때는 여러 실질적인 도전 과제와 한계에 직면한다.

가장 큰 과제 중 하나는 표본 효율성의 부족이다. 많은 강화 학습 알고리즘, 특히 심층 강화 학습은 환경과의 상호작용을 통해 방대한 양의 데이터를 필요로 한다. 이는 시뮬레이션 환경에서는 가능할 수 있으나, 실제 물리적 시스템(예: 로봇 제어)에서는 데이터 수집 속도가 느리고 비용이 높아 실용성을 떨어뜨린다. 또한, 탐험과 활용의 균형 문제는 근본적인 딜레마를 만든다. 에이전트는 새로운 행동을 시도(탐험)하여 더 나은 정책을 발견해야 하지만, 동시에 현재 알고리즘이 최선이라고 판단하는 행동(활용)을 통해 보상을 극대화해야 한다. 이 균형을 맞추지 못하면 알고리즘은 최적이 아닌 정책에 빠지거나 학습 속도가 현저히 떨어진다.

안전성과 안정성 역시 중요한 한계점이다. 학습 과정 중 무작위 탐험은 예측 불가능하고 잠재적으로 위험한 행동을 초래할 수 있다. 이는 자율 주행이나 의료 진단과 같이 실패 비용이 큰 분야에서 주요 장벽으로 작용한다. 또한, 학습된 정책의 일반화 능력은 제한적이다. 특정 환경에서 훈련된 에이전트는 약간의 변화가 생긴 새로운 상황에서 성능이 급격히 저하되는 경우가 많다. 마지막으로, 학습 과정의 불안정성, 특히 비선형 함수 근사기(예: 심층 신경망)와 결합될 때 수렴을 보장하기 어렵다는 점도 이론적·실용적 난제로 남아 있다[9]], 경험 재생 등의 기술이 개발되었다].

8.1. 표본 효율성

표본 효율성은 강화 학습 에이전트가 환경과의 상호작용을 통해 수집한 경험 데이터를 얼마나 효과적으로 학습에 활용하는지를 나타내는 척도이다. 이는 실제 세계나 복잡한 시뮬레이션에서 데이터 수집 비용이 높거나 시간이 많이 소요될 때 특히 중요한 문제가 된다. 효율성이 낮은 알고리즘은 목표를 달성하기 위해 지나치게 많은 시도와 데이터를 필요로 하므로, 실용적인 응용에 큰 장벽이 될 수 있다.

표본 효율성을 높이기 위한 주요 접근법은 경험 재생과 모델 기반 학습이다. 경험 재생은 에이전트가 과거의 경험을 버퍼에 저장해 두고, 학습 시 무작위로 샘플링하여 재사용하는 기법이다. 이는 데이터 간의 상관관계를 줄이고 동일한 경험을 반복적으로 학습에 활용함으로써 효율성을 크게 향상시킨다. 모델 기반 강화 학습은 환경의 역학을 모델링하여, 실제 상호작용 없이도 시뮬레이션을 통해 많은 양의 학습 데이터를 생성하려는 시도이다. 그러나 정확한 환경 모델을 구축하는 것은 어려운 과제이며, 모델 오차가 누적될 수 있다는 한계가 있다.

다음 표는 표본 효율성에 영향을 미치는 주요 요소와 대응 전략을 정리한 것이다.

영향 요소	설명	대응 전략 예시
탐험 전략	무작위 탐험은 비효율적일 수 있음	지식 기반 탐험, 불확실성 기반 탐험
함수 근사	부정확한 가치 함수 추정은 학습을 느리게 함	더 나은 신경망 구조, 정규화 기법
신용 할당	장기간의 행동에 대한 보상 원인을 찾기 어려움	시간차 학습, 할인율 조정, 어드벤티지 함수
데이터 상관관계	연속된 상태-행동 데이터는 학습을 불안정하게 만듦	경험 재생, 타겟 네트워크

이러한 도전 과제를 해결하기 위한 연구는 계속되고 있으며, 메타 러닝을 통해 새로운 태스크에 빠르게 적응하거나, 전이 학습을 통해 기존 지식을 활용하는 방법 등도 표본 효율성 개선을 위한 유망한 방향으로 주목받고 있다.

8.2. 탐험과 활용의 균형

탐험과 활용의 균형은 강화 학습 에이전트가 직면하는 근본적인 딜레마이다. 에이전트는 현재 알고 있는 정보를 바탕으로 최선의 행동을 선택(활용)해야 하지만, 더 나은 행동을 발견하기 위해 새로운 행동을 시도(탐험)해야 할 필요성도 있다. 지나치게 활용에 치우치면 최적이 아닌 초기 정책에 갇히게 되고, 지나치게 탐험에 치우치면 학습이 비효율적이거나 수렴하지 않을 수 있다. 따라서 이 균형을 적절히 조절하는 전략은 학습 성능에 결정적인 영향을 미친다.

가장 기본적인 전략은 ε-탐욕(epsilon-greedy) 정책이다. 이 정책은 작은 확률 ε로 무작위 행동(탐험)을 선택하고, 나머지 (1-ε) 확률로 현재 추정 가치가 가장 높은 행동(활용)을 선택한다. ε 값은 시간이 지남에 따라 감소시켜 초기에는 탐험을 장려하고 후기에는 활용을 강화하는 방식으로 조정된다. 또 다른 접근법으로는 UCB가 있다. UCB는 각 행동의 가치 추정치에 불확실성(신뢰 구간)을 더한 값을 기준으로 행동을 선택하여, 덜 시도된 행동에 대한 탐험을 체계적으로 유도한다.

보다 정교한 방법으로는 행동 가치에 대한 확률 분포를 모델링하는 확률적 정책을 사용하는 것이다. 예를 들어, 정책 경사법은 각 상태에서 행동을 선택할 확률을 직접 최적화하며, 탐험은 정책의 확률적 특성에 자연스럽게 내재된다. 소프트맥스 탐험은 각 행동의 추정 가치에 비례하는 확률로 행동을 선택하는 방식으로, 가치가 비슷한 행동들 사이에서도 탐험을 가능하게 한다. 최근의 심층 강화 학습에서는 엔트로피 보너스를 정책의 손실 함수에 추가하여 정책이 지나치게 특정 행동에 수렴하는 것을 방지하고 탐험을 장려하기도 한다.

전략	핵심 메커니즘	주요 특징
ε-탐욕	확률 ε로 무작위 행동 선택	구현이 간단하지만, 탐험 시 무작위성이 높음
UCB	가치 추정치 + 불확실성(신뢰 구간 상한) 기준 선택	탐험을 체계적이고 낙관적으로 유도
소프트맥스	추정 가치에 비례하는 확률로 행동 선택	가치가 비슷한 행동들 사이의 미세한 탐험 가능
엔트로피 보너스	정책의 엔트로피를 손실 함수에 추가	정책의 다양성을 유지하며 자연스러운 탐험 유도

이 균형 문제는 상태 공간이 크거나 보상이 희소하고 지연된 환경에서 특히 더 어려워진다. 최적의 균형 전략은 문제의 특성에 크게 의존하며, 이를 해결하기 위한 연구는 계속되고 있다.

8.3. 안전성과 안정성

강화 학습 시스템의 안전성은 에이전트가 학습 과정이나 실행 과정에서 해를 끼치지 않도록 보장하는 것을 의미한다. 이는 특히 실제 환경에 배포되는 시스템에서 중요한 문제이다. 안전성 문제는 크게 두 가지로 나뉜다. 첫째는 절대적 안전 제약을 위반하지 않는 것이고, 둘째는 의도하지 않은 부작용을 피하는 것이다. 예를 들어, 자율 주행 차량이 교통 규칙을 준수하거나, 로봇이 사람과 물리적으로 충돌하지 않도록 하는 것이 이에 해당한다.

안정성은 학습 알고리즘이 수렴하고, 그 성능이 일관되며, 작은 환경 변화에 민감하게 반응하지 않는 특성을 가리킨다. 불안정한 학습은 성능이 급격히 저하되거나 예측 불가능한 행동을 초래할 수 있다. 심층 강화 학습에서 신경망과 결합된 경우, 함수 근사기의 사용은 불안정성과 발산을 초래하는 주요 원인 중 하나이다. 학습 데이터 간의 상관관계와 지속적으로 변화하는 목표값이 이러한 문제를 악화시킨다.

안전성과 안정성을 보장하기 위한 여러 접근법이 연구되고 있다. 안전한 탐험을 유도하는 제약 기반 강화 학습, 에이전트의 행동을 안전 영역 내로 제한하는 안전 장치 모듈, 그리고 시뮬레이션에서 실제 시스템으로의 안전한 지식 전이를 연구하는 시뮬레이션 투 리얼리티 기법 등이 대표적이다. 안정성 측면에서는 경험 재생 버퍼와 타겟 네트워크를 사용한 DQN, 신뢰 영역을 정의하여 업데이트 폭을 제한하는 TRPO 및 PPO 같은 알고리즘들이 개발되었다.

이러한 도전 과제는 강화 학습이 실생활의 복잡하고 위험한 영역에 적용되는 것을 제한하는 주요 장벽이다. 따라서 안전성과 안정성에 대한 연구는 이론적 수렴 보장에서 나아가 실제 시스템의 견고한 배포를 가능하게 하는 핵심 분야로 자리 잡고 있다.

unisquads

2026.02.12

기여도

unisquads

100%

강화 학습편집자 확인

1. 개요

2. 기본 개념

2.1. 에이전트, 환경, 상태, 행동

2.2. 보상과 할인율

2.3. 정책과 가치 함수

3. 마르코프 결정 과정

3.1. MDP의 구성 요소

3.2. 벨만 방정식

4. 주요 알고리즘

4.1. 동적 프로그래밍

4.2. 몬테카를로 방법

4.3. 시간차 학습

4.4. Q-러닝과 DQN

5. 정책 기반 방법

5.1. 정책 경사법

5.2. 액터-크리틱 방법

6. 심층 강화 학습

6.1. 신경망과의 결합

6.2. A3C, PPO 등 주요 알고리즘

7. 응용 분야

7.1. 게임 AI

7.2. 로봇 제어

7.3. 자율 주행

7.4. 금융 및 리소스 관리

8. 도전 과제와 한계

8.1. 표본 효율성

8.2. 탐험과 활용의 균형

8.3. 안전성과 안정성

9. 관련 문서

문서 정보