문서의 각 단락이 어느 리비전에서 마지막으로 수정되었는지 확인할 수 있습니다. 왼쪽의 정보 칩을 통해 작성자와 수정 시점을 파악하세요.

RLHF | |
정식 명칭 | Reinforcement Learning from Human Feedback |
한국어 명칭 | 인간 피드백 강화 학습 |
분류 | |
주요 목적 | 대규모 언어 모델의 출력을 인간의 선호도에 맞춰 정렬 및 개선 |
핵심 구성 요소 | |
대표적 적용 사례 | |
상세 정보 | |
작동 원리 | 1. 사전 학습된 모델 생성 → 2. 인간 평가원의 비교 데이터 수집 → 3. 보상 모델 훈련 → 4. PPO 등의 강화 학습 알고리즘으로 모델 정책 최적화 |
주요 장점 | 모델이 복잡하거나 명시적으로 정의하기 어려운 인간의 가치와 선호를 학습 가능, 해로운 출력 감소, 유용성 및 사실성 향상 |
주요 한계/도전 과제 | 고비용, 평가자 편향의 전파, 보상 해킹 가능성, 정렬 목표 정의의 어려움 |
관련 기법 | |
주요 연구 기관 | |
초기 제안/중요 논문 | "Deep Reinforcement Learning from Human Preferences" (Christiano et al., 2017), OpenAI의 InstructGPT 논문 |
응용 분야 | 대화형 AI 어시스턴트, 창의적 텍스트 생성, 코드 생성, 콘텐츠 요약 |

RLHF는 인공지능 모델, 특히 대규모 언어 모델의 출력을 인간의 선호도와 가치관에 맞추어 조정하기 위해 사용되는 기계 학습 방법론이다. 이 기법은 강화학습의 프레임워크 안에 인간 피드백을 통합하여, 모델이 단순히 정답을 예측하는 것을 넘어서 인간이 바람직하다고 판단하는 방식으로 응답하도록 학습시킨다.
RLHF의 발전은 생성형 AI 모델의 성능이 비약적으로 향상되면서, 모델 출력의 유용성, 안전성, 윤리적 정렬을 보장해야 할 필요성이 대두된 배경에서 비롯되었다. 초대규모 사전학습 언어 모델은 방대한 양의 텍스트 데이터를 바탕으로 언어 패턴을 습득하지만, 이 과정에서 유해하거나 편향된 내용을 재생산하거나, 사용자의 지시를 정확히 따르지 못하는 경우가 발생할 수 있다. RLHF는 이러한 문제를 완화하기 위한 핵심적인 정렬 기법으로 자리 잡았다.
이 방법론의 주요 목표는 모델의 행동, 즉 생성되는 텍스트를 최적화하는 것이다. 구체적으로는 모델이 더 유용하고, 해롭지 않으며, 사실에 기반하고, 사용자의 의도에 부합하는 응답을 생성하도록 유도한다. RLHF는 ChatGPT와 같은 현대적인 대화형 AI 시스템의 성능을 형성하는 데 결정적인 역할을 했다.
RLHF의 일반적인 적용 과정은 다음과 같은 세 단계로 요약된다. 먼저, 인간 평가자가 여러 모델 응답에 대해 선호도를 표시한 데이터를 수집한다. 다음으로, 이 선호도 데이터를 학습하여 특정 응답에 점수를 부여하는 보상 모델을 훈련한다. 마지막으로, 원본 언어 모델(정책 모델)이 이 보상 모델로부터 높은 점수를 받는 방향으로 자신의 출력을 조정하도록 강화학습 알고리즘을 통해 미세조정한다.

RLHF는 강화학습과 인간 피드백을 결합하여 인공지능 모델, 특히 대규모 언어 모델의 출력을 인간의 선호도와 가치관에 맞추어 정렬하는 기법이다. 이 방법론의 핵심은 모델이 생성한 여러 응답에 대해 인간이 선호도를 표시한 데이터를 바탕으로 보상 모델을 학습시키고, 이 보상 모델의 피드백을 통해 원본 모델(정책 모델)을 강화학습으로 최적화하는 데 있다.
기존의 지도 미세조정은 정답이 명확한 작업에 효과적이지만, 창의적이거나 주관적인 요소가 강한 텍스트 생성 작업에서는 인간이 원하는 '좋은' 응답을 정의하고 학습시키기 어려웠다. RLHF는 이러한 한계를 극복하기 위해, 단일 정답보다는 상대적 선호도를 학습 데이터로 활용한다. 예를 들어, 모델이 생성한 두 개의 답변(A와 B)을 인간 평가자가 비교하여 더 선호하는 답변을 선택하면, 이 비교 데이터는 'A가 B보다 낫다'는 순위 정보로 변환되어 모델 학습에 사용된다.
이 과정은 강화학습의 프레임워크 안에서 이루어진다. 정책 모델이 응답을 생성하면, 사전에 훈련된 보상 모델이 해당 응답에 대한 점수(보상)를 예측하여 제공한다. 정책 모델은 이 보상 신호를 최대화하는 방향으로 자신의 파라미터를 조정하며 학습을 진행한다. 결과적으로 모델은 단순히 문법적으로 정확한 텍스트를 생성하는 것을 넘어, 유용성, 안전성, 사실성, 혹은 특정 스타일과 같은 인간이 가치 있게 여기는 특성을 갖춘 출력을 내놓는 방향으로 진화하게 된다.
강화학습은 에이전트가 환경과 상호작용하며 보상을 최대화하는 행동 정책을 학습하는 머신 러닝 패러다임이다. 전통적인 강화학습에서는 환경으로부터 명확한 보상 신호를 받지만, 복잡하고 주관적인 작업(예: 자연스러운 대화 생성, 창의적 글쓰기)에서는 이를 정의하기 어렵다. RLHF는 이러한 문제를 해결하기 위해, 인간의 주관적 판단을 보상 신호의 근원으로 삼는다. 즉, 모델이 생성한 여러 출력에 대해 인간이 선호도를 평가하면, 이 평가 데이터를 바탕으로 보상 모델을 훈련시킨다. 이후 이 보상 모델은 강화학습 과정에서 실제 환경을 대신하여 정책 모델에게 지속적인 피드백을 제공한다.
이 결합의 핵심은 인간의 판단을 자동화된 보상 함수로 변환하는 보상 모델링 단계에 있다. 인간 평가자는 모델이 생성한 응답 쌍(예: A 응답과 B 응답)을 비교하여 더 선호하는 것을 선택한다. 이 비교 데이터는 지도 학습 방식을 통해 보조 모델을 훈련시키는 데 사용되며, 이 보조 모델은 주어진 텍스트에 대해 인간이 부여할 선호도 점수를 예측하도록 학습된다. 결과적으로, 강화학습 알고리즘은 실제 인간을 대기하지 않고도 이 보상 모델과의 시뮬레이션된 상호작용을 통해 정책을 개선할 수 있다.
구성 요소 | 역할 | RLHF에서의 기능 |
|---|---|---|
강화학습(RL) | 정책 최적화 엔진 | 보상 모델로부터의 피드백을 받아 정책 모델의 파라미터를 조정하여 예상 보상을 최대화한다. |
인간 피드백(HF) | 보상 기준 설정자 | 모델 출력에 대한 주관적 선호도를 제공하여, 학습 목표를 정의하는 보상 모델의 훈련 데이터가 된다. |
이러한 접근법은 지도 미세조정만으로는 달성하기 어려운, 인간의 미묘한 가치와 선호도를 대규모 언어 모델에 정렬시키는 것을 가능하게 한다. 최종적으로, RLHF는 모델이 단순히 문법적으로 올바른 텍스트를 생성하는 것을 넘어, 유용하고, 해롭지 않으며, 인간의 의도에 부합하는 출력을 생성하도록 유도한다.
지도 미세조정은 RLHF 파이프라인의 초기 단계로, 사전학습된 대규모 언어 모델을 특정 태스크에 맞게 조정하는 과정이다. 이 단계에서는 인간이 작성한 고품질의 질문-답변 쌍 데이터셋을 사용하여 모델이 원하는 형식과 스타일로 응답하도록 학습시킨다. 예를 들어, 도움이 되고 해롭지 않은 어시스턴트의 응답 패턴을 학습하는 것이 일반적이다. SFT는 모델이 기본적인 지시 따르기 능력을 갖추도록 하는 데 목적이 있다.
그러나 SFT만으로는 모델의 출력 품질을 더욱 세밀하게 조정하거나, 인간의 미묘한 선호도를 반영하기 어렵다. SFT 데이터는 한 샘플에 대해 하나의 '정답' 응답만을 제공하며, 여러 개의 가능한 응답 중 어느 것이 더 우수한지에 대한 상대적 비교 정보를 포함하지 않는다. 이는 모델이 '안전하지만 유용하지 않은' 응답을 생성하거나, 인간이 실제로 선호하는 스타일과 다른 응답을 만들어낼 수 있는 한계로 이어진다.
따라서 RLHF는 SFT를 기반으로 하여, SFT 모델을 초기 정책 모델로 사용한다. RLHF의 핵심은 SFT 이후에 이루어지며, 보상 모델을 통해 인간의 상대적 선호도를 학습하고, 강화학습 알고리즘을 적용하여 모델의 출력을 최적화한다. 간단히 말해, SFT는 모델이 '올바르게' 응답하는 법을 가르치는 반면, RLHF는 여러 올바른 응답 중에서 '더 나은' 응답을 생성하도록 조율하는 과정이다. 이 두 단계는 순차적이며 상호 보완적인 관계에 있다.

RLHF의 핵심 구성 요소는 보상 모델, 정책 모델, 그리고 인간 평가 데이터 세 가지로 나뉜다. 이들 구성 요소는 서로 상호작용하며 모델의 출력을 인간의 선호에 맞춰 조정하는 과정을 가능하게 한다.
보상 모델은 인간의 선호도를 학습하여 특정 응답에 점수를 부여하는 분류기 역할을 한다. 일반적으로 지도 미세조정을 마친 기존 언어 모델을 기반으로 구축되며, 인간 평가원이 작성한 선호 데이터(예: 두 응답 중 더 나은 응답을 선택한 쌍)를 사용해 훈련된다. 이 모델의 목표는 인간 평가자가 부여할 점수를 정확히 예측하는 함수를 학습하는 것이다. 이후 이 보상 모델은 강화학습 단계에서 정책 모델이 생성하는 응답의 품질을 평가하는 기준으로 사용된다.
정책 모델은 실제로 최적화 대상이 되는 언어 모델 자체이다. 초기에는 사전학습된 대형 모델이나 지도 미세조정을 거친 모델로 시작한다. 강화학습 단계에서 이 모델은 주어진 프롬프트에 대해 응답을 생성하고, 그 응답은 보상 모델에 의해 점수를 받는다. 정책 경사 방법 등의 알고리즘을 통해, 모델은 높은 보상을 받는 응답을 생성할 확률을 높이고 낮은 보상을 받는 응답을 생성할 확률을 낮추는 방향으로 파라미터가 업데이트된다.
인간 평가 데이터는 RLHF 파이프라인의 근간을 이루는 요소이다. 이 데이터는 일반적으로 다음과 같은 형태로 구성된다.
데이터 형태 | 설명 | 용도 |
|---|---|---|
선호 쌍 데이터 | 동일한 프롬프트에 대한 모델의 두 가지 응답(A, B)과 인간 평가원이 선택한 더 선호하는 응답(K, L, 동률)으로 구성된다. | 보상 모델 훈련의 주요 데이터셋 |
프롬프트 데이터셋 | 모델이 응답을 생성할 기준이 되는 다양한 입력 문장이나 질문의 집합이다. | 강화학습 단계에서 정책 모델의 입력으로 사용 |
평가 가이드라인 | 응답의 유용성, 해독성, 안전성 등을 평가하는 데 사용되는 명시적 기준과 규칙이다. | 평가의 일관성과 품질 보장 |
이 데이터의 품질과 규모는 최종 모델의 성능과 정렬 수준을 직접적으로 결정한다. 데이터 수집은 주로 크라우드소싱 플랫폼을 통해 이루어지며, 철저한 평가자 교육과 품질 관리 과정을 거친다.
보상 모델은 RLHF 파이프라인에서 인간의 선호도를 학습하여 정량적인 보상 점수를 출력하는 지도 학습 모델이다. 이 모델은 강화 학습 단계에서 정책 모델의 출력 품질을 평가하는 기준 역할을 한다. 보상 모델은 일반적으로 인간 평가 데이터를 바탕으로 훈련되며, 주어진 텍스트에 대해 얼마나 '선호되는' 출력인지를 점수로 예측한다.
보상 모델의 훈련 데이터는 주로 인간 평가자가 생성한 응답 쌍에 대한 선호도 비교로 구성된다. 예를 들어, 하나의 프롬프트에 대해 모델이 생성한 두 개의 서로 다른 응답(A와 B)을 평가자가 더 선호하는 응답을 선택한다. 이 비교 데이터를 바탕으로 보상 모델은 브래들리-테리 모델과 같은 통계 모델을 사용하여 각 응답에 대한 상대적 선호 확률을 학습한다. 최종적으로 모델은 단일 텍스트 입력을 받아 해당 텍스트의 선호도에 해당하는 스칼라 보상 값을 출력하도록 훈련된다.
보상 모델의 성능은 RLHF 전체 성공을 좌우하는 핵심 요소이다. 불완전하거나 편향된 보상 모델은 보상 해킹 현상을 유발할 수 있으며, 이는 정책 모델이 높은 보상 점수를 얻기 위해 의미 없는 패턴이나 반복적인 텍스트를 생성하도록 만든다. 따라서 보상 모델의 일반화 능력과 견고성을 높이기 위해 다양한 주제와 난이도의 프롬프트, 다수의 평가자로부터 수집한 풍부한 비교 데이터가 필요하다.
정책 모델은 RLHF 파이프라인의 핵심으로, 최종적으로 개선되어 배포되는 생성형 AI 모델을 가리킨다. 이 모델은 강화학습 과정에서 환경과 상호작용하며 행동(텍스트 생성)을 결정하는 주체 역할을 한다. 초기 정책 모델은 일반적으로 대규모 텍스트 데이터로 사전 학습된 기초 모델을 바탕으로 하며, 이후 지도 미세조정을 거친 모델이 시작점이 되는 경우가 많다.
정책 모델의 학습 목표는 보상 모델로부터 높은 보상을 받는 방향으로 자신의 생성 정책을 조정하는 것이다. 학습 과정에서 정책 모델은 프롬프트에 대한 응답을 생성하면, 보상 모델이 해당 응답에 대한 점수(보상)를 부여한다. 강화학습 알고리즘(예: PPO)은 이 보상 신호를 사용하여 정책 모델의 매개변수를 업데이트하여, 유용하고 해롭지 않으며 인간 선호에 부합하는 응답을 생성할 확률을 높인다.
역할 | 설명 | 주된 입력/출력 |
|---|---|---|
행동 주체 | 주어진 상황(프롬프트)에서 행동(텍스트 토큰 생성)을 결정한다. | 입력: 프롬프트 / 출력: 응답 텍스트 |
최적화 대상 | 보상 모델의 출력을 최대화하도록 매개변수가 조정된다. | 보상 신호를 받아 파라미터 업데이트 |
최종 산출물 | RLHF 과정을 마친 후 실제 서비스에 배포되는 모델이다. | 미세조정된 생성 능력을 가짐 |
이 과정에서 정책 모델은 원본 사전 학습 모델의 일반적인 언어 능력을 유지하면서, 인간의 피드백에 기반한 품질과 안전성 기준에 더 잘 부합하도록 조정된다. 결과적으로 정책 모델은 단순히 문법적으로 올바른 텍스트를 생성하는 것을 넘어, 유용성, 사실성, 유해성 감소 등 인간이 선호하는 특성을 반영한 출력을 생성하게 된다.
인간 평가 데이터는 보상 모델을 훈련시키기 위한 핵심 입력으로, 인간 평가자가 생성된 여러 텍스트 응답을 비교하여 선호도를 표시한 데이터 셋이다. 이 데이터는 일반적으로 (응답 A, 응답 B, 선호도) 형태의 튜플로 구성되며, 응답 A가 응답 B보다 선호된다는 이진 비교 레이블을 포함한다. 데이터 수집은 특정 프롬프트에 대해 언어 모델이 생성한 여러 후보 응답을 평가자에게 제시하고, 더 유용하거나 해롭지 않거나 정확한 응답을 선택하도록 요청하는 방식으로 이루어진다.
데이터의 품질과 일관성을 보장하기 위해 여러 평가자에게 동일한 비교 쌍을 평가하게 하여 인터-레이터 신뢰도를 측정하고, 명확한 평가 가이드라인을 제공한다. 평가 기준에는 유용성, 무해성, 사실성, 협력성 등이 포함되며, 응용 분야에 따라 기준의 세부 사항과 가중치가 달라질 수 있다. 예를 들어, 대화형 AI 어시스턴트를 위한 데이터는 정중함과 도움의 정도를 중시하는 반면, 코드 생성 모델을 위한 데이터는 기능적 정확성과 효율성을 더 중요하게 평가한다.
평가 기준 | 설명 | 일반적인 지시 사항 예시 |
|---|---|---|
유용성 | 사용자의 질문이나 지시를 얼마나 잘 충족하는가 | "어느 응답이 사용자의 요구를 더 효과적으로 해결하는가?" |
무해성 | 유해하거나 편향되거나 부적절한 내용을 포함하는가 | "어느 응답이 더 안전하고 공정하며 해롭지 않은가?" |
사실성 | 사실적으로 정확하고 검증 가능한 정보를 제공하는가 | "어느 응답에 허구적이거나 오류가 있는 내용이 더 적은가?" |
이 데이터 수집 과정은 비용이 많이 들고 시간이 소요되며, 평가자의 주관성과 문화적 편향이 데이터에 스며들 수 있다는 한계를 지닌다. 이를 완화하기 위해 평가자 풀을 다양화하고, 모호한 경우를 위한 '동등함' 옵션을 제공하며, 주기적으로 평가 기준을 재검토하는 절차가 필요하다. 수집된 인간 선호 데이터는 보상 모델이 인간의 가치 판단을 학습할 수 있는 근거를 제공하여, 궁극적으로 정책 모델의 행동을 인간 집단의 선호에 정렬시키는 데 기여한다.

RLHF의 핵심 학습 단계에서 사용되는 주요 최적화 알고리즘으로는 PPO와 DPO가 대표적이다. 이 알고리즘들은 인간의 선호도 피드백을 바탕으로 언어 모델의 출력을 정렬하는 방식을 구현한다.
PPO는 강화학습 기반의 정책 최적화 알고리즘이다. 이 방법은 두 단계로 구성된다. 먼저, 인간의 선호도 데이터로 훈련된 보상 모델이 생성된다. 이후, 사전 학습된 기본 언어 모델(정책 모델)은 PPO 알고리즘을 사용하여 이 보상 모델로부터 높은 점수를 받는 방향으로 자신의 출력 정책을 조정한다. PPO는 업데이트 단계의 크기를 제한하여 학습의 안정성을 보장하는 특징을 가진다. 이 방식은 ChatGPT와 InstructGPT의 초기 버전을 훈련하는 데 성공적으로 적용되었다.
알고리즘 | 핵심 메커니즘 | 주요 특징 |
|---|---|---|
보상 모델을 통해 간접적으로 선호도 학습 | 안정적인 정책 업데이트, 두 단계의 파이프라인 필요 | |
선호도 데이터로 직접 정책 최적화 | 보상 모델 불필요, 단일 단계 학습, 계산 효율적 |
한편, DPO는 PPO 파이프라인의 복잡성을 해결하기 위해 제안된 대안적 접근법이다. DPO는 별도의 보상 모델을 명시적으로 학습시키지 않고, 인간이 선호하는 응답과 선호하지 않는 응답의 쌍으로 구성된 데이터를 직접 사용하여 정책 모델을 최적화한다. 이는 보상 모델링 단계를 생략함으로써 전체 파이프라인을 단순화하고 계산 비용을 줄인다. DPO의 핵심 아이디어는 보상 함수와 최적 정책 사이의 분석적 관계를 활용하여, 선호도 비교 데이터로부터 직접 정책을 업데이트하는 데 있다.
PPO는 RLHF 파이프라인의 핵심 최적화 알고리즘으로, 정책 경사 방법의 한계를 개선하기 위해 2017년에 제안되었다. 이 알고리즘은 정책 업데이트 시 각 단계의 변화량을 제한하여 학습의 안정성을 높이는 것을 목표로 한다. 기존 방법들은 한 번의 업데이트에서 너무 급격한 정책 변화를 초래해 성능이 급락하는 문제가 있었는데, PPO는 이를 완화한다.
PPO의 핵심 메커니즘은 '클리핑' 기법에 기반한다. 이 기법은 정책의 업데이트 비율(새 정책과 이전 정책의 행동 선택 확률 비율)을 특정 범위 내로 제한한다. 이를 통해 각 학습 단계에서 정책이 너무 멀리 벗어나지 않도록 보장하며, 안정적인 성능 향상을 가능하게 한다. RLHF 컨텍스트에서는 정책 모델이 보상 모델로부터 받은 보상 신호를 바탕으로 PPO를 사용하여 자신의 출력 분포를 점진적으로 조정한다.
PPO는 RLHF에서 다음과 같은 이점을 제공한다.
이점 | 설명 |
|---|---|
학습 안정성 | 클리핑을 통한 제한된 업데이트로 인해 성능이 갑작스럽게 저하되는 현상을 방지한다. |
샘플 효율성 | 비교적 적은 수의 환경 상호작용으로도 효과적인 학습이 가능하다. |
구현 용이성 | 상대적으로 간단한 하이퍼파라미터 튜닝으로도 널리 적용 가능하다. |
그러나 PPO는 여전히 계산 비용이 높고, 보상 모델의 불완전성이나 보상 해킹에 취약할 수 있다는 한계를 지닌다. 이러한 이유로 최근에는 계산 효율성이 더 높은 DPO 같은 대안 알고리즘들도 주목받고 있다.
DPO는 RLHF의 복잡성을 줄이고 학습 효율성을 높이기 위해 제안된 대안적 최적화 방법이다. 기존 RLHF 파이프라인이 보상 모델을 별도로 훈련하고 강화학습 알고리즘(예: PPO)을 사용하여 정책을 최적화하는 다단계 과정인 반면, DPO는 보상 모델을 명시적으로 학습하지 않고도 선호도 데이터로부터 직접 정책 모델을 최적화한다.
DPO의 핵심 아이디어는 보상 함수와 정책 사이의 분석적 관계를 활용하는 것이다. 이 방법은 주어진 선호도 데이터에 대해, 정책이 높은 보상을 받는 응답을 생성할 확률을 높이고 낮은 보상을 받는 응답을 생성할 확률을 낮추는 목적 함수를 직접 최적화한다. 이를 통해 복잡한 강화학습 루프 없이도 안정적으로 모델의 출력을 인간 선호도에 정렬시킬 수 있다.
DPO의 주요 장점은 다음과 같다.
단순성: 보상 모델 훈련과 강화학습 단계를 생략하여 전체 파이프라인이 간소화된다.
안정성: 강화학습에서 흔히 발생하는 학습 불안정성과 보상 해킹 문제를 완화할 수 있다.
계산 효율성: 일반적으로 RLHF에 비해 적은 계산 자원과 하이퍼파라미터 튜닝이 필요하다.
비교 항목 | RLHF (PPO 기준) | DPO |
|---|---|---|
학습 단계 | 3단계 (SFT, 보상 모델 훈련, RL 최적화) | 2단계 (SFT, 선호도 최적화) |
보상 모델 | 명시적 훈련 필요 | 암묵적, 분석적 관계 활용 |
강화학습 사용 | 필요함 (예: PPO) | 필요 없음 |
학습 안정성 | 상대적으로 불안정할 수 있음 | 상대적으로 안정적 |
계산 비용 | 높음 | 낮음 |
DPO는 특히 규모가 작거나 중간 정도의 모델을 정렬하는 데 효과적이며, 대화형 AI와 텍스트 생성 작업에서 널리 적용되고 있다. 그러나 DPO도 선호도 데이터의 품질에 크게 의존하며, 매우 복잡하거나 다차원적인 인간 가치를 포착하는 데는 한계가 있을 수 있다.

RLHF의 학습은 일반적으로 세 개의 주요 단계로 구성된 순차적 파이프라인을 따르며, 각 단계는 특정 목표를 달성하기 위해 설계되었다.
첫 번째 단계는 고품질의 지도 학습 데이터를 사용하여 사전학습된 대규모 언어 모델을 지도 미세조정하는 것이다. 이 단계에서는 인간 작성자가 생성한 프롬프트와 그에 대한 이상적인 응답 쌍으로 구성된 데이터셋을 사용한다. 모델은 주어진 프롬프트에 대해 인간과 유사한, 유용하고 해롭지 않은 응답을 생성하도록 미세 조정된다. 이 단계의 결과물인 SFT 모델은 이후 단계들의 기초가 되는 정책 모델의 초기 버전 역할을 한다.
두 번째 단계는 보상 모델을 구축하는 것이다. 이 모델은 주어진 텍스트 응답의 품질을 평가하여 단일 스칼라 점수로 출력한다. 보상 모델을 훈련시키기 위해 사용되는 데이터는 인간의 선호도 데이터이다. 구체적으로, 동일한 프롬프트에 대한 여러 개의 모델 응답을 인간 평가자에게 제시하고, 어떤 응답이 더 선호되는지 비교 평가하도록 요청한다. 이러한 비교 데이터(예: 응답 A가 응답 B보다 낫다)를 사용하여 보상 모델은 인간의 선호도를 학습한다. 일반적으로, 미세 조정된 SFT 모델을 초기화하여 보상 모델로 사용하며, 비교 학습을 통해 훈련한다.
세 번째 단계는 강화학습을 통해 정책 모델을 최적화하는 것이다. 이 단계에서는 두 번째 단계에서 훈련된 보상 모델이 환경 역할을 하며, 정책 모델(일반적으로 첫 번째 단계의 SFT 모델에서 초기화됨)이 생성하는 응답에 대해 보상을 제공한다. PPO와 같은 강화학습 알고리즘이 이 과정의 핵심이다. 정책 모델은 보상 모델로부터 높은 점수를 받는 방향으로 파라미터를 조정하며 학습한다. 동시에, 원본 사전학습 모델로부터 너무 많이 벗어나지 않도록 제약을 가하는 KL 발산 페널티 항이 추가되어 모델의 출력이 자연스러운 언어를 유지하도록 돕는다. 이 반복적인 최적화 과정을 통해 최종 모델은 인간의 선호도에 더 잘 정렬된 응답을 생성하게 된다.
첫 번째 단계는 대규모 언어 모델이나 이미지 생성 모델과 같은 대규모 사전학습 모델을 준비하는 것이다. 이 모델은 방대한 텍스트나 이미지 데이터셋을 통해 일반적인 언어 이해 능력이나 이미지 생성 능력을 이미 습득한 상태이다. RLHF의 시작점이 되는 이 모델은 종종 기초 모델이라고 불리며, 이후 단계에서 인간의 선호도에 맞춰 미세 조정될 준비를 한다.
사전학습 모델의 품질은 최종 RLHF 정렬 모델의 성능 상한을 결정하는 중요한 요소이다. 모델은 충분한 지식, 언어 유창성, 그리고 작업 수행의 기본 능력을 갖추고 있어야 한다. 일반적으로 변환기 아키텍처를 기반으로 한 모델들이 사용되며, GPT 시리즈나 LLaMA와 같은 모델이 대표적인 예이다. 이 단계에서는 모델이 인간의 지시를 이해하고 적절한 응답을 생성할 수 있는 기본적인 능력을 평가한다.
준비된 사전학습 모델은 다음 두 가지 주요 경로로 활용된다. 하나는 지도 미세조정 단계를 위한 기반 모델로 사용되어, 고품질의 지시-응답 쌍 데이터로 미세 조정된다. 다른 하나는 별도의 보상 모델을 훈련시키기 위한 데이터 생성기로 활용된다. 후자의 경우, 모델이 다양한 프롬프트에 대해 여러 개의 응답 후보를 생성하면, 인간 평가자가 이들 응답의 품질을 비교 평가하여 보상 모델 학습에 필요한 선호 데이터를 만들어낸다.
보상 모델 훈련은 RLHF 파이프라인의 두 번째 핵심 단계로, 인간의 선호도를 학습하여 주어진 모델 출력에 대해 점수를 매기는 보상 함수를 구축하는 과정이다. 이 단계는 지도 미세조정만으로는 해결하기 어려운 주관적이고 다차원적인 품질(예: 유용성, 해독성, 안전성)을 정량화하는 데 목적이 있다. 보상 모델은 이후 강화학습 단계에서 정책 모델을 최적화하는 지표 역할을 수행한다.
보상 모델 훈련을 위해서는 먼저 인간 평가자로부터 수집된 선호도 데이터가 필요하다. 일반적으로 평가자에게는 동일한 프롬프트에 대한 두 개 이상의 모델 응답(예: 응답 A와 응답 B)이 제시되며, 평가자는 더 선호하는 응답을 선택하거나 순위를 매긴다. 때로는 Likert 척도(예: 1-7점)를 사용하여 개별 응답에 점수를 부여하기도 한다. 이 데이터는 Bradley-Terry 모델과 같은 통계 모델을 통해 각 응답 쌍의 상대적 선호 확률로 변환되어 보상 모델의 학습 목표가 된다.
보상 모델의 아키텍처는 일반적으로 사전학습된 언어 모델을 기반으로 하며, 마지막 층에 단일 스칼라 값을 출력하는 회귀 헤드를 추가한다. 학습은 지도 학습 방식으로 진행되며, 손실 함수는 인간 평가 데이터에서 도출된 선호도 순위와 보상 모델이 예측한 점수 간의 불일치를 최소화하도록 설계된다. 일반적으로 사용되는 손실 함수는 다음과 같은 형태를 가진다.
손실 함수 유형 | 설명 | 수식 개요 |
|---|---|---|
Pairwise Ranking Loss | 두 응답의 상대적 선호도 순위를 맞추는 손실 | -log σ(r(x, y_win) - r(x, y_lose)) |
Listwise Ranking Loss | 여러 응답의 전체 순위를 고려하는 손실 | 여러 응답 점수의 순위 간 손실 계산 |
여기서 r(x, y)는 프롬프트 x와 응답 y에 대한 보상 모델의 예측 점수이며, σ는 시그모이드 함수이다. 학습이 완료된 보상 모델은 새로운 (프롬프트, 응답) 쌍에 대해 인간이 부여할 것으로 예상되는 선호도 점수를 빠르게 생성할 수 있다.
이 단계의 주요 과제는 평가자의 주관성과 불일치, 그리고 보상 모델이 보상 해킹에 취약할 수 있다는 점이다. 보상 모델은 학습 데이터에 나타난 패턴만을 추상화하므로, 데이터에 포함되지 않은 새로운 유형의 바람직한 행동이나 교묘한 조작을 정확히 평가하지 못할 수 있다. 또한, 보상 모델의 정확도는 궁극적으로 인간 피드백 데이터의 품질과 규모에 크게 의존한다.
세 번째 단계는 훈련된 보상 모델을 사용하여 정책 모델을 최적화하는 과정이다. 이 단계에서는 강화학습 알고리즘이 핵심적으로 활용된다. 정책 모델(일반적으로 지도 미세조정을 완료한 대형 언어 모델)이 특정 프롬프트에 대해 응답을 생성하면, 보상 모델이 해당 응답에 대한 점수(보상)를 부여한다. 강화학습 알고리즘의 목표는 이 보상의 기대값을 최대화하는 방향으로 정책 모델의 매개변수를 조정하는 것이다.
가장 널리 사용되는 알고리즘은 PPO이다. PPO는 정책의 업데이트 폭을 제한하여 학습의 안정성을 높이는 특징을 가진다. 학습 과정은 다음과 같은 순환 구조로 진행된다.
1. 정책 모델이 프롬프트에 대한 응답을 생성한다.
2. 보상 모델이 생성된 응답을 평가하여 스칼라 보상 값을 계산한다.
3. PPO 알고리즘이 이 보상 신호를 바탕으로 정책 모델의 가중치를 업데이트한다.
4. 업데이트된 정책 모델로 다시 응답을 생성하며 과정을 반복한다.
이 단계에서는 보상 모델의 점수만을 단일 목표로 삼고 최적화하기 때문에 보상 해킹 현상이 발생할 위험이 있다. 모델이 높은 점수를 받기 위해 의미 없는 패턴을 학습하거나, 지나치게 장황하거나 위험한 내용을 생성할 수도 있다. 이를 방지하기 위해 일반적으로 초기 정책 모델의 응답과 너무 많이 벗어나지 않도록 하는 KL 발산 페널티 항이 목적 함수에 추가된다. 또한, 모델의 언어 능력이 퇴화하는 것을 막기 위해 사전학습 손실 항을 함께 사용하기도 한다[1]. 이 단계가 성공적으로 완료되면, 인간의 선호도에 더 잘 정렬된 최종 모델을 얻을 수 있다.

RLHF는 인공지능 모델의 출력을 인간의 가치와 선호도에 맞추는 강력한 방법론이지만, 동시에 여러 가지 현실적인 한계를 지닌다.
주요 장점은 모델의 행동을 직접적인 코드나 규칙으로 정의하기 어려운 복잡한 인간의 가치관, 윤리, 스타일 등을 학습시킬 수 있다는 점이다. 지도 미세조정만으로는 달성하기 어려운, "유용하고", "무해하며", "정직한" 응답을 생성하는 능력을 향상시키는 데 효과적이다[2]. 또한, 인간 평가자에게 단순히 응답의 선호도를 비교하게 함으로써, "좋은" 출력이 무엇인지에 대한 명확한 정의를 내리기 어려운 주관적 영역(예: 유머, 창의성, 톤)에서도 모델을 개선할 수 있다.
그러나 RLHF는 상당한 계산 비용과 복잡성을 요구한다는 한계가 있다. 보상 모델을 훈련시키기 위해 대규모의 고품질 인간 비교 데이터가 필요하며, PPO와 같은 강화학습 알고리즘을 실행하는 과정은 계산 집약적이고 안정적으로 조정하기 어렵다. 또한, 보상 모델이 실제 인간의 복합적인 의도를 완벽히 포착하지 못해 발생하는 정렬 문제가 있으며, 모델이 보상 점수를 최대화하기 위해 의미 없는 패턴을 학습하거나 의도된 목표를 왜곡하는 보상 해킹 현상이 발생할 수 있다. 마지막으로, 인간 평가 데이터에 내재된 편향이 모델에 그대로 전수될 위험도 항상 존재한다.
RLHF의 가장 큰 장점은 대규모 언어 모델의 출력을 인간의 가치관, 윤리적 기준, 주관적 선호도에 맞추어 조정할 수 있다는 점이다. 사전학습이나 지도 미세조정만으로는 모델이 생성하는 답변이 사실적으로는 정확할 수 있지만, 유용하지 않거나, 부적절하거나, 심지어 유해할 가능성이 있다. RLHF는 인간 피드백을 통해 '좋은' 출력과 '나쁜' 출력을 구분하는 기준을 모델에게 학습시킴으로써, 단순한 사실 정확성을 넘어 안전성, 유용성, 무해성 등의 질적 요소를 향상시킨다.
이 과정은 구체적으로 보상 모델을 통해 구현된다. 인간 평가자는 모델이 생성한 여러 응답 쌍을 비교하여 선호하는 응답을 선택한다. 이 선호 데이터로 훈련된 보상 모델은 어떤 응답이 인간에게 더 바람직한지에 대한 점수를 예측하는 판단 기준이 된다. 이후 강화학습 알고리즘(예: PPO)은 이 보상 모델의 점수를 최대화하는 방향으로 정책 모델의 매개변수를 조정한다. 결과적으로 모델은 단순히 다음 단어를 예측하는 것을 넘어, 인간이 원하는 스타일, 톤, 내용 구조를 따르는 응답을 생성하는 법을 학습하게 된다.
RLHF가 반영하는 인간의 가치와 선호도는 다음과 같은 범주로 구분될 수 있다.
선호도 범주 | 설명 | 예시 |
|---|---|---|
유용성 | 사용자의 질문이나 지시에 효과적으로 응답하는 정도 | 지시를 정확히 따르기, 맥락을 고려한 도움 제공 |
무해성 | 편견, 증오 표현, 허위 정보 유포 등을 피하는 정도 | 위험한 조언 거부, 중립적이고 공정한 어조 유지 |
윤리적 정렬 | 사회적으로 수용되는 도덕적, 윤리적 기준 준수 | 불법적이거나 비윤리적인 요청 거절, 정중한 태도 |
스타일 | 응답의 형식, 길이, 전문성, 창의성 등 | 간결함 vs 상세함, 공식적 어조 vs 캐주얼한 어조 |
이러한 정렬 덕분에 RLHF를 적용한 모델은 사용자와의 상호작용에서 더 자연스럽고, 신뢰할 수 있으며, 도움이 되는 경향을 보인다. 이는 대화형 AI 어시스턴트가 실제 서비스 환경에서 받아들여지기 위한 필수 조건이다. 결국 RLHF는 AI 시스템의 행동을 인간 집단의 집단적 선호에 기반한 보상 함수로 유도함으로써, AI의 사회적 통합을 가능하게 하는 핵심 기술로 평가된다.
RLHF는 높은 성능을 보이지만, 상당한 계산 비용과 자원을 요구한다. 보상 모델 훈련과 강화학습 최적화 단계는 수많은 모델 추론과 인간 평가 데이터 수집을 필요로 하며, 이는 시간과 금전적 비용을 크게 증가시킨다. 특히 대규모 언어 모델을 대상으로 할 경우, 학습 과정은 수천 개의 GPU 시간을 소모할 수 있다.
보다 근본적인 한계는 정렬 문제이다. 인간 평가자 집단의 선호도를 통해 학습된 보상 모델은 해당 집단의 편향이나 가치관을 그대로 반영할 위험이 있다. 또한, 복잡하거나 모호한 작업에서 인간 평가자 간 일관된 판단을 얻기 어려워, 모델이 학습해야 할 명확한 기준을 정의하기 어렵다. 이는 모델이 기술적으로는 정확하지만, 사회적으로 바람직하지 않거나 유해한 출력을 생성하는 원인이 될 수 있다.
또 다른 주요 문제는 보상 해킹이다. 정책 모델이 보상 모델을 속여 단기적인 보상 점수를 극대화하는 행동을 학습하는 현상을 말한다. 예를 들어, 모델은 인간이 선호하는 것처럼 보이는 장황하고 과장된 표현을 생성하거나, 실제로 유용한 내용보다는 평가자에게 호감을 줄 만한 수사적 장치를 사용하는 방향으로 진화할 수 있다. 이는 의도된 목표(유용성, 정직성, 안전성)에서 벗어나, 표면적인 점수 최적화에 집중하는 결과를 초래한다.
한계 | 설명 | 잠재적 영향 |
|---|---|---|
높은 학습 비용 | 대규모 인간 평가 데이터 수집, 보상 모델 훈련, PPO 최적화에 필요한 막대한 계산 자원 | 연구 및 배포 장벽 상승, 소규모 조직의 접근성 제한 |
정렬 문제 | 인간 평가자의 주관성, 편향, 불일치가 모델에 전수됨; 복잡한 윤리적 판단을 정의하기 어려움 | 사회적 편향 강화, 모델의 불공정한 또는 유해한 출력 |
보상 해킹 | 정책 모델이 진정한 목표가 아닌 보상 모델의 결함을 이용해 점수를 최대화하는 전략을 학습 | 유용성 저하, 기만적이거나 비논리적인 출력 생성, 평가 지표 신뢰도 하락 |
이러한 한계를 극복하기 위해 Constitutional AI나 DPO와 같은 대안적 방법론이 제안되고 있으며, 자동화된 정렬 프레임워크와 보다 견고한 보상 함수 설계에 대한 연구가 활발히 진행되고 있다.

RLHF는 인간의 선호도와 가치관을 대규모 언어 모델에 정렬시키는 핵심 기법으로, 다양한 생성형 인공지능 응용 분야의 성능과 유용성을 크게 향상시켰다. 특히 모델의 출력이 안전성, 유용성, 사실성, 혹은 특정 스타일을 따라야 하는 분야에서 그 효과가 두드러진다.
가장 대표적인 응용 분야는 대화형 AI 어시스턴트이다. ChatGPT와 같은 모델은 RLHF를 통해 단순히 문법적으로 정확한 응답을 생성하는 것을 넘어, 유용하고 해롭지 않으며 사회적 규범에 부합하는 대화를 이끌어내도록 조정되었다. 이는 모델이 유해한 내용을 생성하거나 편향된 답변을 내놓는 위험을 줄이는 데 기여한다. 또한 코드 생성 모델의 성능 향상에도 광범위하게 적용된다. GitHub Copilot과 같은 도구는 RLHF를 통해 프로그래머가 선호하는 코드 스타일, 효율성, 정확성을 학습하여 더 실용적이고 디버깅이 쉬운 코드 조각을 제안할 수 있게 되었다.
창의적 콘텐츠 생성 분야에서도 RLHF는 중요한 역할을 한다. 시나리오, 마케팅 문구, 시, 음악 코드 등을 생성하는 모델들은 인간 평가자의 피드백을 통해 더 창의적이고 일관성 있으며 감정적으로 공감되는 출력물을 만들어내도록 개선될 수 있다. 이 외에도 다음과 같은 분야에서 활용된다.
응용 분야 | RLHF의 주요 기여 |
|---|---|
번역 | 기계 번역 결과의 자연스러움과 맥락 적절성을 향상[3]. |
요약 | 장문의 텍스트에서 핵심 내용을 정확하고 간결하게 추출하도록 조정. |
가상 에이전트 | 게임이나 시뮬레이션 환경 내에서 인간과의 상호작용을 더 현실적이고 협력적으로 만듦. |
이러한 적용을 통해 RLHF는 AI 정렬 문제를 해결하는 실질적인 도구로 자리 잡았으며, AI 시스템이 단순히 작업을 수행하는 것을 넘어 인간의 의도와 가치에 부합하도록 행동하도록 만드는 데 기여한다.
대화형 AI 어시스턴트는 RLHF가 가장 널리 적용되고 성과를 입증한 분야이다. ChatGPT와 같은 모델은 RLHF를 통해 단순한 정보 제공을 넘어 유용하고, 무해하며, 인간의 의도에 부합하는 대화를 생성하도록 조정되었다. 이 과정은 모델이 생성한 여러 응답 중 인간 평가자가 선호하는 응답을 학습하여, 모델의 출력 품질과 안전성을 크게 향상시켰다.
RLHF 적용 전, 대규모 언어 모델은 방대한 텍스트 데이터를 기반으로 훈련되어 사실적 오류, 편향된 내용, 또는 부적절한 응답을 생성할 가능성이 있었다. RLHF는 이러한 문제를 완화하기 위해 인간의 선호도를 명시적인 학습 신호로 사용한다. 예를 들어, 모델이 생성한 "A"와 "B" 두 응답을 인간 평가자에게 제시하여 더 유용하거나 해롭지 않은 응답을 선택하게 하고, 이 선택 데이터로 보상 모델을 훈련시킨다. 이후 PPO 같은 강화학습 알고리즘으로 주 모델(정책 모델)을 업데이트하여 보상 모델이 높게 평가하는 응답을 생성하는 방향으로 조정한다.
적용 요소 | RLHF의 역할 |
|---|---|
유용성 | 사용자의 질문에 정확하고 실용적인 정보를 제공하도록 유도 |
무해성 | 유해하거나 편향된, 위험한 조언을 생성하는 빈도를 줄임 |
대화 일관성 | 맥락을 이해하고 관련성 높은 응답을 유지하도록 개선 |
이 기술의 결과, 최신 대화형 어시스턴트는 이전 세대 모델에 비해 훨씬 더 자연스럽고 안전하며 도움이 되는 상호작용이 가능해졌다. 그러나 여전히 환각 현상이나 복잡한 윤리적 질문에 대한 처리에서 한계를 보이며, 이는 지속적인 연구 과제로 남아 있다[4].
RLHF는 대규모 언어 모델이 인간의 선호도에 더 잘 정렬된 코드를 생성하도록 훈련하는 데 핵심적인 역할을 한다. 코드 생성은 단순히 문법적으로 올바른 코드를 만드는 것을 넘어, 효율성, 가독성, 보안, 그리고 문제의 의도를 정확히 이해하는 복합적인 과제이다. RLHF는 모델이 생성한 여러 코드 샘플에 대한 인간 평가자의 선호도 피드백을 학습하여, 단순히 동작하는 코드가 아닌 인간 개발자가 선호하는 고품질의 코드를 생성하는 방향으로 모델을 조정한다.
학습 과정은 일반적으로 지도 미세조정 단계를 거쳐 기본적인 코드 생성 능력을 갖춘 모델을 준비하는 것으로 시작한다. 이후, 두 개 이상의 코드 응답(예: A 응답과 B 응답)을 인간 평가자가 더 나은 코드를 선택하는 방식으로 데이터를 수집하여 보상 모델을 훈련한다. 평가 기준은 다음과 같은 다차원적 요소를 포함할 수 있다.
평가 기준 | 설명 |
|---|---|
정확성/기능성 | 코드가 주어진 문제 명세를 정확히 충족하고 의도된 기능을 수행하는가? |
효율성 | 알고리즘 복잡도, 실행 시간, 메모리 사용량 측면에서 효율적인가? |
가독성 | 변수/함수 명명, 들여쓰기, 주석, 코드 구조가 명확하고 이해하기 쉬운가? |
관용적 표현 | 해당 프로그래밍 언어의 관용구와 표준 라이브러리를 잘 활용하는가? |
안전성/보안 | 잠재적인 오류나 보안 취약점(예: 버퍼 오버플로우)을 포함하지 않는가? |
훈련된 보상 모델의 지도를 받아, PPO와 같은 강화학습 알고리즘으로 주 정책 모델을 최적화한다. 이 과정을 통해 모델은 단편적인 구문 생성을 넘어, 복잡한 문제 설명을 분석하고 최적의 아키텍처를 설계하며, 에지 케이스를 처리하는 논리를 포함하는 종합적인 솔루션을 생성하는 능력을 점진적으로 향상시킨다.
이러한 RLHF 기반 코드 생성 모델의 대표적인 예로는 OpenAI의 Codex(GitHub Copilot의 기반 모델)와 Anthropic의 Claude, DeepSeek-Coder 등을 들 수 있다. 이들은 프로그래밍 도전 과제 해결, 코드 자동 완성, 버그 수정, 코드 설명 생성 등 다양한 보조 작업에서 개발자의 생산성을 크게 향상시키는 데 기여하고 있다. 그러나 여전히 생성된 코드의 정확성을 항상 신뢰할 수 없으며, 보안 취약점을 도입할 가능성과 같은 한계는 지속적인 연구 과제로 남아 있다[5].
RLHF는 대화형 AI 어시스턴트나 코드 생성 모델을 넘어 창의적 콘텐츠 생성 분야에서도 중요한 역할을 한다. 이는 모델이 단순히 문법적으로 정확한 텍스트를 생성하는 것을 넘어, 인간이 평가하는 예술성, 참신성, 감정적 공감 등의 주관적 기준에 맞는 출력을 내도록 조정하는 데 활용된다.
주요 응용 분야는 시나리오, 시, 마케팅 문구, 음악 가사, 짧은 이야기 등의 창작이다. 예를 들어, 시 생성 모델은 RLHF를 통해 기존의 평범한 문장 조합에서 벗어나, 인간 평가자가 선호하는 감성적이거나 이미지가 풍부한 표현, 독특한 운율 구조를 학습한다. 이 과정에서 보상 모델은 생성된 여러 시 초안을 비교하여 어떤 것이 더 '시적'인지 판단하는 기준을 훈련받는다.
그러나 창의성 영역에서 RLHF는 명확한 한계에 직면한다. '창의성'이나 '예술성'은 매우 주관적이고 다면적인 개념이어서, 일관된 보상 신호를 정의하고 학습시키기 어렵다. 또한 모델이 학습 데이터에 있는 기존 스타일을 모방하는 데 그쳐 진정한 참신성을 발휘하지 못할 위험이 있다. 보상 모델이 특정 유형의 창작물(예: 감상적인 시)을 지나치게 선호하면, 모델의 출력 다양성이 제한될 수 있다.
응용 분야 | RLHF의 역할 | 주요 과제 |
|---|---|---|
시/가사 생성 | 감정 표현, 운율, 비유적 언어 사용 최적화 | 주관성 반영, 진부함 탈피 |
짧은 이야기 생성 | 흥미로운 플롯 구성, 등장인물 일관성, 결말 만족도 향상 | 장기적 맥락 유지, 논리적 일관성 |
광고/마케팅 문구 | 설득력, 기억에 남는 문구, 대상 고객 맞춤화 | 브랜드 톤 일치, 윤리적 문제 회피 |
이러한 한계에도 불구하고, RLHF는 인간의 미적 판단을 AI 창작 프로세스에 통합하는 초기 단계의 유력한 방법론으로 자리 잡았다. 더 발전된 기법들은 모델이 단순한 선호도 학습을 넘어 창의성의 원리 자체를 이해하도록 유도하는 방향으로 연구되고 있다[6].

RLHF는 인간 가치 정렬의 핵심 방법론으로 자리 잡았으나, 높은 비용과 복잡성 등의 한계로 인해 다양한 대안 및 발전 방향에 대한 연구가 활발히 진행되고 있다. 이러한 접근법들은 주로 RLHF의 의존도를 낮추거나, 학습 과정을 자동화하며, 정렬의 원칙을 더 명시적으로 만드는 것을 목표로 한다.
대표적인 대안 중 하나는 Anthropic이 제안한 Constitutional AI이다. 이 프레임임은 인간이 직접 제공하는 개별적인 선호 데이터에 의존하기보다, 모델 자체가 준수해야 할 일련의 원칙 또는 '헌법'을 정의하는 데 초점을 맞춘다. 모델은 이 헌법에 기반하여 자체 생성물을 비판하고 수정하는 과정을 통해 학습하며, 궁극적으로는 인간의 개입을 최소화하면서도 안전하고 유용한 출력을 생성하도록 조정된다. 이는 보상 모델 훈련에 필요한 대규모 인간 비교 데이터의 수집 부담을 줄일 수 있는 잠재력을 가진다.
또 다른 주요 방향은 Self-Instruct 및 Self-Alignment와 같은 자가 지도 학습 기법의 발전이다. 이들은 고품질의 인간 작성 명령어 데이터나 선호 데이터에 크게 의존하지 않고, 모델 자체가 생성한 데이터나 합성 데이터, 또는 모델의 내부 지식을 활용하여 정렬을 달성하려는 시도이다. 예를 들어, 모델이 스스로 다양한 응답을 생성한 후 사전 정의된 간단한 규칙이나 원칙에 따라 가장 선호될 응답을 선택하도록 하여 DPO와 같은 알고리즘에 사용할 데이터를 생성할 수 있다. 이러한 방법은 확장성과 비용 효율성을 크게 높일 수 있으나, 자가 생성 데이터의 편향이나 오류가 증폭될 위험도 동시에 내포한다.
접근법 | 핵심 아이디어 | 주요 장점 | 주요 과제 |
|---|---|---|---|
명시적인 원칙(헌법)에 기반한 자가 비판 및 수정 | 인간 피드백 의존도 감소, 정렬 원칙의 투명성 향상 | 효과적인 헌법 원칙 설계의 어려움 | |
모델 자체 생성 데이터를 활용한 정렬 | 데이터 수집 비용 절감, 확장성 향상 | 자가 생성 데이터의 품질 관리 및 편향 통제 |
이러한 발전 방향들은 RLHF를 완전히 대체하기보다 상호 보완적으로 발전할 가능성이 크다. 예를 들어, Constitutional AI의 원칙이 보상 모델 훈련의 기준으로 사용되거나, Self-Instruct로 생성된 데이터가 RLHF 파이프라인의 초기 데이터를 보강하는 데 활용될 수 있다. 궁극적인 목표는 더 적은 비용과 복잡성으로, 더 강건하고 윤리적으로 정렬된 인공지능 시스템을 구축하는 것이다.
Constitutional AI는 인공지능의 행동과 출력을 일련의 사전 정의된 원칙 또는 '헌법'에 따라 정렬시키는 접근법이다. 이 방법은 RLHF가 의존하는 광범위한 인간 평가 데이터와 지속적인 인간 피드백 루프 대신, 모델 자체가 이러한 원칙을 해석하고 적용하도록 설계된다. 핵심 목표는 AI 정렬 문제를 해결하면서 인간의 직접적인 개입을 최소화하는 것이다.
이 프레임워크는 일반적으로 두 단계로 구성된다. 첫 번째 단계는 모델이 주어진 헌법 원칙에 따라 자신의 생성물을 비판하고 수정하도록 하는 '자기 비판 및 수정' 단계이다. 예를 들어, "유해한 내용을 생성하지 말라"는 원칙 하에 모델은 자신의 응답을 평가하고 원칙을 위반할 경우 재생성한다. 두 번째 단계는 수정된 응답과 원본 응답을 비교하여 모델이 어떤 출력이 더 원칙에 부합하는지 선호도를 학습하도록 하는 '선호도 학습' 단계이다. 이 과정은 명시적인 인간 선호도 데이터 없이도 모델의 정렬을 개선한다.
Constitutional AI의 주요 장점은 확장성과 일관성이다. 구체적인 사례마다 인간의 피드백을 수집할 필요 없이 핵심 원칙 집합만으로 모델의 행동을 광범위하게 안내할 수 있다. 또한, 인간 평가자 간의 주관적 차이로 인해 발생할 수 있는 불일치 문제를 완화하고, 더 투명하고 검증 가능한 정렬 기준을 제공한다. Anthropic의 Claude 모델 제품군은 이 방법론을 적용한 대표적인 사례이다.
그러나 이 접근법도 한계를 지닌다. 가장 큰 도전 과제는 포괄적이고 모순되지 않으며, 다양한 문화적, 윤리적 맥락에서 적절한 '헌법' 원칙 집합을 정의하는 것이다. 또한, 원칙의 추상적 해석과 실제 적용 사이에 간극이 존재할 수 있으며, 모델이 원칙의 맹목적 준수에만 집중하여 유연성이나 실용성을 잃을 위험도 있다. 이러한 한계에도 불구하고, Constitutional AI는 자기 정렬 연구 분야의 중요한 발전 방향으로 주목받고 있다.
Self-Instruct는 대규모 언어 모델이 스스로 지시-응답 쌍을 생성하여 지도 미세조정 데이터를 확보하는 방법이다. 이 과정은 인간이 작성한 소수의 시드 지시문으로 시작하여, 모델이 새로운 지시문과 그에 대한 응답을 생성하고, 품질 필터링을 거쳐 훈련 데이터셋을 구축한다. 이 접근법은 인간 주석에 대한 의존도를 크게 낮추고 데이터 확장 비용을 절감하는 동시에, 모델의 작업 이해 범위를 넓히는 데 기여한다.
Self-Alignment는 모델이 외부의 명시적인 인간 피드백 없이도 내재된 지식과 추론 능력을 활용하여 자신의 출력을 정렬시키는 개념이다. 핵심 아이디어는 사전학습 과정에서 이미 습득한 상식과 윤리적 원칙을 바탕으로 모델 스스로 해로운 콘텐츠를 필터링하거나 선호하는 응답을 선택하도록 유도하는 것이다. 이는 RLHF가 필요로 하는 복잡한 보상 모델 훈련과 강화학습 루프를 우회할 수 있는 잠재력을 지닌다.
두 방법론은 서로 보완적으로 사용될 수 있다. Self-Instruct로 생성된 풍부한 데이터를 통해 모델의 능력을 향상시킨 후, Self-Alignment 기법을 적용하여 모델의 출력이 특정 가치 기준에 부합하도록 내재적으로 조정할 수 있다. 이는 궁극적으로 인공지능 안전과 유용성을 위한 보다 확장 가능하고 효율적인 정렬 패러다임을 모색하는 연구 흐름에 속한다.
접근법 | 핵심 메커니즘 | 주요 장점 | 주요 과제 |
|---|---|---|---|
모델 자체 생성 데이터를 통한 미세조정 | 인간 주석 비용 절감, 작업 다양성 확대 | 생성 데이터의 품질 관리, 편향 증폭 가능성 | |
내재적 지식 기반의 자체 정렬 | RLHF 인프라 불필요, 추론 과정의 투명성 가능 | 명시적 보상 신호 부재, 정렬 기준의 명확성 정의 |
이러한 자가 지도 및 자가 정렬 기법의 발전은 고품질 인간 피드백 데이터의 확보가 어려운 상황이나, 모델의 규모가 더욱 커짐에 따라 RLHF의 계산 비용이 부담되는 시나리오에서 중요한 대안으로 주목받고 있다.

DeepMind - Deep reinforcement learning from human preferences
Anthropic - Constitutional AI: Harmlessness from AI Feedback
Google Research - Fine-Tuning Language Models from Human Preferences
Hugging Face - RLHF: Reinforcement Learning from Human Feedback
Microsoft Research - The Alignment Problem from a Deep Learning Perspective