트랜스포머 (Transformer)

1. 개요

트랜스포머 (Transformer)는 2017년 구글 연구팀이 발표한 논문 "Attention Is All You Need"에서 제안된 심층 신경망 아키텍처이다. 이 모델은 자연어 처리를 비롯한 다양한 생성형 AI 분야의 패러다임을 바꾸는 핵심 기술로 자리 잡았다. 기존의 순환 신경망이나 합성곱 신경망에 의존하던 방식과 달리, 셀프 어텐션 메커니즘에 전적으로 기반하여 시퀀스 데이터를 처리한다.

트랜스포머의 가장 큰 특징은 입력 데이터 내 요소들 간의 관계를 병렬적으로 계산할 수 있다는 점이다. 이를 통해 장거리 의존성을 효과적으로 포착하고, 대규모 데이터에 대한 학습 효율을 극대화한다. 이 아키텍처는 기본적으로 인코더와 디코더 스택으로 구성되며, 포지셔널 인코딩을 통해 단어의 순서 정보를 유지한다.

초기에는 기계 번역 작업을 위해 개발되었으나, 그 유연성과 강력한 성능 덕분에 적용 범위가 빠르게 확장되었다. 현재는 GPT와 같은 대규모 언어 모델, BERT와 같은 양방향 표현 모델, 그리고 DALL-E나 CLIP 같은 멀티모달 모델의 기반이 되어 생성형 AI의 폭발적인 발전을 이끌고 있다.

2. 아키텍처 원리

트랜스포머 (Transformer)의 아키텍처는 순환 신경망이나 합성곱 신경망에 의존하지 않고, 오직 어텐션 메커니즘에 기반하여 설계되었다. 이는 입력 시퀀스를 한 번에 처리할 수 있어 병렬 계산이 가능하며, 장거리 의존성을 효과적으로 포착하는 데 핵심적인 역할을 한다. 전체 구조는 크게 인코더와 디코더 스택으로 구성되며, 각 스택은 동일한 구조의 레이어를 여러 층 쌓아 만든다.

가장 핵심적인 구성 요소는 셀프 어텐션 메커니즘이다. 이 메커니즘은 시퀀스 내의 각 단어(토큰)가 서로에게 얼마나 주의를 기울여야 하는지를 계산한다. 예를 들어, "그 동물은 길을 건너지 않았다. 왜냐하면 너무 피곤했기 때문이다"라는 문장에서, "피곤했기"라는 단어는 "동물은"보다 "그"와 더 강한 연관성을 가질 수 있다. 셀프 어텐션은 이러한 관계를 수학적으로 모델링하여, 각 단어의 새로운 표현(벡터)을 생성한다. 이 과정은 입력의 순서에 영향을 받지 않는다.

입력의 순서 정보를 모델에 제공하기 위해 포지셔널 인코딩이 사용된다. 각 토큰의 임베딩 벡터에 고유한 위치 정보를 담은 벡터를 더한다. 이 위치 벡터는 사인과 코사인 함수를 사용하여 생성되며, 모델이 토큰의 상대적 또는 절대적 위치를 이해하도록 돕는다. 인코더-디코더 구조에서는 인코더가 입력 시퀀스의 의미 있는 표현을 생성하고, 디코더는 이 표현을 참조하면서 한 번에 하나의 토큰을 생성하여 출력 시퀀스를 만들어낸다.

2.1. 셀프 어텐션 메커니즘

셀프 어텐션 메커니즘은 트랜스포머 (Transformer) 아키텍처의 가장 핵심적인 구성 요소이다. 이 메커니즘은 입력 시퀀스(예: 문장) 내의 모든 단어(토큰)가 서로 간의 관계를 직접 계산하여, 각 단어의 표현을 업데이트하는 방식을 제공한다. 기존의 순환 신경망이나 합성곱 신경망이 순차적 처리나 지역적 패턴에 의존했다면, 셀프 어텐션은 시퀀스 전체에 대한 전역적 의존성을 한 번의 연산으로 포착할 수 있다.

셀프 어텐션의 동작은 쿼리, 키, 밸류라는 세 가지 벡터 개념을 기반으로 한다. 입력 시퀀스의 각 단어는 세 가지 서로 다른 선형 변환을 통해 쿼리, 키, 밸류 벡터로 매핑된다. 그 후, 특정 단어의 쿼리 벡터는 시퀀스 내 모든 단어의 키 벡터와 내적 연산을 수행하여 어텐션 스코어를 계산한다. 이 스코어는 소프트맥스 함수를 통해 정규화되어 어텐션 가중치가 되며, 이 가중치를 모든 단어의 밸류 벡터에 곱하여 합산한다. 결과적으로 각 단어는 다른 모든 단어의 정보를 가중 평균한 새로운 표현을 얻게 된다.

개념	역할
쿼리	현재 집중하고자 하는 단어의 "질문"을 나타내는 벡터이다.
키	다른 단어들이 쿼리에 대해 "답변"할 수 있는 정보를 담은 벡터이다.
밸류	최종 출력에 실제로 기여할 정보를 담은 벡터이다.
어텐션 스코어	쿼리와 키의 유사도를 계산한 값으로, 가중치의 초기 형태이다.

이 과정은 수학적으로 행렬 연산으로 효율적으로 구현되며, 시퀀스 길이에 대해 이차 시간 복잡도를 가진다. 셀프 어텐션의 핵심 장점은 단어 간의 관계를 순서에 구애받지 않고 직접 모델링함으로써 장기 의존성 문제를 효과적으로 해결한다는 점이다. 예를 들어, "그 동물은 길을 건너지 않았다. 왜냐하면 너무 피곤했기 때문이다"라는 문장에서 "피곤했기"라는 단어와 "동물" 간의 관계를 멀리 떨어진 위치에도 불구하고 직접 연결 지을 수 있다. 이러한 능력은 트랜스포머 (Transformer)가 자연어 처리 및 다양한 생성 작업에서 뛰어난 성능을 보이는 기반이 된다.

2.2. 인코더-디코더 구조

트랜스포머 (Transformer) 아키텍처의 핵심은 인코더와 디코더라는 두 개의 주요 스택으로 구성된 비순차적 구조이다. 이 구조는 기존의 순환 신경망이나 합성곱 신경망을 대체하며, 특히 시퀀스-투-시퀀스 작업에 적합하게 설계되었다. 인코더는 입력 시퀀스(예: 원본 문장)의 표현을 생성하고, 디코더는 그 표현을 바탕으로 출력 시퀀스(예: 번역된 문장)를 생성한다.

인코더 스택은 동일한 구조의 레이어를 여러 층 쌓아 구성된다. 각 인코더 레이어는 멀티-헤드 어텐션 메커니즘과 피드포워드 신경망이라는 두 개의 하위 레이어를 포함하며, 각 하위 레이어 주위에는 레이어 정규화와 잔차 연결이 적용된다. 인코더의 주요 역할은 입력 시퀀스의 모든 단어(토큰) 간의 관계를 셀프 어텐션을 통해 포착하고, 이를 하나의 풍부한 문맥적 표현으로 변환하는 것이다. 최상위 인코더의 출력은 디코더에 전달되는 "문맥" 정보가 된다.

디코더 스택 또한 여러 개의 동일한 레이어로 구성되지만, 인코더보다 더 복잡한 구조를 가진다. 각 디코더 레이어는 세 개의 하위 레이어를 포함한다. 첫 번째는 마스크된 멀티-헤드 어텐션으로, 디코더가 출력을 생성할 때 미래의 단어를 보지 못하도록(즉, 왼쪽에서 오른쪽으로 순차적으로 생성하도록) 마스킹을 적용한다. 두 번째 하위 레이어는 인코더-디코더 어텐션으로, 디코더가 자신의 현재 상태와 인코더에서 온 전체 입력 문맥을 연결한다. 마지막으로 피드포워드 신경망이 위치한다. 디코더는 이전에 생성된 출력을 입력으로 받아, 인코더가 제공한 문맥을 참조하면서 다음 토큰을 예측하는 작업을 반복한다.

이 인코더-디코더 구조의 동작은 다음 표로 요약할 수 있다.

구성 요소	주요 입력	핵심 메커니즘	출력 역할
인코더 스택	원본 입력 시퀀스	셀프 어텐션	입력의 문맥적 표현(메모리) 생성
디코더 스택	1. 이전 출력 시퀀스 2. 인코더의 출력	1. 마스크드 셀프 어텐션 2. 인코더-디코더 어텐션	다음 토큰 예측을 통한 출력 시퀀스 생성

구성 요소

주요 입력

핵심 메커니즘

출력 역할

인코더 스택

원본 입력 시퀀스

셀프 어텐션

입력의 문맥적 표현(메모리) 생성

디코더 스택

1. 이전 출력 시퀀스

2. 인코더의 출력

1. 마스크드 셀프 어텐션

2. 인코더-디코더 어텐션

다음 토큰 예측을 통한 출력 시퀀스 생성

이 구조는 기계 번역, 텍스트 요약, 질문 답변과 같은 작업에서 뛰어난 성능을 보였으며, 이후 등장하는 BERT(인코더 전용)나 GPT(디코더 전용) 같은 변형 모델들의 기초를 제공했다.

2.3. 포지셔널 인코딩

트랜스포머 (Transformer)는 순환 신경망이나 합성곱 신경망과 달리 입력 데이터를 순차적으로 처리하지 않는다. 대신, 모든 입력 토큰을 한 번에 병렬 처리한다. 이는 계산 효율성을 크게 높이지만, 모델이 토큰의 순서 정보를 인식할 수 없다는 문제를 야기한다. 자연어에서 단어의 순서는 의미를 결정하는 핵심 요소이므로, 이 정보를 모델에 주입하기 위한 방법이 필요하다. 이를 해결하기 위해 도입된 기법이 포지셔널 인코딩이다.

포지셔널 인코딩은 각 입력 토큰의 위치(인덱스)에 대한 정보를 담은 고정된 또는 학습 가능한 벡터를 해당 토큰의 임베딩 벡터에 더해주는 방식으로 작동한다. 원래 Attention Is All You Need 논문에서는 사인(sin)과 코사인(cos) 함수를 사용한 고정된 인코딩 방식을 제안했다. 이 방식은 특정 주기를 가진 삼각함수를 사용하여 각 위치마다 고유한 패턴의 벡터를 생성한다. 이는 모델이 훈련 중에 본 적 없는 더 긴 시퀀스 길이에 대해서도 위치 정보를 일반화하여 추론할 수 있도록 돕는 장점이 있다.

위치 (pos)	차원 (i)	인코딩 값 계산 공식
짝수 차원	0, 2, 4, ...	PE(pos, 2i) = sin(pos / 10000^(2i/d_model))
홀수 차원	1, 3, 5, ...	PE(pos, 2i+1) = cos(pos / 10000^(2i/d_model))

다른 접근법으로는 학습 가능한 포지셔널 임베딩을 사용하는 방법도 있다. 이 경우, 모델은 각 위치마다 고유한 벡터를 임베딩 층에서 학습한다. 이 방식은 고정된 함수보다 유연할 수 있지만, 훈련 시 사용한 최대 시퀀스 길이를 넘어서는 위치를 처리하는 데 어려움이 있을 수 있다. 이후 등장한 BERT나 GPT와 같은 모델들은 주로 이 학습 가능한 방식을 채택했다.

결과적으로, 포지셔널 인코딩이 더해진 입력 벡터는 토큰의 의미 정보와 위치 정보를 모두 포함하게 된다. 이를 통해 트랜스포머의 셀프 어텐션 메커니즘은 토큰 간의 관계를 계산할 때, 단순히 내용의 유사성뿐만 아니라 상대적 또는 절대적 위치에 기반한 관계도 고려할 수 있게 된다. 이는 "나는 고양이를 좋아한다"와 "고양이는 나를 좋아한다"와 같이 단어는 같지만 순서에 따라 의미가 달라지는 문장을 정확히 이해하는 데 필수적이다.

3. 핵심 구성 요소

트랜스포머 (Transformer) 모델의 핵심 구성 요소는 멀티-헤드 어텐션, 피드포워드 신경망, 그리고 레이어 정규화와 잔차 연결로 이루어진다. 이 요소들은 각각 특화된 기능을 수행하며, 서로 결합되어 모델의 강력한 표현 능력을 만들어낸다.

멀티-헤드 어텐션은 모델이 입력 시퀀스의 서로 다른 부분 간 관계를 병렬적으로 학습하도록 설계된 메커니즘이다. 단일 셀프 어텐션 연산을 여러 개의 '헤드'로 분할하여 수행한다. 각 헤드는 독립적인 어텐션 가중치를 계산하여 서로 다른 유형의 문맥적 관계(예: 문법적, 의미적, 구문적 관계)에 집중할 수 있다. 이후 모든 헤드의 출력은 선형 변환을 통해 다시 결합된다. 이 구조는 단일 헤드 어텐션보다 풍부하고 다양한 표현을 학습하는 데 기여한다.

각 어텐션 레이어 뒤에는 피드포워드 신경망이 위치한다. 이는 각 토큰 위치마다 독립적으로 적용되는 완전 연결 신경망이다. 주로 두 개의 선형 변환과 그 사이의 ReLU와 같은 활성화 함수로 구성된다. 피드포워드 신경망의 주요 역할은 어텐션 메커니즘을 통해 얻은 문맥 정보를 비선형 변환하여 더 복잡한 패턴과 특징을 추출하는 것이다. 어텐션이 토큰 간 관계를 모델링한다면, 이 구성 요소는 개별 표현을 변환하고 강화한다.

트랜스포머의 학습 안정성과 깊은 네트워크 구축을 가능하게 하는 두 가지 중요한 기술은 레이어 정규화와 잔차 연결이다. 잔차 연결은 레이어의 입력을 그 출력에 직접 더하는 방식으로, 그래디언트 소실 문제를 완화하고 깊은 모델에서 정보의 원활한 흐름을 보장한다. 레이어 정규화는 각 레이어의 출력 활성값을 평균 0, 분산 1로 정규화하여 학습 과정을 안정화시킨다. 이 두 기술은 일반적으로 'Add & Norm' 블록으로 함께 사용된다. 트랜스포머의 인코더와 디코더는 이러한 핵심 구성 요소 블록을 여러 층으로 쌓아 구성된다.

3.1. 멀티-헤드 어텐션

멀티-헤드 어텐션은 트랜스포머 (Transformer) 아키텍처의 핵심 구성 요소로, 단일 셀프 어텐션 메커니즘을 병렬로 여러 개 적용하여 모델이 입력 시퀀스의 서로 다른 측면과 관계를 동시에 집중해 학습할 수 있게 합니다. 하나의 어텐션 헤드는 특정 종류의 정보(예: 문법적 관계, 의미적 관계)에 주목하는 경향이 있을 수 있지만, 여러 헤드를 사용하면 다양한 표현 공간에서 정보를 병렬로 수집할 수 있습니다. 이는 모델의 표현력을 크게 향상시키고, 단일 헤드 어텐션보다 더 풍부하고 정교한 문맥 표현을 가능하게 합니다.

멀티-헤드 어텐션의 작동 과정은 다음과 같습니다. 먼저, 입력 임베딩 벡터는 각 어텐션 헤드마다 독립적으로 학습된 선형 투영 계층을 통해 쿼리(Query), 키(Key), 값(Value) 행렬로 변환됩니다. 그 후, 각 헤드는 변환된 행렬을 사용하여 독립적인 스케일드 닷-프로덕트 어텐션을 계산합니다. 모든 헤드의 출력은 연결(Concatenate)된 후, 최종 선형 투영 계층을 통과하여 원하는 차원의 출력을 생성합니다. 이 과정은 모델이 서로 다른 위치의 정보를 다양한 관점에서 동시에 통합하도록 합니다.

멀티-헤드 어텐션의 주요 장점은 병렬 처리 능력과 표현의 다양성입니다. 각 헤드의 계산은 서로 독립적이므로 병렬 처리가 용이하여 학습 및 추론 속도를 높입니다. 또한, 여러 헤드가 협력함으로써 모델은 장거리 의존성을 포착하거나, 문장 내에서 대명사와 선행사의 관계를 해결하는 등 복잡한 패턴을 더 효과적으로 학습할 수 있습니다. 예를 들어, "그는 은행에 돈을 저축했지만, 강가의 은행에는 가지 않았다"라는 문장에서, 서로 다른 헤드는 '은행'이라는 단어의 다른 의미(금융 기관 vs. 강둑)에 주목하는 데 기여할 수 있습니다.

구성 요소	설명
헤드 수 (h)	병렬로 사용되는 어텐션 메커니즘의 개수입니다. 일반적으로 8개 또는 16개를 사용합니다.
헤드 차원 (d_k)	각 헤드에서 쿼리, 키, 값 벡터의 차원으로, 모델 차원(d_model)을 헤드 수로 나눈 값입니다.
선형 투영 계층	각 헤드마다 독립적인 쿼리, 키, 값 생성을 위한 가중치 행렬입니다.
연결 및 최종 투영	모든 헤드의 출력을 연결하고, 최종 선형 계층을 통해 통합 출력을 생성합니다.

이 구조는 트랜스포머 (Transformer)가 순환 신경망이나 합성곱 신경망에 비해 문맥 정보를 효과적으로 모델링할 수 있는 기반을 제공합니다. 멀티-헤드 어텐션은 이후 등장한 GPT나 BERT와 같은 대규모 사전 학습 모델의 성공에 결정적인 역할을 했습니다.

3.2. 피드포워드 신경망

트랜스포머 (Transformer) 아키텍처에서 피드포워드 신경망은 멀티-헤드 어텐션 레이어 다음에 위치하는 필수 구성 요소이다. 각 인코더와 디코더 블록 내에 독립적으로 존재하며, 어텐션 메커니즘으로 얻은 문맥 정보를 비선형적으로 변환하고 복잡한 패턴을 학습하는 역할을 담당한다. 이는 단순한 퍼셉트론의 확장 형태로, 한 레이어의 모든 뉴런이 다음 레이어의 모든 뉴런과 연결된 완전 연결 계층 구조를 가진다.

구체적으로, 트랜스포머의 피드포워드 신경망은 일반적으로 두 개의 선형 변환 계층과 그 사이에 활성화 함수로 ReLU를 사용한다. 첫 번째 선형 계층은 입력 차원을 더 높은 차원(예: 512차원을 2048차원으로)으로 확장하고, ReLU 함수를 적용한 후, 두 번째 선형 계층이 이를 다시 원래의 입력 차원으로 축소한다. 이 확장과 축소 과정은 모델이 더 풍부한 표현을 학습하도록 돕는다. 각 위치(토큰)에 대한 처리는 독립적이며 병렬로 수행될 수 있다.

이 구성은 어텐션 메커니즘과 상호 보완적인 기능을 한다. 어텐션은 시퀀스 내 토큰들 간의 관계와 의존성을 포착하는 반면, 피드포워드 네트워크는 각 개별 위치의 표현을 심화하고 변환한다. 즉, 어텐션이 '정보를 모으는' 작업이라면, 피드포워드 네트워크는 '정보를 처리하고 가공하는' 작업을 수행한다. 두 레이어가 번갈아가며 쌓임으로써 모델은 복잡한 언어적 또는 시각적 특징을 계층적으로 추출할 수 있다.

피드포워드 신경망의 매개변수는 모델 전체 파라미터의 상당 부분을 차지한다[1]. 이는 모델의 표현 능력과 용량에 직접적인 영향을 미치며, 다양한 생성형 AI 모델의 변형에서 이 부분의 크기나 구조를 조정하여 성능과 효율성을 균형시키는 경우가 많다.

3.3. 레이어 정규화와 잔차 연결

레이어 정규화는 신경망의 각 은닉층의 입력 또는 출력 분포를 안정화하는 기술이다. 구체적으로, 각 샘플의 특성 벡터에 대해 평균을 빼고 표준편차로 나누어 평균 0, 분산 1로 정규화한다. 이 과정은 학습 중에 발생할 수 있는 기울기 소실 또는 기울기 폭발 문제를 완화하고, 학습 속도를 가속화하며 모델의 일반화 성능을 향상시킨다. 트랜스포머에서는 일반적으로 멀티-헤드 어텐션 및 피드포워드 신경망 서브레이어의 *출력*에 적용되기 전에 수행된다.

잔차 연결은 입력을 특정 변환(예: 어텐션 또는 피드포워드 연산)의 출력에 직접 더하는 스킵 연결이다. 이는 심층 네트워크에서 정보의 직접적인 흐름 경로를 보존하여, 역전파 시 기울기가 더 쉽게 전파되도록 돕는다. 트랜스포머 아키텍처에서 각 주요 서브레이어(어텐션, 피드포워드)는 잔차 연결로 감싸져 있으며, 이는 LayerNorm(x + Sublayer(x))와 같은 형태로 구현된다. 여기서 Sublayer(x)는 해당 서브레이어의 변환을 나타낸다.

이 두 기술은 함께 작동하여 매우 깊은 트랜스포머 모델의 안정적인 학습을 가능하게 한다. 레이어 정규화가 활성화의 스케일을 조정하면, 잔차 연결은 원본 입력 정보를 보존하여 변환 과정에서 중요한 신호가 손실되는 것을 방지한다. 이 조합은 모델이 수십, 수백 개의 층으로 확장될 수 있는 기반을 제공한다.

다음은 트랜스포머 블록 내에서 레이어 정규화와 잔차 연결이 적용되는 일반적인 순서를 보여준다.

처리 단계	설명
1. 잔차 연결 입력	서브레이어(예: 어텐션)의 입력 `x`를 보존한다.
2. 서브레이어 처리	입력 `x`에 대해 멀티-헤드 어텐션 또는 피드포워드 연산을 수행하여 `Sublayer(x)`를 출력한다.
3. 잔차 합	원본 입력 `x`와 서브레이어 출력 `Sublayer(x)`를 더한다: `x + Sublayer(x)`.
4. 레이어 정규화	잔차 합의 결과에 레이어 정규화를 적용하여 최종 출력을 만든다.

4. 생성형 AI에서의 변형과 발전

트랜스포머 (Transformer) 아키텍처는 생성형 인공지능의 발전에 중추적인 역할을 했다. 초기 시퀀스 투 시퀀스 모델로 제안된 이후, 생성 작업의 특성에 맞춰 여러 주요 변형 아키텍처로 발전했다. 이러한 변형은 주로 인코더와 디코더 블록의 사용 방식에 차이를 두고 진화했다.

가장 대표적인 변형은 디코더 전용 아키텍처다. GPT 시리즈가 이 방식을 채택했으며, 언어 모델링을 통한 자기 지도 학습에 최적화되어 있다. 이 구조는 마스킹된 셀프 어텐션을 사용해 입력 시퀀스의 다음 토큰을 순차적으로 예측하는 방식으로 작동한다. 이는 텍스트 생성과 같은 자회귀적 생성 작업에 매우 효과적이어서, 대규모 언어 모델의 표준 설계로 자리 잡았다. 반면, T5나 BART와 같은 모델은 원래의 트랜스포머와 유사한 인코더-디코더 구조를 유지한다. 이 구조는 텍스트 요약, 번역, 질문 답변 등 입력을 받아 다른 형태의 출력을 생성하는 작업에 적합하다. 인코더가 입력 전체를 이해하고, 디코더가 그 컨텍스트를 바탕으로 새로운 시퀀스를 생성하는 방식이다.

최근에는 텍스트 영역을 넘어 멀티모달 생성 작업을 위해 트랜스포머가 확장되고 있다. DALL-E나 Stable Diffusion 같은 텍스트-이미지 생성 모델은 트랜스포머를 이미지 잠재 공간에서의 생성기로 활용한다. CLIP 모델은 이미지와 텍스트를 같은 임베딩 공간에 매핑하기 위해 트랜스포머 인코더를 양방향으로 사용하는 대표적인 예시다. 이처럼 트랜스포머는 단일 모달리티의 텍스트 생성에서 시작해, 다양한 데이터 형태를 이해하고 생성하는 통합된 신경망 백본으로 진화하고 있다.

4.1. 디코더 전용 아키텍처 (예: GPT)

트랜스포머 (Transformer) 아키텍처의 디코더 스택만을 활용한 모델 구조를 디코더 전용 아키텍처 또는 자회귀 모델이라고 부른다. 이 접근법은 OpenAI의 GPT (Generative Pre-trained Transformer) 시리즈에서 처음 대중화되었으며, 주로 텍스트 생성과 같은 순차적 생성 작업에 특화되어 있다.

기본적인 트랜스포머의 인코더-디코더 구조와 달리, 디코더 전용 모델은 인코더 블록을 완전히 제거한다. 남은 디코더 블록들도 수정되는데, 각 블록 내의 셀프 어텐션 메커니즘이 마스크드 셀프 어텐션으로 대체된다. 이 마스킹은 현재 생성 중인 토큰이 미래의 토큰 정보를 참조하는 것을 방지하여, 왼쪽에서 오른쪽으로 한 방향으로만 문맥을 참조하는 언어 모델링을 가능하게 한다[2]. 모델의 작동 방식은 간단하다. 주어진 시퀀스의 토큰들을 입력받아, 다음에 올 가장 가능성 높은 토큰을 예측하고, 이 예측된 토큰을 다시 입력 시퀀스에 추가하여 다음 토큰을 예측하는 과정을 반복한다.

이 아키텍처의 주요 장점은 구조의 단순성과 강력한 생성 능력이다. 방대한 양의 텍스트 데이터에 대한 대규모 사전 학습을 통해 세계 지식과 언어 패턴을 습득한 후, 프롬프트를 시작점으로 다양한 텍스트를 생성할 수 있다. GPT 시리즈의 성공 이후, 이 패러다임은 코드 생성, 대화 에이전트, 텍스트 요약 등 광범위한 생성 작업의 표준이 되었다. 그러나 단방향 문맥 이해라는 근본적 특성 때문에, 입력 문장 전체의 양방향 관계를 동시에 분석하는 데는 인코더-디코더 모델이나 인코더 전용 모델에 비해 제한이 있을 수 있다.

4.2. 인코더-디코더 모델 (예: T5, BART)

인코더-디코더 모델은 트랜스포머 (Transformer)의 원래 논문에서 제안된 완전한 구조를 유지하며, 입력 시퀀스를 처리하는 인코더와 출력 시퀀스를 생성하는 디코더로 구성된다. 이 구조는 입력과 출력이 다른 길이를 가질 수 있는 시퀀스 투 시퀀스 작업에 특히 적합하다. 텍스트 요약, 기계 번역, 질문 답변과 같은 작업에서 널리 사용되며, T5와 BART가 대표적인 예시이다.

T5는 "Text-To-Text Transfer Transformer"의 약자로, 모든 NLP 작업을 텍스트를 입력받아 텍스트를 출력하는 통일된 텍스트-투-텍스트 프레임워크로 재구성했다[3]. 예를 들어, 분류 작업은 클래스 레이블을 텍스트로, 번역 작업은 타겟 언어 문장을 출력하도록 구성된다. 이 모델은 대규모 C4 데이터셋으로 사전 학습되었으며, 다양한 다운스트림 작업에서 강력한 성능을 보인다.

BART는 BERT의 양방향 인코더와 GPT의 자기회귀적 디코더를 결합한 인코더-디코더 모델이다. 사전 학습 시 텍스트에 다양한 노이즈(예: 토큰 마스킹, 문장 순서 섞기, 문서 회전)를 추가한 후, 원본 텍스트를 재구성하도록 학습한다[4]. 이로 인해 텍스트 생성과 이해 작업 모두에 뛰어난 능력을 갖추게 되었으며, 요약과 같은 생성 작업에서 특히 두각을 나타낸다.

두 모델의 주요 차이점은 다음과 같다.

모델	사전 학습 목표	주요 특징	적합한 작업 예시
T5	갭 문장 복원 (Span Corruption)	모든 작업을 텍스트-투-텍스트로 통일	번역, 분류, 질문 답변, 요약
BART	손상된 문서 복원 (Denoising Autoencoder)	다양한 노이즈 함수 사용	텍스트 생성, 요약, 조건부 생성

이러한 인코더-디코더 모델들은 생성과 이해를 동시에 요구하는 복잡한 NLP 과제를 해결하는 데 기여하며, 트랜스포머 (Transformer) 아키텍처의 다양성을 보여준다.

4.3. 멀티모달 트랜스포머 (예: DALL-E, CLIP)

멀티모달 트랜스포머는 텍스트, 이미지, 음성 등 서로 다른 형태(모달리티)의 데이터를 통합적으로 처리하고 이해하도록 설계된 트랜스포머 아키텍처의 변형이다. 기존의 단일 모달리티 모델이 텍스트만 또는 이미지만 처리하는 데 집중했다면, 멀티모달 모델은 이러한 다양한 입력을 하나의 공통된 표현 공간으로 매핑하여 상호 간의 의미적 관계를 학습한다. 이는 인공지능이 인간처럼 여러 감각 정보를 종합하여 세계를 이해하는 방식에 한 걸음 더 가까워지는 것을 의미한다.

주요 접근 방식은 서로 다른 모달리티의 데이터를 트랜스포머가 처리할 수 있는 일련의 토큰 시퀀스로 변환하는 것이다. 예를 들어, OpenAI의 DALL-E는 텍스트 프롬프트를 입력받아 해당하는 이미지를 생성하는 모델이다. 이 모델은 텍스트와 이미지를 모두 바이트 페어 인코딩을 통해 토큰화하여 하나의 통합된 데이터 스트림으로 처리한다. 반면, CLIP은 대조 학습 방식을 사용하여 수억 개의 (이미지, 텍스트 설명) 쌍으로 학습한다. CLIP의 인코더는 이미지와 해당 텍스트 설명이 임베딩 공간에서 서로 가깝게, 무관한 쌍은 멀리 위치하도록 학습하여, 이미지 분류나 검색 시 텍스트 질의에 대한 시각적 이해가 가능해지게 한다[5].

이러한 모델들의 등장과 발전은 생성형 인공지능의 범위를 크게 확장시켰다. 아래 표는 대표적인 멀티모달 트랜스포머 모델과 그 특징을 보여준다.

모델 이름	주요 개발사	주요 기능	핵심 특징
DALL-E / DALL-E 2	OpenAI	텍스트로부터 이미지 생성	디퓨전 모델과 트랜스포머 결합, 창의적이고 정교한 이미지 생성
CLIP	OpenAI	이미지-텍스트 연관 학습	대조 학습을 통한 공통 임베딩 공간 학습, 제로샷 분류 가능
Flamingo	DeepMind	이미지/비디오에 대한 텍스트 응답 생성	사전 학습된 언어 모델과 시각 인코더를 결합한 few-shot 학습
BEiT-3	Microsoft	통합 비전-언어 모델	마스킹 이미지 모델링 등 다양한 사전 학습 태스크 사용

멀티모달 트랜스포머의 발전은 이미지 생성, 제로샷 학습, 시각적 질의응답 등 다양한 분야에 혁신을 가져왔다. 그러나 여전히 다른 모달리티 간의 깊은 의미 정합성을 유지하는 것, 편향된 데이터로 인한 문제, 그리고 막대한 계산 자원 요구사항은 해결해야 할 중요한 과제로 남아 있다.

5. 학습 방법과 데이터

트랜스포머 (Transformer) 모델의 성능은 대규모 데이터에 대한 효과적인 학습 방법에 크게 의존한다. 핵심 학습 패러다임은 대규모 사전 학습과 미세 조정의 2단계 구조를 따른다. 먼저, 위키백과, 도서, 웹페이지 등으로 구성된 방대한 텍스트 코퍼스에 대해 모델을 사전 학습시킨다. 이 단계에서는 다음 단어 예측이나 문장 내 가려진 단어 복원과 같은 자기 지도 학습 작업을 통해 언어의 일반적인 통계적 패턴과 세계 지식을 습득한다. 이렇게 얻은 모델은 특정 작업에 맞춰 추가로 미세 조정된다.

사전 학습의 주요 방법은 지도 학습과 자기 지도 학습으로 구분된다. 전통적인 지도 학습은 입력과 정답 레이블이 쌍을 이루는 데이터가 필요하지만, 방대한 양의 레이블된 데이터를 구축하는 것은 비용이 많이 든다. 따라서 트랜스포머 기반 생성형 AI에서는 레이블이 필요 없는 텍스트 자체로부터 학습 목표를 생성하는 자기 지도 학습이 핵심이다. 대표적인 예로 언어 모델링 작업이 있으며, GPT 시리즈는 다음 토큰을 예측하는 방식으로, BERT는 문장에서 무작위로 마스킹된 토큰을 예측하는 방식으로 학습한다.

모델을 실제 작업에 적용하기 위해서는 프롬프트 엔지니어링과 미세 조정 기법이 사용된다. 프롬프트 엔지니어링은 모델의 입력에 지시문이나 몇 가지 예시(퓨샷 학습)를 추가하여 원하는 출력을 유도하는 기법이다. 이는 모델의 가중치를 변경하지 않고도 성능을 끌어낼 수 있다는 장점이 있다. 반면, 미세 조정은 특정 작업(예: 감정 분석, 기계 번역)을 위한 소규모 레이블 데이터셋으로 사전 학습된 모델의 매개변수를 추가로 업데이트하는 과정이다. 이를 통해 모델은 일반적인 언어 이해에서 특정 작업에 특화된 성능으로 전환된다.

학습 단계	주요 방법	설명	예시 모델/기법
사전 학습	자기 지도 학습	레이블 없이 대규모 텍스트에서 학습 목표 생성	언어 모델링(GPT), 마스크드 언어 모델링(BERT)
적응/활용	프롬프트 엔지니어링	모델 가중치 변경 없이 입력 지시문으로 출력 제어	제로샷/퓨샷 학습, 프롬프트 템플릿
적응/활용	미세 조정	작업별 소량 레이블 데이터로 모델 매개변수 추가 학습	분류, 생성, 요약 등 특정 작업에 대한 학습

5.1. 대규모 사전 학습

대규모 사전 학습은 트랜스포머 (Transformer) 기반 생성형 AI 모델의 핵심 학습 패러다임이다. 이는 방대한 양의 일반적인 데이터(주로 인터넷 텍스트)를 사용해 모델을 초기 학습시키는 과정을 의미한다. 사전 학습의 목표는 언어의 통계적 패턴, 문법, 사실 지식, 추론 능력 등을 포괄적으로 습득하는 일반적인 언어 모델을 구축하는 것이다. 이 단계에서는 특정 작업에 대한 명시적인 레이블이 필요 없는 자기 지도 학습 방식, 예를 들어 다음 단어 예측이나 마스킹된 단어 복원 등의 목표 함수가 주로 사용된다.

사전 학습의 규모는 모델의 성능에 결정적인 영향을 미친다. 더 많은 매개변수(규모)와 더 많은 토큰(데이터)으로 학습할수록 모델의 능력이 비선형적으로 향상되는 현상인 스케일링 법칙이 관찰된다[6]. 이에 따라 GPT-3나 PaLM과 같은 최신 모델들은 수천억 개의 매개변수와 수조 개의 토큰으로 구성된 데이터셋을 사용해 학습된다. 이러한 대규모 학습은 막대한 계산 자원을 필요로 하며, 전문적인 AI 가속기 클러스터를 통해 수주에서 수개월에 걸쳐 진행된다.

학습 단계	목표	사용 데이터	학습 방식
사전 학습	일반적인 언어 이해 및 생성 능력 획득	대규모 일반 텍스트 코퍼스 (웹페이지, 책, 기사 등)	자기 지도 학습 (예: 언어 모델링)
미세 조정	특정 작업 또는 지시에 맞춘 성능 최적화	작업별 지도 학습 데이터 또는 지시-응답 쌍	지도 학습 또는 지시 튜닝
추론	학습된 모델을 실제 작업에 적용	사용자 입력 (프롬프트)	매개변수 고정, 생성 수행

대규모 사전 학습을 마친 모델은 다양한 하위 작업에 적용 가능한 풍부한 지식 기반을 갖추게 된다. 이후 특정 작업(예: 감정 분석, 질문 답변)이나 인간의 지시를 따르는 행위에 맞추어 미세 조정이나 지시 튜닝을 통해 비교적 적은 데이터와 계산으로 추가 학습된다. 이 2단계 접근법(사전 학습 후 미세 조정)은 각 작업을 처음부터 학습하는 것보다 훨씬 효율적이며, 강력한 일반화 능력을 제공하는 현재 생성형 AI의 표준 방법론이 되었다.

5.2. 지도 학습 vs. 자기 지도 학습

트랜스포머 (Transformer) 모델의 학습은 주로 대규모 사전 학습을 통해 이루어지며, 이 과정에서 지도 학습과 자기 지도 학습이라는 두 가지 주요 패러다임이 활용된다. 전통적인 지도 학습은 입력 데이터와 그에 대응하는 정답 레이블(라벨)이 쌍을 이루는 데이터셋이 필요하다. 예를 들어, 감정 분석 작업에서는 "이 영화는 최고다"라는 문장과 "긍정"이라는 라벨이 한 쌍을 이룬다. 모델은 이러한 수많은 예시 쌍을 학습하여 입력과 출력 사이의 매핑 관계를 배운다. 그러나 대규모 언어 모델을 위해 모든 가능한 언어 작업에 대해 이러한 정교한 라벨이 붙은 데이터를 수집하고 정제하는 것은 실질적으로 불가능에 가깝다.

이러한 한계를 극복하기 위해 트랜스포머 기반 생성형 AI의 핵심 학습 방법으로 자기 지도 학습이 등장했다. 자기 지도 학습은 사전에 준비된 라벨이 없는 방대한 원시 텍스트 데이터(예: 웹페이지, 책, 기사)로부터 모델 스스로 학습 과제를 생성하는 방식이다. 가장 대표적인 방법은 언어 모델링이다. 모델은 문장의 일부 단어를 가린 뒤(마스킹), 주변 문맥을 바탕으로 가려진 단어를 예측하도록 학습한다[7]. 또는 다음 단어 예측 작업을 통해, 주어진 단어 시퀀스 이후에 올 가장 그럴듯한 단어를 예측하도록 학습한다[8]. 이렇게 생성된 과제는 데이터 자체에서 유래하므로, 별도의 인력에 의한 라벨링 없이도 무한히 많은 학습 샘플을 만들어낼 수 있다.

다음 표는 두 학습 방식의 주요 특징을 비교한다.

특성	지도 학습	자기 지도 학습
데이터 요구사항	명시적인 입력-출력 라벨 쌍 필요	라벨이 없는 원시 데이터만 필요
과제 생성 방식	인간에 의해 정의된 특정 작업(예: 분류, 번역)	데이터의 내재적 구조에서 자동 생성된 과제(예: 빈칸 채우기, 다음 단어 예측)
주요 활용 단계	사전 학습된 모델의 미세 조정 단계	대규모 사전 학습 단계
일반화 능력	학습된 특정 작업에 뛰어남	다양한 하류 작업으로의 전이가 용이한 일반적 표현 학습

실제 트랜스포머 모델 개발 파이프라인에서는 두 방식이 결합되어 사용된다. 첫 번째 단계에서는 위키피디아, 도서 코퍼스, 웹 크롤링 데이터와 같은 테라바이트 규모의 원시 텍스트를 이용해 자기 지도 학습 방식으로 모델에 언어에 대한 일반적인 지식과 문맥 이해력을 주입한다. 이후 두 번째 단계에서 특정 작업(예: 친절한 챗봇 응답 생성, 법률 문서 분석)에 맞춰 상대적으로 소량의 지도 학습 데이터로 모델을 미세 조정한다. 이 접근법은 라벨 데이터 구축 비용을 획기적으로 줄이면서도 강력한 모델 성능을 가능하게 하는 핵심 동력이다.

5.3. 프롬프트 엔지니어링과 미세 조정

프롬프트 엔지니어링은 사전 학습된 대규모 언어 모델(LLM)이 특정 작업을 수행하도록 유도하기 위해 사용자의 입력(프롬프트)을 설계하는 기술이다. 이는 모델의 내부 가중치를 변경하지 않고, 모델의 출력을 제어하는 방법으로, 제로샷 학습이나 퓨샷 학습을 가능하게 한다. 효과적인 프롬프트는 작업 설명, 예시, 출력 형식 지시 등을 포함하여 모델이 맥락을 정확히 이해하도록 돕는다. 예를 들어, 번역 작업에서는 "다음 영어 문장을 한국어로 번역해라:"와 같은 명시적 지시를 추가한다.

미세 조정은 사전 학습된 모델을 특정 작업이나 도메인에 맞추어 추가로 학습시키는 과정이다. 이는 비교적 소량의 레이블이 지정된 데이터셋을 사용하여 모델의 파라미터를 업데이트한다. 미세 조정은 모델이 특정 스타일(예: 법률 문서), 특정 작업(예: 감정 분석), 또는 특정 데이터 분포에 더욱 특화된 성능을 발휘하도록 만든다. 이는 일반적인 지식을 가진 범용 모델을 특정 목적에 맞는 전문가 모델로 변환하는 핵심 단계이다.

두 방법은 상호 보완적이며, 다음과 같은 차이점이 있다.

특성	프롬프트 엔지니어링	미세 조정
모델 변경	모델 파라미터를 변경하지 않음	모델 파라미터를 업데이트함
필요 데이터	레이블 데이터가 필수는 아님	작업별 레이블 데이터가 필요함
적응 속도	즉시 적용 가능	추가 학습 시간 필요
주요 목적	모델의 기존 지식을 활용/유도	모델을 새로운 작업/도메인에 특화시킴
자원 소모	상대적으로 적은 계산 자원	추가적인 계산 자원(예: GPU) 필요

실제 응용에서는 먼저 프롬프트 엔지니어링으로 모델의 성능을 시험해보고, 더 높은 정확도나 특화가 필요할 경우 미세 조정을 적용하는 접근법이 일반적이다. 특히 파라미터 효율적 미세 조정 기법들의 발전으로, 전체 모델을 재학습하는 대신 소수의 파라미터만 조정하는 효율적인 미세 조정이 가능해졌다[9].

6. 주요 응용 분야

트랜스포머 (Transformer) 아키텍처는 생성형 AI의 핵심 엔진으로 작동하며, 자연어 처리부터 멀티모달 생성에 이르기까지 광범위한 응용 분야를 혁신했다. 그 유연한 구조와 강력한 표현 능력 덕분에 텍스트, 코드, 이미지, 음성 등 다양한 형태의 콘텐츠를 생성하고 변환하는 데 활용된다.

텍스트 생성 및 요약 분야에서는 가장 두드러진 성과를 보인다. GPT 시리즈와 같은 대규모 언어 모델은 기사 작성, 시 창작, 대화형 챗봇, 마케팅 문구 생성 등 창의적인 텍스트 생성을 가능하게 한다. 동시에 BART나 T5 같은 모델은 문서 요약, 질문 답변, 텍스트 간략화 작업에서 높은 정확도를 보인다. 기계 번역 또한 트랜스포머의 등장 이후 품질이 비약적으로 향상되었다.

코드 생성 및 번역은 소프트웨어 공학 분야에 큰 변화를 가져왔다. GitHub Copilot과 같은 도구는 트랜스포머 기반 모델이 프로그래머의 주석이나 함수명을 분석해 전체 코드 블록을 제안하거나, 한 프로그래밍 언어를 다른 언어로 변환하는 데 사용된다. 이는 개발 생산성을 획기적으로 높이고, 초보자의 학습 장벽을 낮추는 효과가 있다.

이미지 및 음성 생성 분야에서는 멀티모달 트랜스포머가 활약한다. DALL-E, Stable Diffusion 같은 모델은 텍스트 설명(프롬프트)을 입력받아 사실적이거나 예술적인 이미지를 생성한다. 음성 분야에서는 텍스트를 자연스러운 음성으로 합성하는 TTS 시스템이나, 음성을 다른 언어의 음성으로 직접 변환하는 작업에 적용된다. 아래 표는 주요 응용 분야와 대표 모델을 정리한 것이다.

응용 분야	주요 작업 예시	대표 모델/시스템 예시
텍스트 생성	대화, 창작, 번역	GPT-4, ChatGPT, Google 번역
텍스트 요약 및 이해	문서 요약, 질의응답	BART, T5
코드 처리	코드 자동 완성, 언어 간 번역	Codex, AlphaCode
이미지 생성	텍스트-to-이미지, 이미지 편집	DALL-E, Imagen, Stable Diffusion
음성 처리	텍스트-to-음성, 음성 번역	Whisper, VALL-E

이러한 응용들은 단일 모달리티를 넘어 결합되는 추세다. 예를 들어, 이미지를 설명하는 텍스트를 생성하거나, 음성 명령으로 코드를 작성하는 등 멀티모달 작업으로 확장되며, 트랜스포머는 이러한 융합의 중심 플랫폼 역할을 한다.

6.1. 텍스트 생성 및 요약

트랜스포머 (Transformer) 아키텍처는 생성형 AI의 핵심으로, 텍스트 생성과 요약 분야에서 혁신적인 성능을 보여준다. 이 모델들은 방대한 텍스트 데이터를 사전 학습하여 인간과 유사한 수준의 글쓰기, 대화, 정보 압축 능력을 획득한다. GPT 시리즈와 같은 디코더 전용 모델은 주로 텍스트 생성에 특화되어 있으며, T5나 BART와 같은 인코더-디코더 모델은 텍스트 요약과 같은 변환 작업에 강점을 가진다.

텍스트 생성 작업에서는 모델이 주어진 프롬프트나 맥락을 바탕으로 다음 단어를 순차적으로 예측하여 문장, 이야기, 시, 코드, 보고서 등을 완성한다. 이 과정은 자기 회귀적 방식으로 이루어지며, 모델의 창의성과 일관성을 제어하기 위해 탐색 샘플링이나 빔 서치와 같은 다양한 디코딩 전략이 사용된다. 요약 작업에서는 긴 문서를 입력받아 핵심 정보를 보존한 짧은 텍스트로 압축한다. 추출적 요약은 원문에서 중요한 문장을 직접 발췌하는 반면, 생성적 요약은 원문의 의미를 이해하고 새로운 문장으로 재구성한다. 트랜스포머 기반 모델은 주로 생성적 요약에 뛰어난 성능을 보인다.

작업 유형	주요 모델 예시	설명
텍스트 생성	GPT-3, GPT-4, LaMDA	프롬프트에 이어지는 자연스러운 텍스트를 생성. 창의적 글쓰기, 채팅봇, 아이디어 구상에 활용.
추출적 요약	BERT 기반 모델	원본 문서에서 핵심 문장을 식별하고 순위를 매겨 발췌.
생성적 요약	T5, BART, PEGASUS	원문의 의미를 파악하여 새로운 문장으로 요약문을 생성. 뉴스 기사 요약, 논문 초록 작성에 적합.

이러한 응용은 대규모 언어 모델의 등장으로 실용화 수준에 도달했다. 모델은 특정 도메인의 데이터로 미세 조정되거나, 프롬프트 엔지니어링을 통해 별도의 재학습 없이도 다양한 생성 및 요약 과제를 수행할 수 있다. 그러나 생성된 텍스트의 사실성 검증, 원본 정보의 왜곡 가능성, 그리고 사회적 편향의 재생산과 같은 한계는 여전히 중요한 연구 과제로 남아 있다.

6.2. 코드 생성 및 번역

트랜스포머 (Transformer) 아키텍처는 자연어 처리를 넘어 프로그래밍 언어의 이해와 생성에도 혁신을 가져왔다. 이 모델들은 방대한 양의 공개 소스 코드 데이터를 학습하여 코드의 문법과 의미를 파악하고, 자연어 설명으로부터 코드를 생성하거나 한 프로그래밍 언어를 다른 언어로 변환하는 작업을 수행한다. 이러한 능력은 소프트웨어 개발의 보조 도구로서 개발자의 생산성을 높이는 데 기여한다.

코드 생성의 대표적인 예는 GitHub Copilot과 같은 도구이다. 이는 GPT (Generative Pre-trained Transformer) 모델을 기반으로 하여, 개발자가 작성 중인 코드의 컨텍스트나 주석으로 된 자연어 설명을 입력받아 적절한 함수나 코드 블록을 제안한다. 예를 들어, "리스트를 정렬하는 함수"라는 설명을 통해 해당 언어에 맞는 정렬 알고리즘 코드를 생성할 수 있다. 코드 번역 작업에서는 C++, Python, Java 등 다양한 언어 간의 변환을 수행한다. 이는 레거시 코드의 현대화나 플랫폼 간 이식성을 높이는 데 활용된다.

작업 유형	설명	예시 모델/도구
코드 생성	자연어 설명이나 부분 코드를 기반으로 완전한 코드 생성	Codex, GitHub Copilot, AlphaCode
코드 번역	한 프로그래밍 언어의 코드를 다른 언어의 동등한 코드로 변환	TransCoder
코드 요약	주어진 코드의 기능을 자연어로 설명	CodeT5
코드 디버깅	코드의 오류를 찾아내고 수정 제안	연구 단계의 다양한 모델

이러한 모델들은 여전히 한계를 지닌다. 생성된 코드가 문법적으로는 정확할지라도 논리적 오류가 있을 수 있으며, 보안 취약점을 포함할 가능성도 있다. 또한, 매우 복잡하거나 특정 도메인에 국한된 문제를 해결하는 데는 한계를 보인다. 따라서 생성된 코드는 개발자의 검토와 테스트를 거쳐야 한다.

6.3. 이미지 및 음성 생성

트랜스포머 (Transformer) 아키텍처는 본래 자연어 처리를 위해 설계되었으나, 그 유연한 구조 덕분에 이미지 생성 및 음성 생성 분야로도 성공적으로 확장되었다. 이러한 확장은 멀티모달 트랜스포머의 발전과 함께, 텍스트, 이미지, 음성을 통합적으로 이해하고 생성하는 새로운 가능성을 열었다.

이미지 생성 분야에서는 디퓨전 모델과 트랜스포머가 결합된 DALL-E와 Stable Diffusion 같은 모델이 대표적이다. 이 모델들은 텍스트 프롬프트를 입력받아 고품질의 이미지를 생성한다. 핵심 원리는 텍스트 임베딩을 생성하고, 이를 노이즈 제거 과정을 통해 점진적으로 이미지로 변환하는 것이다. 이 과정에서 트랜스포머는 텍스트 설명과 이미지 패치(또는 잠재 표현) 간의 복잡한 관계를 셀프 어텐션 메커니즘으로 모델링하여 일관성 있는 시각적 콘텐츠를 만들어낸다[10].

음성 생성 분야에서는 오디오 LM과 음성 합성 모델이 트랜스포머를 활용한다. 자연어 텍스트를 입력받아 인간의 목소리와 유사한 음성 신호를 생성하는 TTS 시스템이 대표적이다. 최신 모델들은 원시 오디오 파형을 디스크리트 토큰의 시퀀스로 변환한 후, 트랜스포머를 사용해 이 시퀀스를 예측하는 방식으로 작동한다. 이는 음성의 억양, 감정, 발화 스타일까지 세밀하게 제어할 수 있게 한다. 또한, 뮤직 생성이나 효과음 생성과 같은 창의적인 오디오 생성 작업에도 적용된다.

생성 유형	대표 모델/접근법	주요 입력	핵심 기술
이미지 생성	DALL-E, Imagen, Stable Diffusion	텍스트 설명	디퓨전 프로세스, Vision Transformer
음성 합성 (TTS)	VALL-E, YourTTS	텍스트	신경망 음성 코덱, 자기회귀적 디코딩
일반 오디오 생성	[[Jukebox (AI)	Jukebox]], AudioLM	텍스트 또는 음악 설명

이러한 발전은 생성형 AI의 범위를 텍스트를 넘어 시각 및 청각 영역으로 넓혔으며, 콘텐츠 제작, 예술, 엔터테인먼트, 접근성 기술 등 다양한 분야에 혁신적인 영향을 미치고 있다.

7. 장점과 한계

트랜스포머 아키텍처는 순환 신경망이나 합성곱 신경망에 비해 몇 가지 뚜렷한 장점을 보여준다. 가장 큰 장점은 셀프 어텐션 메커니즘을 통해 입력 시퀀스의 모든 요소 간 관계를 병렬로 계산할 수 있다는 점이다. 이는 RNN이 가진 순차적 처리의 한계를 극복하여 대규모 데이터에 대한 학습 속도를 획기적으로 높였고, 모델의 확장성을 크게 향상시켰다. 또한, 어텐션 가중치를 통해 장거리 의존성을 직접적으로 포착할 수 있어, 긴 문장이나 문서에서도 문맥 정보를 효과적으로 유지한다.

그러나 이러한 강력한 성능에는 상당한 대가가 따른다. 트랜스포머의 핵심 연산인 어텐션 메커니즘의 계산 복잡도는 시퀀스 길이의 제곱에 비례하여 증가한다. 이는 매우 긴 시퀀스(예: 긴 문서나 고해상도 이미지)를 처리할 때 메모리 사용량과 계산 시간을 폭발적으로 증가시키는 주요 원인이 된다. 또한, 대규모 모델을 학습시키기 위해서는 방대한 양의 텍스트 데이터와 수만 개의 GPU를 활용한 고강도 연산이 필요하며, 이는 막대한 전력 소비와 탄소 배출을 동반한다.

트랜스포머의 또 다른 한계는 본질적으로 자기 지도 학습에 의존한다는 점에서 기인한다. 모델은 데이터의 통계적 패턴을 학습할 뿐, 실제 세계에 대한 이해나 상식을 내재화하지는 않는다. 이로 인해 학습 데이터에 존재하는 편향을 그대로 재생산하거나, 사실적으로 보이지만 내용이 틀린 환각 현상을 생성할 수 있다. 모델의 결정 과정이 블랙박스에 가까워 해석이 어렵다는 점도 중요한 과제로 남아 있다.

장점	한계
병렬 처리로 인한 높은 학습 효율성	시퀀스 길이 제곱에 비례하는 계산 복잡도
장거리 의존성 효과적 포착	대규모 학습에 따른 막대한 계산 비용 및 환경 영향
모듈식 설계로 인한 높은 확장성	학습 데이터 편향의 재생산 및 환각 현상
다양한 도메인(텍스트, 이미지, 음성) 적용 가능	내부 결정 논리의 낮은 해석 가능성

이러한 장점과 한계는 트랜스포머 기반 모델의 설계와 적용 방향을 결정하는 핵심 요소이다. 효율적인 어텐션 알고리즘 개발, 모델 경량화 기술, 에너지 효율적인 하드웨어 활용 등은 현재 활발히 연구 중인 분야이다.

7.1. 병렬 처리와 확장성

트랜스포머 (Transformer) 아키텍처의 가장 큰 강점은 순환 신경망이나 합성곱 신경망에 비해 뛰어난 병렬 처리 능력에 있다. RNN은 입력 시퀀스를 순차적으로 처리해야 하므로 긴 시퀀스에서 학습과 추론 속도가 느려지는 근본적인 한계가 있었다. 반면, 트랜스포머의 셀프 어텐션 메커니즘은 입력 시퀀스의 모든 토큰 쌍 간의 관계를 한 번에 계산할 수 있어, 현대의 GPU나 TPU와 같은 병렬 가속 하드웨어에서 매우 효율적으로 실행된다. 이는 특히 대규모 데이터셋으로 모델을 학습시킬 때 학습 시간을 획기적으로 단축시키는 요인으로 작용한다.

이러한 병렬 처리 효율성은 모델의 확장성을 크게 향상시켰다. 연구자들은 더 많은 매개변수와 더 큰 데이터로 모델을 키울수록 성능이 예측 가능하게 향상되는 확장 법칙을 발견했다. 결과적으로 모델 크기와 데이터 규모를 극단적으로 늘리는 방향으로 발전이 이루어졌으며, 이는 수백억乃至수조 개의 매개변수를 가진 초대규모 언어 모델의 등장을 가능하게 했다. 아래 표는 트랜스포머 기반 모델의 확장 추이를 보여준다.

모델 (출시 연도)	매개변수 규모	주요 특징
GPT-3 (2020)	약 1750억 개	디코더 전용 구조, Few-shot 학습 가능
Gopher (2021)	약 2800억 개	다양한 도메인 지식 강화
Megatron-Turing NLG (2021)	약 5300억 개	분산 학습 최적화
PaLM (2022)	약 5400억 개	Pathways 시스템을 이용한 효율적 학습

그러나 이러한 확장에는 도전 과제도 따른다. 모델 규모가 커질수록 필요한 계산 자원과 에너지 소비는 기하급수적으로 증가한다. 대규모 모델의 학습은 수천 개의 고성능 가속기를 수주일 동안 가동시켜야 하며, 이는 상당한 경제적 비용과 환경적 영향을 초래한다[11]. 따라서 최근 연구는 동일한 성능을 유지하면서 모델 크기나 계산량을 줄이는 모델 압축, 효율적인 어텐션 메커니즘 개발, 또는 혼합 전문가 모델과 같은 효율적인 아키텍처 탐구에 집중하고 있다.

7.2. 장기 의존성 문제 해결

순환 신경망과 장단기 메모리 같은 이전 시퀀스 모델은 순차적으로 정보를 처리해야 했기 때문에, 입력 시퀀스가 길어질수록 먼 위치에 있는 정보 간의 관계를 학습하는 데 어려움을 겪었다. 이를 장기 의존성 문제라고 한다. 트랜스포머는 셀프 어텐션 메커니즘을 도입하여 이 문제를 근본적으로 해결했다.

셀프 어텐션은 시퀀스 내 모든 단어 쌍 간의 관계를 직접 계산한다. 예를 들어, "그 동물은 길을 건너지 않았다. 왜냐하면 너무 피곤했기 때문이다."라는 문장에서 "피곤했기"라는 단어와 "동물"이라는 단어 사이의 연결을 이해하려면 장기 의존성을 포착해야 한다. 트랜스포머는 한 번의 어텐션 계산으로 시퀀스의 모든 위치에 대한 정보에 동시에 접근할 수 있으므로, 문장의 처음과 끝에 있는 단어 간의 관계도 직접적으로 모델링할 수 있다[12].

이 접근법의 효과는 다음과 같은 표로 요약할 수 있다.

모델 유형	정보 흐름 경로	장기 의존성 학습 난이도
순환 신경망 (RNN)	순차적, 단계별	높음 (경로 길이가 길어짐)
[[트랜스포머 (Transformer)	트랜스포머]]	직접적, 병렬적

결과적으로, 트랜스포머 아키텍처는 매우 긴 텍스트, 문서, 또는 코드 시퀀스에서도 먼 거리에 있는 요소 간의 의미적 연결을 효과적으로 포착할 수 있다. 이 능력은 텍스트 생성, 기계 번역, 문서 요약과 같은 생성형 AI 작업의 성능을 크게 향상시키는 기반이 되었다.

7.3. 계산 비용과 환경 영향

트랜스포머 모델, 특히 대규모 언어 모델의 학습과 추론은 막대한 계산 자원을 소모하며, 이는 상당한 환경적 영향을 동반합니다. 학습에는 수천 개의 고성능 GPU나 TPU가 수주에서 수개월 동안 동원되며, 이 과정에서 발생하는 전력 소비는 거대합니다. 예를 들어, GPT-3와 같은 모델의 단일 학습 과정은 수백 메가와트시(MWh) 규모의 전력을 소비하는 것으로 추정되며[13], 이는 수십 가구가 1년간 사용하는 에너지에 해당합니다.

이러한 계산 비용은 모델의 규모가 커짐에 따라 기하급수적으로 증가합니다. 모델 파라미터 수, 학습 데이터 크기, 학습 반복 횟수는 모두 비용에 직접적인 영향을 미치는 주요 요소입니다. 이는 연구와 개발을 대규모 자본을 보유한 기관에 집중시키는 결과를 낳으며, 개방적이고 민주적인 AI 연구에 장벽이 될 수 있습니다.

환경적 영향은 주로 전력 소비에서 비롯된 탄소 배출량으로 측정됩니다. 데이터센터의 위치와 사용된 전력의 원천(재생 에너지 vs. 화석 연료)에 따라 탄소 발자국은 크게 달라집니다. 이에 대한 대응으로, 일부 연구 기관과 기업은 에너지 효율이 높은 하드웨어를 사용하거나, 재생 에너지로 운영되는 데이터센터를 활용하며, 불필요한 계산을 줄이는 알고리즘 효율화 연구에 투자하고 있습니다.

계산 비용 문제를 완화하기 위한 기술적 접근법도 활발히 연구되고 있습니다. 모델 압축, 양자화, 전이 학습, 효율적 어텐션 메커니즘 등은 더 작은 모델이나 더 적은 계산으로 유사한 성능을 달성하려는 시도입니다. 그러나 근본적으로 모델 성능과 계산 효율성 사이의 트레이드오프 관계는 지속적인 도전 과제로 남아 있습니다.

8. 향후 전망과 도전 과제

트랜스포머 (Transformer) 아키텍처는 생성형 인공지능의 핵심 엔진으로 자리 잡았으며, 그 발전은 모델 규모의 확대와 새로운 응용 분야의 개척을 중심으로 진행되고 있다. 향후 전망은 초대규모 언어 모델의 한계를 극복하는 효율적인 학습 방법, 멀티모달성의 심화, 그리고 실제 세계와의 안전한 상호작용을 위한 연구에 집중될 것으로 보인다. 모델의 매개변수 규모는 계속해서 증가할 수 있으나, 이를 지탱하기 위한 연산 자원과 에너지 소비는 주요 제약 조건으로 작용한다. 따라서 더 적은 데이터와 계산량으로 높은 성능을 내는 효율적인 모델 구조와 학습 알고리즘의 개발이 중요한 도전 과제가 된다.

주요 도전 과제 중 하나는 모델의 환각 현상을 줄이고 사실적 정확성을 높이는 것이다. 현재의 대형 언어 모델은 설득력 있지만 사실과 다른 내용을 생성할 수 있으며, 이는 신뢰성 있는 정보 시스템으로의 적용을 방해한다. 이를 해결하기 위해 외부 지식 베이스와의 실시간 연결, 생성 과정의 검증 가능성 향상, 그리고 더 정교한 사전 학습 목표에 대한 연구가 활발히 진행 중이다. 또한, 모델의 윤리와 편향 문제는 기술적 발전만큼 중요한 사회적 도전 과제로 남아 있다. 학습 데이터에 내재된 사회적 편향이 모델 출력에 반영되는 것을 방지하고, 모델의 의사결정 과정을 설명 가능하게 만드는 기술이 필요하다.

멀티모달 분야에서는 텍스트, 이미지, 음성, 비디오, 3D 데이터를 자유자재로 이해하고 생성하는 통합 인공지능 에이전트로의 발전이 예상된다. 이는 단순한 생성 작업을 넘어 복잡한 환경에서 계획을 수립하고 행동을 취할 수 있는 능력을 요구한다. 이를 위해서는 트랜스포머가 시공간 정보와 물리적 상식을 효과적으로 처리할 수 있도록 아키텍처가 진화해야 한다. 한편, 개인화와 특정 도메인 적응을 위한 경량화 및 미세 조정 기술은 생성형 AI의 일상적 보급을 촉진할 것이다.

전망 분야	주요 내용	관련 도전 과제
효율성 향상	모델 압축, 희소 모델, 새로운 어텐션 메커니즘	계산 비용 절감, 에너지 소모 최적화
신뢰성 강화	사실 기반 생성, 환각 감소, 설명 가능 AI	외부 지식 통합, 생성 과정의 검증
멀티모달 통합	텍스트-이미지-음성-행동 통합 에이전트	시공간 이해, 물리적 상습 학습
사회적 안전	윤리 가이드라인, 편향 제어, 오용 방지	공정한 알고리즘, 투명한 거버넌스

궁극적으로 트랜스포머의 미래는 단순한 기술적 진보를 넘어, 인간과 협력하며 창의성을 증진하고 복잡한 문제를 해결하는 도구로 자리매김하는 데 있다. 이를 위해서는 기술 개발자, 정책 입안자, 사회학자, 윤리학자 간의 지속적인 대화와 협력이 필수적이다.

트랜스포머 (Transformer)

이름	트랜스포머 (Transformer)
분류	생성형 AI 모델 아키텍처
제안 연도	2017년
제안 논문	"Attention Is All You Need"
핵심 메커니즘	셀프 어텐션 (Self-Attention)
주요 응용 분야	자연어 처리, 대규모 언어 모델, 이미지 생성, 음성 인식
기술 상세 정보
주요 저자	Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin
아키텍처 구성	인코더(Encoder), 디코더(Decoder), 멀티 헤드 어텐션, 피드포워드 신경망, 위치 인코딩
기존 모델 대비 장점	병렬 처리 가능, 장기 의존성(Long-range Dependency) 학습 효과적, 순환 신경망(RNN)의 한계 극복
파생 모델 예시	BERT, GPT 시리즈, T5, Vision Transformer (ViT)
학습 방식	지도 학습, 자기 지도 학습, 전이 학습
입력/출력	시퀀스 데이터 (예: 텍스트 토큰, 이미지 패치)
주요 활용 제품/서비스	ChatGPT, Google Bard, DALL-E, 번역기, 요약 시스템
영향	생성형 AI 혁명의 기반 기술, 대규모 파운데이션 모델 발전 촉진

트랜스포머 (Transformer)

이름	트랜스포머 (Transformer)
분류	생성형 AI 모델 아키텍처
제안 연도	2017년
제안 논문	"Attention Is All You Need"
핵심 메커니즘	셀프 어텐션 (Self-Attention)
주요 응용 분야	자연어 처리, 대규모 언어 모델, 이미지 생성, 음성 인식
기술 상세 정보
주요 저자	Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin
아키텍처 구성	인코더(Encoder), 디코더(Decoder), 멀티 헤드 어텐션, 피드포워드 신경망, 위치 인코딩
기존 모델 대비 장점	병렬 처리 가능, 장기 의존성(Long-range Dependency) 학습 효과적, 순환 신경망(RNN)의 한계 극복
파생 모델 예시	BERT, GPT 시리즈, T5, Vision Transformer (ViT)
학습 방식	지도 학습, 자기 지도 학습, 전이 학습
입력/출력	시퀀스 데이터 (예: 텍스트 토큰, 이미지 패치)
주요 활용 제품/서비스	ChatGPT, Google Bard, DALL-E, 번역기, 요약 시스템
영향	생성형 AI 혁명의 기반 기술, 대규모 파운데이션 모델 발전 촉진