트랜스포머 아키텍처

1. 개요

트랜스포머 아키텍처는 2017년 구글 연구팀의 논문 "Attention Is All You Need"에서 처음 소개된 신경망 아키텍처이다. 이 아키텍처는 순환 신경망(RNN)이나 합성곱 신경망(CNN)에 의존하지 않고, 오직 어텐션 메커니즘만을 핵심 구성 요소로 사용하여 시퀀스 데이터를 처리한다. 이 혁신적인 접근법은 자연어 처리 분야에서 기존 모델들의 성능을 크게 능가하는 결과를 보여주었다.

트랜스포머의 가장 큰 특징은 병렬 처리가 가능한 구조라는 점이다. RNN이 순차적으로 데이터를 처리해야 하는 한계를 극복하고, 입력 시퀀스의 모든 요소를 동시에 처리할 수 있게 한다. 이를 통해 대규모 데이터에 대한 학습 속도가 획기적으로 향상되었고, 훨씬 더 긴 문맥 의존성을 효과적으로 포착할 수 있게 되었다.

이 아키텍처는 기본적으로 인코더와 디코더 스택으로 구성된다. 인코더는 입력 데이터를 의미 있는 표현으로 압축하고, 디코더는 이 표현을 바탕으로 목표 출력을 생성한다. 각 인코더와 디코더 레이어는 셀프 어텐션 메커니즘과 피드포워드 신경망이라는 두 개의 주요 하위 레이어를 포함한다.

트랜스포머 아키텍처의 등장 이후, BERT, GPT 시리즈와 같은 혁신적인 모델들이 파생되어 발전했다. 이 모델들은 다양한 언어 이해 및 생성 과제에서 State-of-the-art(SOTA) 성능을 기록하며, 인공지능 연구의 새로운 패러다임을 열었다. 현재 트랜스포머는 자연어 처리를 넘어 컴퓨터 비전과 멀티모달 학습 등 다양한 분야로 그 적용 범위를 확장하고 있다.

2. 핵심 구성 요소

어텐션 메커니즘은 트랜스포머 아키텍처의 가장 핵심적인 구성 요소이다. 이 메커니즘은 입력 시퀀스의 모든 요소 간의 관계를 동시에 계산하여, 특정 단어를 처리할 때 문장 내 다른 모든 단어의 중요도를 반영한다. 특히 셀프 어텐션은 단일 시퀀스 내부에서 이러한 관계를 계산하는 방식으로, 단어의 의미가 주변 문맥에 따라 어떻게 변하는지를 효과적으로 포착한다. 어텐션은 쿼리, 키, 값의 세 가지 요소로 구성되며, 이를 통해 모델은 관련 정보에 '주의'를 기울인다.

입력 토큰의 순서 정보를 제공하기 위해 포지셔널 인코딩이 사용된다. 트랜스포머는 순환 신경망이나 합성곱 신경망과 달리 고정된 입력을 처리하므로, 토큰의 상대적 또는 절대적 위치를 임베딩 벡터에 직접 더하는 방식으로 위치 정보를 주입한다. 일반적으로 사인과 코사인 함수를 사용한 고정된 인코딩 방식을 적용하거나, 학습 가능한 위치 임베딩을 사용하기도 한다.

각 어텐션 레이어 이후에는 피드포워드 신경망이 적용된다. 이는 각 위치(토큰)별로 독립적으로 작동하는 완전 연결 층으로, 어텐션을 통해 얻은 표현에 비선형 변환을 추가하여 모델의 복잡한 패턴 학습 능력을 향상시킨다. 이 층은 일반적으로 두 개의 선형 변환과 그 사이의 활성화 함수(예: ReLU)로 구성된다.

아키텍처의 학습 안정성과 깊은 네트워크 구축을 위해 레이어 정규화와 잔차 연결이 필수적으로 사용된다. 잔차 연결은 입력을 레이어의 출력에 직접 더하는 방식으로, 그래디언트 소실 문제를 완화하고 정보의 직접적인 흐름을 가능하게 한다. 레이어 정규화는 이 잔차 블록 내에서 활성화 값의 평균과 분산을 정규화하여 학습 과정을 안정화시킨다. 이 두 기술은 트랜스포머가 수십, 수백 개의 레이어로 구성된 매우 깊은 모델을 효과적으로 학습할 수 있는 기반을 제공한다.

2.1. 어텐션 메커니즘

어텐션 메커니즘은 트랜스포머 아키텍처의 가장 핵심적인 구성 요소로, 입력 시퀀스 내 요소들 간의 관계와 상대적 중요도를 동적으로 계산하는 역할을 한다. 기존의 순환 신경망이나 합성곱 신경망이 순차적 처리나 지역적 패턴에 의존한 반면, 어텐션은 시퀀스의 모든 위치에 있는 정보에 직접 접근할 수 있게 한다. 이 메커니즘은 특히 장기 의존성 문제를 효과적으로 해결하며, 모델이 문맥을 이해하는 데 결정적인 기여를 한다.

어텐션의 기본 연산은 쿼리, 키, 값의 세 가지 요소로 구성된다. 주어진 쿼리 벡터에 대해 모든 키 벡터와의 유사도를 계산하고, 이 유사도를 가중치로 사용하여 값 벡터들의 가중합을 구한다. 트랜스포머에서는 주로 스케일드 닷-프로덕트 어텐션을 사용하며, 그 계산 과정은 다음과 같다.

단계	설명	수식 (요약)
1. 유사도 계산	쿼리(Q)와 모든 키(K)의 내적을 통해 유사도를 구한다.	Q·K^T
2. 스케일링	내적 값을 키 벡터 차원의 제곱근으로 나누어 기울기 소실 문제를 완화한다.	(Q·K^T) / √d_k
3. 소프트맥스 적용	유사도에 소프트맥스 함수를 적용해 가중치(어텐션 가중치)를 얻는다.	softmax( (Q·K^T) / √d_k )
4. 가중합 계산	얻은 가중치를 값(V) 벡터에 곱해 가중합을 구한다. 최종 출력이 된다.	Attention(Q,K,V) = softmax( (Q·K^T) / √d_k ) V

트랜스포머는 단일 어텐션 메커니즘 대신 멀티헤드 어텐션을 채용한다. 이는 모델이 서로 다른 표현 부분공간에서 병렬적으로 정보를 집중할 수 있게 한다. 여러 개의 어텐션 헤드가 독립적으로 연산을 수행한 후, 그 결과들을 연결하고 선형 변환을 통해 최종 출력을 생성한다. 이를 통해 모델은 한 단어와 관련된 다양한 유형의 관계(예: 문법적, 의미적 관계)를 동시에 포착할 수 있다[1].

2.2. 포지셔널 인코딩

트랜스포머 아키텍처는 순환 신경망이나 합성곱 신경망과 달리 입력 데이터의 순서 정보를 내재적으로 처리하지 않는다. 이는 셀프 어텐션 메커니즘이 순서에 무관하게 작동하기 때문이다. 따라서 모델이 토큰의 상대적 또는 절대적 위치를 이해할 수 있도록 위치 정보를 명시적으로 주입하는 과정이 필요하다. 이 역할을 담당하는 것이 포지셔널 인코딩이다.

포지셔널 인코딩은 일반적으로 입력 임베딩 벡터에 더해지는 고정된 크기의 벡터로 구현된다. 원 논문에서는 사인(sin)과 코사인(cos) 함수를 사용한 고정된 방식의 인코딩을 제안했다. 이 방식은 특정 주기를 가진 삼각함수의 조합으로 각 토큰의 위치를 고유한 벡터로 표현한다. 짝수 차원에는 사인 함수를, 홀수 차원에는 코사인 함수를 적용하여 인코딩을 생성한다. 이 방법의 장점은 모델이 학습 중에 본 적 없는 길이의 시퀀스에 대해서도 위치 정보를 외삽할 수 있다는 점이다.

학습 가능한 포지셔널 임베딩은 또 다른 일반적인 접근법이다. 이 방법에서는 각 위치 인덱스에 대해 하나의 벡터를 학습 가능한 매개변수로 정의한다. 모델은 학습 데이터를 통해 이러한 위치 벡터의 값을 최적화한다. 이 방식은 고정된 삼각함수 방식보다 유연할 수 있지만, 학습 시 관찰된 최대 시퀀스 길이를 넘어서는 위치를 일반화하기 어려울 수 있다.

포지셔널 인코딩의 효과는 시퀀스 내 토큰 간의 관계를 이해하는 데 필수적이다. "그녀가 공원에 간 다음, 아이스크림을 샀다"라는 문장에서 '다음'이라는 단어의 의미는 '간'과 '샀다'라는 동사의 순서에 의존한다. 포지셔널 인코딩이 없다면, 트랜스포머는 이러한 순차적 관계를 인식할 수 없게 된다. 이후 연구에서는 상대적 위치 인코딩[2]이나 로테이셔널 포지셔널 임베딩(RoPE)[3]과 같은 다양한 변형 기법도 제안되었다.

2.3. 피드포워드 신경망

트랜스포머 아키텍처의 각 어텐션 및 레이어 정규화 서브레이어 뒤에는 피드포워드 신경망 서브레이어가 위치한다. 이 층은 각 토큰의 위치별로 독립적으로 적용되며, 주로 비선형성을 도입하고 어텐션 메커니즘의 출력을 변환하는 역할을 담당한다.

피드포워드 신경망은 일반적으로 두 개의 선형 변환 층과 그 사이에 활성화 함수로 구성된다. 첫 번째 선형 층은 입력 차원을 더 높은 내부 차원으로 확장하고, ReLU나 GELU와 같은 활성화 함수를 적용한다. 이후 두 번째 선형 층은 이를 다시 원래의 모델 차원으로 축소한다. 이 구조는 모델이 각 토큰 표현에 대해 복잡한 변환과 패턴을 학습할 수 있는 능력을 부여한다.

표준 트랜스포머의 피드포워드 신경망은 다음과 같은 연산을 수행한다.

FFN(x) = max(0, xW₁ + b₁)W₂ + b₂

여기서 W₁, b₁은 첫 번째 선형 변환의 가중치와 편향이며, W₂, b₂는 두 번째 선형 변환의 가중치와 편향이다. 내부 차원은 종종 모델 차원의 2배에서 4배 정도로 설정된다[4].

이 서브레이어는 어텐션 메커니즘이 토큰 간의 관계를 모델링하는 반면, 개별 토큰의 표현 자체를 풍부하게 만드는 보완적인 기능을 한다. 인코더와 디코더의 모든 층에 동일한 구조로 존재하며, 모델의 전체 매개변수에서 상당 부분을 차지하는 주요 구성 요소이다.

2.4. 레이어 정규화 및 잔차 연결

레이어 정규화는 신경망의 각 하위 레이어 출력의 평균과 분산을 정규화하여 학습 과정을 안정화하는 기술이다. 이는 배치 정규화와 유사하지만, 배치 차원이 아닌 특징 차원에 대해 수행된다는 점이 다르다. 트랜스포머에서는 주로 멀티 헤드 어텐션과 피드포워드 신경망 서브레이어의 출력에 적용된다. 이는 그래디언트 소실이나 폭주 문제를 완화하고, 학습 속도를 가속화하며, 모델의 일반화 성능을 향상시키는 데 기여한다.

잔차 연결은 입력을 특정 변환(예: 어텐션 또는 피드포워드 네트워크)의 출력에 직접 더하는 구조이다. 이는 심층 신경망에서 발생할 수 있는 정보 손실을 방지하고, 그래디언트가 네트워크를 통해 더 원활하게 흐르도록 돕는다. 트랜스포머의 각 주요 서브레이어(어텐션, 피드포워드)는 잔차 연결로 감싸여 있으며, 그 후에 레이어 정규화가 적용된다. 이는 "Add & Norm" 단계로 요약된다.

이 두 기술의 조합은 매우 깊은 트랜스포머 모델을 효과적으로 학습할 수 있는 기반을 제공한다. 레이어 정규화가 활성화의 분포를 조절하는 동안, 잔차 연결은 원본 입력 정보를 보존하여 변환 과정에서의 왜곡을 최소화한다. 결과적으로 모델은 수십, 수백 개의 레이어로 구성되어도 안정적으로 훈련될 수 있으며, 이는 BERT나 GPT와 같은 대규모 사전 학습 모델의 성공에 핵심적인 역할을 했다.

3. 아키텍처 유형

트랜스포머 아키텍처는 기본적으로 인코더와 디코더 스택으로 구성되지만, 특정 작업에 맞춰 인코더 또는 디코더만을 사용하는 변형 구조가 발전했다. 이러한 유형화는 모델의 설계 목적과 처리 방식을 명확히 구분한다.

가장 기본적인 형태는 인코더-디코더 구조다. 이 구조는 기계 번역과 같은 시퀀스-투-시퀀스 작업에 최적화되어 있다. 인코더는 입력 시퀀스(예: 원문 문장)의 의미를 압축하여 컨텍스트 벡터로 표현하고, 디코더는 이 정보를 바탕으로 출력 시퀀스(예: 번역문)를 한 단어씩 생성한다. 초기 트랜스포머 논문에서 제안된 모델이 이에 해당한다.

인코더만을 사용하는 인코더 전용 구조는 문장의 양방향 문맥을 이해하는 데 특화되어 있다. 대표적인 예가 BERT다. 이 모델은 마스크드 언어 모델링 사전 학습을 통해 입력 텍스트의 모든 위치에서 앞뒤 단어를 동시에 참조할 수 있다. 따라서 텍스트 분류, 개체명 인식, 질문 응답과 같은 이해 중심의 자연어 처리 작업에 강점을 보인다.

반면, 디코더 전용 구조는 자기회귀적으로 시퀀스를 생성하는 데 중점을 둔다. GPT 계열 모델이 이 범주에 속한다. 디코더는 마스크드 셀프 어텐션을 통해 현재 생성 중인 토큰이 이전 토큰들만을 참조하도록 제한한다. 이는 텍스트 생성, 요약, 코드 작성 등 창조적이거나 연속적인 출력이 필요한 작업에 적합한 아키텍처를 제공한다.

아키텍처 유형	대표 모델	주요 특징	적합한 작업
인코더-디코더	원본 트랜스포머, T5	입력을 인코딩 후 디코딩하여 출력 생성	기계 번역, 텍스트 요약
인코더 전용	BERT, RoBERTa	양방향 문맥 이해, 다운스트림 태스크에 유용	문장 분류, 질문 응답, 개체명 인식
디코더 전용	GPT 시리즈, LLaMA	왼쪽에서 오른쪽으로의 자기회귀 생성	텍스트 생성, 대화, 코드 완성

3.1. 인코더-디코더 구조

트랜스포머 아키텍처의 초기 설계는 기계 번역과 같은 시퀀스-투-시퀀스(seq2seq) 작업을 위해 고안된 인코더-디코더 구조를 따랐다. 이 구조는 입력 시퀀스를 의미 있는 잠재 표현으로 압축하는 인코더와, 그 표현을 바탕으로 새로운 출력 시퀀스를 생성하는 디코더로 구성된다. 두 모듈 모두 셀프 어텐션과 피드포워드 신경망으로 이루어진 동일한 레이어를 여러 번 쌓아 구성되지만, 그 역할과 내부 동작에는 차이가 있다.

인코더는 입력 시퀀스의 모든 토큰에 대해 병렬적으로 정보를 처리한다. 각 인코더 레이어는 멀티 헤드 어텐션을 통해 시퀀스 내 모든 단어 간의 관계를 동시에 학습하고, 이를 통해 문맥을 반영한 새로운 표현을 생성한다. 이 과정을 통해 "나는 학교에 간다"라는 문장에서 "간다"라는 동사가 "나는"과 "학교에"라는 정보를 반영하게 된다. 여러 개의 인코더 레이어를 통과하면 입력은 점점 더 추상화되고 풍부한 문맥 정보를 담은 표현으로 변환된다.

디코더는 인코더의 출력을 참조하면서 자기 회귀적으로 출력 시퀀스를 한 번에 하나의 토큰씩 생성한다. 디코더의 각 레이어에는 두 가지 어텐션 메커니즘이 존재한다. 첫 번째는 마스크드 멀티 헤드 어텐션으로, 현재까지 생성된 시퀀스의 이전 위치들만 참조하도록 제한하여 미래 정보가 유출되는 것을 방지한다. 두 번째는 인코더의 최종 출력에 대한 멀티 헤드 어텐션으로, 생성할 단어와 관련된 입력 시퀀스의 어떤 부분에 집중해야 하는지를 결정한다. 이 구조는 번역 시 원문(인코더 입력)과 현재까지 번역된 문장(디코더 입력)을 모두 고려하여 다음에 올 적절한 단어를 예측하는 방식으로 작동한다.

초기 트랜스포머 모델은 이 인코더-디코더 구조를 바탕으로 영어-독일어 번역, 영어-프랑스어 번역 등의 작업에서 당시 최고 성능을 달성했다. 이후 등장한 BERT나 GPT 같은 유명 모델들은 이 완전한 구조 중 한쪽 부분(인코더 또는 디코더)만을 특화시켜 발전시킨 변형이다.

3.2. 인코더 전용 구조 (BERT)

인코더 전용 구조는 트랜스포머 아키텍처의 인코더 스택만을 사용하는 모델을 가리킨다. 이 구조는 입력 시퀀스의 양방향 문맥을 동시에 학습하는 데 특화되어 있으며, 주로 문장이나 문서 전체의 표현을 추출하는 문맥 이해 작업에 적합하다. 대표적인 예로 BERT가 있으며, 이 모델은 마스킹된 언어 모델링과 다음 문장 예측이라는 두 가지 사전 학습 과제를 통해 깊은 양방향 표현을 학습한다.

인코더 전용 모델의 주요 특징은 입력 토큰의 모든 위치에 대한 정보를 한 번에 처리할 수 있다는 점이다. 셀프 어텐션 메커니즘을 통해 각 토큰이 시퀀스 내 다른 모든 토큰과의 관계를 계산하여, 특정 단어의 의미를 주변 문맥에 따라 동적으로 결정한다. 이는 기존의 순차적 처리 모델이 갖고 있던 방향성의 제약을 극복하게 해준다. 따라서 문장 분류, 개체명 인식, 질의 응답, 의미적 유사도 계산과 같은 다양한 자연어 이해 태스크에서 뛰어난 성능을 보인다.

모델 예시	주요 사전 학습 과제	주요 활용 분야
BERT	마스킹 언어 모델링, 다음 문장 예측	문장 분류, 질의응답, 개체명 인식
RoBERTa	동적 마스킹을 적용한 마스킹 언어 모델링	GLUE[5] 벤치마크
ALBERT	팩터라이즈드 임베딩, 교차-레이어 파라미터 공유	메모리 효율적인 대규모 모델 학습
ELECTRA	생성기가 아닌 판별기를 통한 대체 토큰 감지	동일한 계산 비용으로 더 효율적인 학습

이러한 구조는 일반적으로 대규모 텍스트 코퍼스로 사전 학습된 후, 특정 다운스트림 작업을 위해 출력층만 교체하거나 추가적인 레이어를 쌓는 미세 조정 과정을 거쳐 적용된다. 인코더의 출력은 전체 시퀀스에 대한 고정된 크기의 표현 또는 각 토큰 위치별 표현으로 활용될 수 있다. 계산 효율성 측면에서는 디코더가 없는 구조이기 때문에 자회귀적 생성 작업에는 적합하지 않지만, 이해 중심의 작업에서는 매우 효율적이고 효과적인 아키텍처로 평가받는다.

3.3. 디코더 전용 구조 (GPT)

디코더 전용 구조는 트랜스포머 아키텍처의 디코더 스택만을 사용하는 모델을 가리킨다. 이 구조는 주로 자연어 생성과 같은 자율 회귀적 작업에 특화되어 있다. 입력 시퀀스가 주어지면, 모델은 다음 토큰을 순차적으로 예측하며 텍스트를 생성한다. 이 과정에서 마스크드 어텐션 메커니즘이 핵심 역할을 수행하는데, 이는 각 토큰이 이후에 등장하는 토큰 정보를 참조하지 못하도록 제한하여 미래 정보가 유출되는 것을 방지한다.

이 구조의 가장 대표적인 예는 GPT 시리즈이다. GPT 모델은 사전 학습 단계에서 방대한 양의 텍스트 데이터를 사용하여 언어 모델링 작업, 즉 다음 단어 예측을 수행한다. 이 학습 방식을 통해 모델은 단어 간 통계적 패턴과 언어적 지식을 습득한다. 이후 특정 작업에 맞춰 미세 조정을 진행하거나, 프롬프트를 통한 지시만으로도 다양한 다운스트림 태스크를 수행할 수 있다.

디코더 전용 구조의 주요 특징과 적용 분야는 다음과 같다.

특징	설명	주요 적용 예
자율 회귀 생성	이전에 생성된 토큰을 기반으로 다음 토큰을 순차적으로 생성함	이야기 생성, 코드 작성, 대화 응답
마스크드 셀프 어텐션	디코더의 각 위치가 이후 위치의 정보에 접근할 수 없도록 함	언어 모델의 사전 학습
단방향 문맥 이해	주어진 컨텍스트의 왼쪽(과거) 정보만을 활용하여 예측을 수행함	텍스트 완성, 문장 확장
프롬프트 기반 활용	특정 작업을 설명하는 지시문을 입력에 추가하여 별도의 미세 조정 없이 작업 수행	GPT-3, GPT-4의 제로샷/퓨샷 학습

이 구조는 생성 작업에 매우 효과적이지만, 입력 전체 문맥을 양방향으로 동시에 이해하는 인코더 전용 구조에 비해 특정 이해 기반 작업에서는 제약이 있을 수 있다. 그러나 대규모 언어 모델의 발전과 함께, 방대한 데이터로 사전 학습된 디코더 전용 모델은 프롬프트 엔지니어링을 통해 이해, 요약, 추론 등 다양한 영역에서도 뛰어난 성능을 보여주고 있다.

4. 데이터 처리와 학습

트랜스포머 아키텍처의 효과적인 학습과 성능은 입력 데이터를 어떻게 처리하고 준비하는지에 크게 의존한다. 이 과정은 주로 토큰화와 임베딩 단계로 시작하며, 대규모의 다양한 데이터셋을 활용한 사전 학습과 특정 작업에 맞춘 미세 조정 단계를 거쳐 완성된다.

데이터 처리는 먼저 텍스트를 모델이 이해할 수 있는 단위로 분해하는 토큰화를 통해 이루어진다. 이는 단어, 서브워드(예: BPE), 또는 문자 단위로 수행될 수 있다. 토큰화된 각 단어는 고차원의 벡터 공간에 매핑되는 임베딩 층을 통과한다. 이 임베딩 벡터는 단어의 의미적, 문법적 정보를 담으며, 이후 포지셔널 인코딩과 결합되어 모델에 입력된다. 비텍스트 데이터(예: 이미지)의 경우, 패치로 분할된 후 선형 투영을 통해 유사한 임베딩 벡터 시퀀스로 변환된다[6].

트랜스포머 모델의 강력한 성능은 방대한 양의 텍스트나 이미지 데이터로 이루어진 대규모 데이터셋에서의 사전 학습을 통해 얻어진다. 이 단계에서 모델은 마스킹된 언어 모델링(문맥에서 가려진 단어 예측)이나 다음 문장 예측과 같은 일반적인 작업을 통해 언어나 이미지의 기본적인 패턴과 구조를 학습한다. 이후, 특정 다운스트림 작업(예: 질문 답변, 감정 분석, 이미지 분류)에 적용하기 위해 비교적 소량의 레이블이 지정된 데이터로 미세 조정을 수행한다. 이는 사전 학습된 광범위한 지식을 특정 작업에 적응시키는 효율적인 전략이다.

처리 단계	주요 기술/방법	설명
토큰화 & 임베딩	서브워드 토큰화 (BPE, WordPiece)	단어를 의미 있는 작은 단위로 분해하여 어휘 집합 크기와 희귀 단어 문제를 관리한다.
	임베딩 층	토큰을 고정 크기의 밀집 벡터로 변환하여 의미적 유사성을 포착한다.
대규모 데이터 학습	사전 학습	위키피디아, 책, 웹 페이지 등 대용량 텍스트 말뭉치에서 자기지도 학습을 수행한다.
	미세 조정	사전 학습된 모델 가중치를 시작점으로 하여 특정 작업 데이터셋으로 추가 학습한다.

4.1. 토큰화와 임베딩

토큰화는 텍스트, 코드, 음성 등의 원시 데이터를 모델이 처리할 수 있는 작은 단위로 분해하는 과정이다. 자연어 처리에서는 주로 단어, 서브워드, 또는 문자 단위로 수행된다. 서브워드 토큰화는 BPE나 WordPiece 같은 알고리즘을 사용하여 빈번한 문자열을 하나의 토큰으로, 희귀한 단어는 여러 서브워드 토큰으로 분할한다. 이는 어휘 집합의 크기를 관리 가능하게 유지하면서도 희귀 단어나 신조어를 효과적으로 처리할 수 있게 한다.

토큰화된 결과는 각 토큰에 고유한 정수 인덱스를 부여받는다. 이후 임베딩 레이어는 이 정수 인덱스를 고정된 크기의 밀집 벡터로 변환한다. 이 벡터는 토큰의 의미적, 문법적 속성을 저차원 공간에 분산 표현으로 담는다. 초기 임베딩 값은 무작위로 초기화되며, 모델 학습 과정에서 역전파를 통해 최적화된다. 이렇게 생성된 임베딩은 모델의 첫 번째 입력이 된다.

토큰화와 임베딩은 모델 성능에 직접적인 영향을 미치는 전처리 단계이다. 토큰화 방식에 따라 모델의 어휘 처리 능력과 일반화 성능이 달라진다. 임베딩 벡터의 차원은 표현력과 계산 복잡도를 결정하는 주요 하이퍼파라미터 중 하나이다. 대규모 언어 모델에서는 토큰 임베딩에 더해, 포지셔널 인코딩이 추가되어 토큰의 순서 정보를 제공한다.

4.2. 대규모 데이터셋 활용

트랜스포머 모델, 특히 대규모 언어 모델의 성능은 방대한 양과 높은 품질의 데이터셋에 크게 의존한다. 효과적인 학습을 위해서는 수십억에서 수조 개에 이르는 토큰으로 구성된 텍스트 코퍼스가 필요하다. 이러한 데이터는 주로 공개 웹 스크래핑, 디지털화된 도서, 학술 논문, 위키백과와 같은 공개 지식베이스, 소스 코드 저장소 등 다양한 출처에서 수집된다. 데이터의 다양성과 규모는 모델이 광범위한 언어 패턴, 세계 지식, 그리고 다양한 문체를 습득하는 데 결정적인 역할을 한다.

데이터셋의 구성과 전처리는 모델의 성격을 결정짓는 중요한 요소이다. 예를 들어, 주로 웹 텍스트로 학습된 모델은 구어체와 최신 정보에 강점을 보이는 반면, 학술 논문이나 책으로 구성된 데이터셋은 보다 형식적이고 추론적인 언어 능력을 함양할 수 있다. 데이터 수집 과정에서는 저작권, 개인정보, 유해 콘텐츠 필터링과 같은 윤리적, 법적 문제를 고려한 정제와 필터링이 필수적으로 동반된다. 또한, 데이터의 중복 제거와 품질 평가를 통해 학습 효율성을 높이고 모델의 편향을 완화하려는 노력이 지속된다.

대규모 데이터셋의 활용은 단순히 규모의 확대를 넘어, 데이터의 조합과 혼합 전략으로 발전하고 있다. 최신 모델들은 단일 도메인의 데이터가 아닌, 텍스트, 코드, 수학적 표기 등 여러 유형의 데이터를 혼합하여 학습함으로써 보다 일반적인 문제 해결 능력을 기른다. 이는 모델이 특정 작업에 과도하게 적응되는 것을 방지하고 일반화 성능을 향상시키는 데 기여한다. 그러나 이러한 데이터 수집과 처리에는 막대한 계산 자원과 인프라가 필요하며, 이는 트랜스포머 기반 모델 개발의 주요 진입 장벽 중 하나로 남아 있다.

4.3. 사전 학습과 미세 조정

트랜스포머 모델의 효과적인 학습은 일반적으로 두 단계로 구성된다. 첫 번째 단계는 방대한 양의 일반 텍스트 데이터를 사용한 사전 학습이며, 두 번째 단계는 특정 작업에 맞춘 미세 조정이다. 이 두 단계의 조합은 모델이 일반적인 언어 이해 능력을 획득한 후 특정 과제에 특화될 수 있게 하여, 제한된 작업별 데이터로도 높은 성능을 달성하는 데 기여한다.

사전 학습 단계에서는 마스크드 언어 모델링이나 다음 단어 예측과 같은 자기지도 학습 목표를 사용한다. 예를 들어, BERT는 문장에서 무작위로 가려진 토큰을 예측하는 방식으로 학습하여 단어의 문맥적 의미를 파악한다. 반면 GPT 시리즈는 주어진 단어 시퀀스에서 다음에 올 단어를 예측하는 자기회귀 방식으로 학습한다. 이 단계는 모델에 언어의 구문, 의미, 세계 지식에 대한 폭넓은 이해를 부여한다.

미세 조정 단계에서는 사전 학습된 모델의 가중치를 초기값으로 사용하여, 감정 분석, 질문 답변, 텍스트 요약 등과 같은 특정 다운스트림 작업에 맞는 레이블된 데이터셋으로 추가 학습을 진행한다. 일반적으로 마지막 출력 레이어를 작업에 맞게 교체하고, 전체 모델 또는 상위 레이어의 매개변수를 상대적으로 적은 에포크와 작은 학습률로 업데이트한다. 이 접근법은 작업별로 처음부터 대규모 모델을 학습시키는 것에 비해 시간과 계산 자원을 크게 절약한다.

학습 단계	주요 목표	사용 데이터	학습 방식	일반적 출력
사전 학습	일반적인 언어 표현 학습	대규모 비레이블 텍스트 (예: 위키피디아, 웹 크롤링 데이터)	자기지도 학습 (MLM, 다음 단어 예측)	범용 언어 모델
미세 조정	특정 작업에 대한 성능 최적화	작업별 레이블된 데이터셋 (예: GLUE 벤치마크)	지도 학습, 적은 에포크	작업 특화 모델 (분류기, 생성기 등)

이 패러다임의 성공은 전이 학습의 강력함을 보여주며, 다양한 자연어 처리 과제에서 새로운 성능 기준을 수립하는 기반이 되었다.

5. 주요 응용 분야

트랜스포머 아키텍처는 초기 자연어 처리 분야를 넘어 다양한 인공지능 영역으로 응용 범위를 확장하고 있다. 그 핵심 구성 요소인 어텐션 메커니즘은 시퀀스 내 요소 간의 관계를 직접적으로 모델링하는 능력을 제공하여, 텍스트뿐만 아니라 이미지, 음성, 그리고 이들의 조합을 처리하는 데에도 효과적으로 적용된다.

자연어 처리 (NLP) 분야에서는 트랜스포머가 사실상의 표준 아키텍처가 되었다. BERT와 같은 인코더 기반 모델은 텍스트의 양방향 문맥을 이해하여 질문 답변, 텍스트 분류, 개체명 인식 등에 활용된다. 반면, GPT 시리즈와 같은 디코더 기반 모델은 텍스트 생성, 요약, 대화 시스템 등 창의적인 언어 생성을 주도한다. 이러한 모델들은 기계 번역, 텍스트 생성, 감정 분석 등 거의 모든 NLP 과제의 성능을 혁신적으로 향상시켰다.

컴퓨터 비전 (Vision Transformer) 분야에서는 ViT(Vision Transformer) 모델이 이미지를 패치 단위로 분할하여 시퀀스로 처리하는 방식을 도입했다[7]. 이는 기존의 합성곱 신경망 기반 접근법과 경쟁하거나 능가하는 성능을 보여주며, 이미지 분류, 객체 탐지, 이미지 생성 등 다양한 비전 태스크에 적용되고 있다. 트랜스포머의 장기 의존성 학습 능력은 이미지 내 먼 픽셀 간의 관계를 포착하는 데 유리하게 작용한다.

멀티모달 학습은 트랜스포머 아키텍처의 또 다른 주요 응용 분야이다. 텍스트, 이미지, 음성 등 서로 다른 형태(모달리티)의 데이터를 하나의 통합된 모델로 처리할 수 있다. 예를 들어, 이미지에 대한 텍스트 설명을 생성하거나(이미지 캡셔닝), 텍스트 설명으로부터 이미지를 생성하는(텍스트 투 이미지) 모델들의 핵심 백본으로 트랜스포머가 사용된다. CLIP과 같은 모델은 대규모 이미지-텍스트 쌍 데이터를 학습하여 두 모달리티를 같은 임베딩 공간에 정렬시킨다.

5.1. 자연어 처리 (NLP)

트랜스포머 아키텍처는 자연어 처리 분야에 혁신적인 변화를 가져왔으며, 기존 순환 신경망이나 장단기 메모리 기반 모델의 한계를 극복하는 핵심 기술로 자리 잡았다. 이 아키텍처의 등장 이후 대부분의 최신 NLP 모델은 트랜스포머를 기반으로 구축되었다.

트랜스포머의 핵심 구성 요소인 셀프 어텐션 메커니즘은 문장 내 모든 단어 쌍 간의 관계를 직접적으로 계산하여, 문맥에 대한 풍부한 표현을 학습할 수 있게 한다. 이를 통해 모델은 입력 시퀀스의 순서에 덜 의존하면서도 장거리 의존성을 효과적으로 포착한다. 이러한 특성은 기계 번역, 텍스트 요약, 질의응답 시스템 같은 다양한 NLP 과제에서 뛰어난 성능을 보이는 기반이 되었다.

주요 응용 모델로는 인코더 전용 구조의 BERT와 디코더 전용 구조의 GPT 계열이 대표적이다. BERT는 양방향 문맥을 사전 학습하여 개체명 인식, 문장 분류, 의미 유사도 판단 등의 과제에 활용된다. 반면, GPT 계열 모델은 자기회귀적 방식으로 텍스트를 생성하여 챗봇, 코드 생성, 창의적 글쓰기에 주로 사용된다. 이 외에도 텍스트 임베딩, 감정 분석, 문법 검사 등 거의 모든 NLP 하위 분야에서 트랜스포머 기반 모델이 표준이 되었다.

트랜스포머의 영향은 단순한 모델 성능 향상을 넘어, 전이 학습과 사전 학습 모델의 패러다임을 정립했다. 대규모 텍스트 코퍼스로 사전 학습된 하나의 거대 모델을 다양한 다운스트림 작업에 미세 조정하여 적용하는 방식이 효율성과 효과성 측면에서 정착되었다[8]. 이는 NLP 연구와 산업 적용의 접근성을 근본적으로 변화시켰다.

5.2. 컴퓨터 비전 (Vision Transformer)

트랜스포머 아키텍처는 원래 자연어 처리를 위해 설계되었으나, 비전 트랜스포머(Vision Transformer, ViT)의 등장으로 컴퓨터 비전 분야에도 혁신을 가져왔다. ViT는 기존의 합성곱 신경망(CNN)이 이미지의 지역적 특징을 계층적으로 추출하는 방식과 근본적으로 다른 접근법을 제시한다. 이미지를 패치 단위로 분할하여 일련의 토큰으로 변환한 후, 트랜스포머 인코더에 입력하여 전역적인 문맥 관계를 학습한다.

ViT의 핵심 동작 원리는 다음과 같다. 먼저 입력 이미지를 고정된 크기의 패치(예: 16x16 픽셀)로 분할한다. 각 패치는 선형 투영을 통해 1차원 임베딩 벡터로 변환된다. 이 패치 임베딩에 포지셔널 인코딩을 더해 순서 정보를 부여한다. 그 후, 이 임베딩 시퀀스는 표준 트랜스포머 인코더에 입력된다. 인코더 내의 다중 헤드 어텐션 메커니즘은 이미지의 모든 패치 간의 관계를 한 번에 계산하여, 먼 거리에 있는 패치 간의 상호작용도 직접적으로 모델링할 수 있다. 마지막으로, 분류를 위해 특별히 추가된 [CLS] 토큰의 출력을 분류기 헤드에 사용한다.

ViT는 대규모 데이터셋(예: JFT-300M[9])으로 사전 학습되었을 때, ImageNet과 같은 주요 이미지 분류 벤치마크에서 최신 합성곱 신경망을 능가하는 성능을 보여주었다. 그러나 ViT는 CNN에 비해 지역적인 특징 추출에 대한 귀납적 편향이 부족하여, 일반적으로 더 많은 양의 학습 데이터를 필요로 한다는 한계가 있다.

이러한 한계를 보완하기 위해 다양한 변형 아키텍처가 제안되었다. 예를 들어, Swin Transformer는 계층적 피라미드 구조와 이동 창(shifted window) 기반의 지역적 어텐션을 도입하여 계산 효율성을 높이고 다양한 규모의 특징을 효과적으로 포착한다. 아래는 주요 비전 트랜스포머 모델의 특징을 비교한 표이다.

모델	핵심 아이디어	주요 특징
Vision Transformer (ViT)	이미지를 패치 시퀀스로 처리	전역 어텐션, 대규모 데이터 필요
Swin Transformer	계층적 구조 & 이동 창	지역적 어텐션, 다양한 스케일 특징 추출
DeiT	효율적인 학습 전략	지식 증류 활용, 더 작은 데이터셋으로 학습 가능
DETR	객체 탐지에 적용	트랜스포머 인코더-디코더, 헝가리안 알고리즘을 통한 직접 예측

ViT와 그 변형들은 이미지 분류를 넘어 객체 탐지, 세그멘테이션, 비디오 이해 등 광범위한 컴퓨터 비전 태스크에 성공적으로 적용되고 있다. 이는 트랜스포머 아키텍처의 강력한 시퀀스 모델링 능력이 시공간 데이터에도 효과적임을 입증한다.

5.3. 멀티모달 학습

멀티모달 학습은 텍스트, 이미지, 오디오, 비디오 등 서로 다른 형태(모달리티)의 데이터를 통합하여 이해하고 생성하는 인공지능 분야이다. 트랜스포머 아키텍처는 각 모달리티의 데이터를 일관된 방식으로 처리할 수 있는 통합 아키텍처를 제공함으로써 이 분야의 발전을 주도했다. 핵심은 서로 다른 입력 형태를 공통의 임베딩 공간으로 매핑한 후, 어텐션 메커니즘을 통해 모달리티 간의 관계와 상호작용을 학습하는 데 있다.

구체적인 접근 방식은 주로 단일 트랜스포머 모델 내에서 여러 인코더를 결합하거나, 모달리티별 특화 인코더의 출력을 융합하는 방식으로 이루어진다. 예를 들어, 비전 트랜스포머를 통해 이미지를 패치 시퀀스로 변환하고, 텍스트는 기존 토큰화 방식을 사용한다. 이후 이 두 시퀀스를 결합하여 하나의 통합 입력으로 모델에 제공하면, 셀프 어텐션 레이어가 이미지 영역과 텍스트 단어 간의 교차 모달 관계를 자동으로 학습한다.

모델 유형	주요 특징	예시 모델
인코더 기반	다양한 입력을 인코딩하여 공통 표현 학습. 이해 태스크에 강점.	CLIP, ViLBERT
디코더 기반	조건부 생성을 통해 한 모달리티에서 다른 모달리티로 변환. 생성 태스크에 강점.	DALL-E, 코그뷰
인코더-디코더	한 조합의 입력(예: 이미지)을 받아 다른 조합의 출력(예: 텍스트 설명) 생성.	Flamingo, 블리퍼

이러한 멀티모달 트랜스포머는 이미지 캡셔닝, 시각적 질의응답, 텍스트 투 이미지 생성 등 다양한 응용 분야에서 뛰어난 성능을 보인다. 또한 대규모로 정렬된 이미지-텍스트 쌍 데이터셋(예: LAION)에서 사전 학습을 진행하면, 모델은 텍스트 설명 없이도 이미지의 개념을 제로샷으로 분류하거나 검색하는 등 강력한 제로샷 학습 능력을 획득한다[10]. 이는 단일 모달리티 모델로는 달성하기 어려운 일반화 능력을 의미한다.

6. 장점과 한계

트랜스포머 아키텍처의 주요 장점은 병렬 처리가 가능한 어텐션 메커니즘에 기반한다는 점이다. 순환 신경망이나 장단기 메모리가 순차적으로 데이터를 처리해야 했던 것과 달리, 트랜스포머는 입력 시퀀스의 모든 위치에 있는 토큰을 동시에 처리할 수 있다. 이는 현대의 GPU나 TPU와 같은 하드웨어에서 효율적으로 계산될 수 있어, 모델의 규모와 데이터셋의 크기를 급격히 확장시키는 데 결정적인 역할을 했다. 또한, 셀프 어텐션 메커니즘은 입력 내부의 모든 요소 간 관계를 직접 모델링하므로, 시퀀스 내에서 아무리 멀리 떨어진 요소 사이의 장기 의존성도 효과적으로 포착할 수 있다.

그러나 이러한 강력한 성능에는 상당한 대가가 따른다. 가장 큰 한계는 계산 비용이다. 표준 셀프 어텐션의 계산 복잡도는 시퀀스 길이의 제곱에 비례하여 증가한다[11]. 이는 매우 긴 문서나 고해상도 이미지를 처리할 때 메모리 사용량과 계산 시간을 폭발적으로 증가시킨다. 또한, 트랜스포머는 대규모의 다양한 데이터로 사전 학습을 거쳐야만 높은 성능을 발휘한다. 이는 방대한 컴퓨팅 자원과 데이터 수집 및 처리 비용을 필요로 하며, 이로 인해 연구와 개발의 진입 장벽이 높아지는 결과를 낳았다.

다음 표는 트랜스포머 아키텍처의 주요 장점과 한계를 요약한다.

장점	한계
병렬 처리로 인한 학습 및 추론 속도 향상	시퀀스 길이 제곱에 비례하는 높은 계산 복잡도
셀프 어텐션을 통한 효과적인 장기 의존성 모델링	대규모의 고품질 사전 학습 데이터 필요
모듈식 구조로 인한 다양한 태스크와 도메인 적용 가능성	방대한 컴퓨팅 자원(에너지, 하드웨어) 소모
확장성이 뛰어나 모델 규모를 키울수록 성능이 지속적으로 향상됨	내부 작동 메커니즘의 해석이 어려운 블랙박스 성향

결과적으로, 트랜스포머는 딥러닝, 특히 자연어 처리 분야에 혁명을 가져왔지만, 그 효율성과 자원 소모 문제는 지속적인 연구의 핵심 과제로 남아있다. 이를 해결하기 위해 효율적인 어텐션 알고리즘 개발, 하이브리드 아키텍처 탐구 등의 노력이 이루어지고 있다.

6.1. 병렬 처리와 확장성

트랜스포머 아키텍처의 가장 큰 강점 중 하나는 순환 신경망이나 합성곱 신경망에 비해 뛰어난 병렬 처리 능력과 확장성을 가진다는 점이다. RNN 계열 모델은 입력 시퀀스를 순차적으로 처리해야 하므로 계산의 병렬화가 어렵고, 시퀀스 길이가 길어질수록 학습 시간이 선형적으로 증가하는 문제가 있다. 반면, 트랜스포머의 핵심인 셀프 어텐션 메커니즘은 시퀀스 내 모든 토큰 쌍 간의 관계를 한 번에 계산할 수 있어, 전체 입력 시퀀스에 대한 처리를 병렬로 수행할 수 있다. 이는 특히 GPU나 TPU와 같은 현대 병렬 가속 하드웨어와 매우 잘 맞아떨어져 학습 및 추론 속도를 획기적으로 높인다.

이러한 병렬 처리 효율성은 모델의 규모를 쉽게 확장할 수 있는 기반을 제공한다. 연구자들은 더 많은 매개변수와 더 큰 데이터셋을 활용하여 모델 성능을 지속적으로 향상시킬 수 있었으며, 이는 스케일링 법칙에 대한 실증적 연구로 이어졌다. 모델 크기(매개변수 수), 데이터셋 크기, 계산량을 동시에 확장할 때 예측 가능한 방식으로 성능이 개선된다는 것이 확인되었다. 아래 표는 초기 트랜스포머 모델부터 최근 대규모 모델까지의 확장 추이를 보여준다.

모델	발표 연도	매개변수 규모	주요 특징
원본 트랜스포머 (기계 번역)	2017	약 6,500만	인코더-디코더 구조의 표준 제시
BERT (base)	2018	약 1.1억	양방향 인코더 전용 구조
GPT-3	2020	1,750억	디코더 전용 구조, 대규모 Few-shot 학습
PaLM	2022	5,400억	Pathways 시스템을 이용한 대규모 병렬 학습

결과적으로, 트랜스포머의 아키텍처적 특성은 대규모 언어 모델 시대를 열었으며, 수백억乃至수조 개의 매개변수를 가진 모델의 효율적인 학습을 가능하게 했다. 그러나 이러한 확장은 막대한 계산 자원과 에너지를 필요로 하며, 이는 실용적 배포와 환경적 비용 측면에서 중요한 한계로 지적된다[12].

6.2. 장기 의존성 학습

순환 신경망이나 장단기 메모리 같은 이전의 신경망 구조는 순차 데이터를 처리할 때, 먼 거리에 있는 정보 간의 관계를 학습하는 데 어려움을 겪었다. 이는 기울기 소실 문제로 인해, 네트워크가 긴 시퀀스에서 초반 정보의 영향을 후반 단계까지 효과적으로 전달하지 못하기 때문이다. 트랜스포머는 셀프 어텐션 메커니즘을 통해 이 문제를 근본적으로 해결한다. 모든 입력 토큰이 동시에 처리되고, 어텐션 가중치를 통해 시퀀스 내 모든 위치의 정보에 직접 접근할 수 있기 때문이다.

구체적으로, 모델은 각 처리 단계에서 시퀀스의 모든 단어 쌍 간의 관계를 계산한다. 예를 들어, "그 동물은 길을 건너지 않았다. 왜냐하면 그것은 너무 피곤했기 때문이다."라는 문장에서, "그것"이 가리키는 대명사 참조 문제를 해결할 때, 트랜스포머는 "그것"과 "동물" 간의 직접적인 연결을 높은 어텐션 가중치로 학습할 수 있다. 이 과정은 입력과 출력 사이의 경로 길이가 시퀀스 길이에 관계없이 효과적으로 1로 유지되도록 설계되어, 정보 흐름이 훨씬 더 효율적이고 안정적이다.

이러한 장점은 아래 표와 같이 기존 아키텐처와의 비교에서 명확히 드러난다.

아키텍처	장기 의존성 처리 방식	주요 한계
순환 신경망	순차적 단계별 정보 전달	기울기 소실/폭발, 병렬 처리 불가
장단기 메모리	게이트 메커니즘을 통한 선택적 기억	긴 시퀀스에서도 점차 정보 손실 발생, 계산 비용 높음
트랜스포머	셀프 어텐션을 통한 모든 위치 간 직접 연결	시퀀스 길이 제곱에 비례하는 계산 복잡도

결과적으로, 트랜스포머는 문서 요약, 장문 번역, 대화 컨텍스트 이해 등 먼 거리의 문맥적 관계가 중요한 작업에서 뛰어난 성능을 보인다. 이는 인공지능이 인간 언어의 복잡한 구조와 장거리 의존성을 더 효과적으로 모델링할 수 있게 하는 핵심적인 발전이었다.

6.3. 계산 비용과 데이터 요구량

트랜스포머 아키텍처, 특히 대규모 모델의 주요 한계는 높은 계산 복잡도와 막대한 데이터 요구량이다. 셀프 어텐션 메커니즘의 계산 비용은 입력 시퀀스 길이의 제곱에 비례하여 증가한다[13]. 이는 장문의 텍스트나 고해상도 이미지를 처리할 때 심각한 메모리와 계산 자원 부담을 초래하며, 실시간 응용이나 제한된 하드웨어 환경에서의 배포를 어렵게 만든다.

데이터 측면에서 트랜스포머는 그 성능을 충분히 발휘하기 위해 방대한 양의 레이블이 없는 데이터를 통한 사전 학습을 필요로 한다. GPT나 BERT와 같은 모델은 수십억에서 수조 개의 토큰으로 구성된 웹 코퍼스에서 학습된다. 이는 고품질의 대규모 데이터셋 구축과 관리에 상당한 비용과 노력을 요구하며, 데이터의 편향이나 품질 문제가 모델 성능과 편향에 직접적으로 영향을 미칠 수 있다.

이러한 비용 문제를 완화하기 위한 다양한 연구가 진행되고 있다. 희소 어텐션, 선형 어텐션, 또는 어텐션 근사화 기법들은 계산 효율성을 높이려는 시도이다. 또한, 모델 압축, 양자화, 가지치기 같은 기법은 학습된 대형 모델을 더 작고 빠르게 만들어 배포 비용을 줄인다. 데이터 효율성을 높이기 위한 전이 학습, 적응형 미세 조정, 또는 적대적 데이터 증강 방법들도 활발히 탐구되고 있다.

7. 최신 발전 동향

트랜스포머 아키텍처는 지속적인 연구를 통해 효율성, 규모, 적용 범위 측면에서 빠르게 발전하고 있다. 주요 동향은 계산 비용이 높은 셀프 어텐션 메커니즘을 개선하고, 모델 규모를 극대화하며, 다른 신경망 패러다임과 결합하는 방향으로 나아간다.

효율적인 어텐션 메커니즘 개발이 활발하다. 표준 어텐션의 계산 복잡도를 줄이기 위해 Linformer, Reformer, Performer와 같은 모델들이 제안되었다. 이들은 근사 방법, 국소적 집중, 저차원 투영 등을 활용하여 장문 처리 능력을 향상시킨다. 또한 Sparse Transformer나 Longformer는 모든 토큰 쌍 간의 연결을 계산하지 않는 희소 어텐션 패턴을 도입하여 메모리 사용량을 획기적으로 줄인다.

대규모 언어 모델의 등장은 가장 두드러진 동향이다. GPT-3, GPT-4, PaLM, LaMDA와 같은 모델은 수천억 개의 매개변수를 가지며, 방대한 텍스트 데이터로 학습된다. 이들은 제로샷 학습이나 퓨샷 학습을 통해 특별한 미세 조정 없이도 다양한 작업을 수행할 수 있는 능력을 보여준다. 이러한 모델의 성능은 단순한 규모 확장을 넘어 체인 오브 사고 프롬프팅, Instruction Tuning과 같은 기법을 통해 더욱 정교해지고 있다.

동향 범주	대표 기법/모델 예시	주요 특징
효율적 어텐션	Reformer, Longformer	국소 어텐션, 희소 패턴으로 장문 처리 및 메모리 효율 향상
모델 규모 확장	GPT-4, PaLM	수천억 매개변수, 대규모 데이터 학습, 제로/퓨샷 학습 능력
하이브리드 아키텍처	Convolutional Transformer, MLP-Mixer	합성곱 신경망이나 다층 퍼셉트론 구조와 트랜스포머 결합

하이브리드 아키텍처에 대한 관심도 높아지고 있다. 순수 트랜스포머의 한계를 보완하기 위해 합성곱 신경망의 지역적 특징 추출 능력이나 다층 퍼셉트론의 간단한 구조를 결합한 모델들이 연구된다. 예를 들어, 컴퓨터 비전 분야에서는 Vision Transformer에 CNN 백본을 접목하거나, MLP-Mixer와 같이 어텐션을 완전히 대체하는 구조도 실험된다. 이는 특정 데이터 유형이나 작업에 더욱 특화된 효율적인 모델을 만드는 길을 열어준다.

7.1. 효율적인 어텐션 메커니즘

트랜스포머 아키텍처의 핵심인 셀프 어텐션은 모든 입력 토큰 쌍 간의 관계를 계산하기 때문에, 입력 시퀀스 길이의 제곱에 비례하는 계산 및 메모리 복잡도를 가집니다. 이는 장문 처리나 고해상도 이미지 처리에 있어 심각한 병목 현상이 됩니다. 이를 해결하기 위해 여러 효율적인 어텐션 메커니즘이 제안되었습니다.

대표적인 접근법은 어텐션 계산의 근사화 또는 범위 제한입니다. Sparse Transformer는 사전 정의된 패턴을 통해 전체 토큰 쌍이 아닌 일부 토큰 쌍에만 어텐션을 적용합니다. Longformer는 슬라이딩 윈도우 어텐션을 사용하여 각 토큰이 주변 토큰에만 집중하도록 하며, 전역 어텐션을 특정 위치에 선택적으로 추가합니다. Linformer는 저차원 투영을 통해 키와 값 행렬의 차원을 축소하여 복잡도를 선형으로 낮춥니다. 또 다른 중요한 발전은 어텐션 연산 자체의 재구성입니다. Performer는 램덤 피처 맵을 사용하여 어텐션 행렬을 명시적으로 구성하지 않고도 근사하는 방법을 제안합니다. 이는 이론적으로 선형 복잡도를 달성합니다.

아래 표는 주요 효율적 어텐션 메커니즘의 특징을 비교한 것입니다.

모델/방법	핵심 아이디어	복잡도 (시퀀스 길이 n 기준)	주요 장점
Sparse Transformer	사전 정의된 희소 패턴 사용	O(n√n)	특정 패턴(예: 스트라이드, 고정)에 효율적
Longformer	슬라이딩 윈도우 + 전역 어텐션	O(n)	장문 문서 처리에 적합, 구현이 상대적 단순
Linformer	키/값 행렬의 저차원 투영	O(n)	선형 복잡도 보장, 표준 어텐션과 호환성 높음
Performer	랜덤 피처 맵을 통한 커널 근사	O(n)	선형 복잡도, 이론적 토대 강함
Flash Attention	IO 인식 알고리즘 설계	O(n²) (실제 가속)	GPU 메모리 계층 최적화로 실질적 속도 향상[14]

이러한 방법들은 트랜스포머 모델이 더 긴 컨텍스트를 처리하고, 더 적은 계산 자원으로 학습 및 추론을 수행하며, 이미지나 생물정보학 시퀀스와 같은 새로운 데이터 영역에 적용될 수 있는 기반을 마련했습니다. 효율성과 성능 간의 균형을 찾는 연구는 계속 진행 중입니다.

7.2. 대규모 언어 모델 (LLM)

대규모 언어 모델은 수백억에서 수조 개의 매개변수를 가진 초대형 트랜스포머 아키텍처 기반 모델을 의미한다. 이 모델들은 방대한 텍스트 데이터를 사전 학습하여 언어의 통계적 패턴과 세계 지식을 포괄적으로 습득한다. GPT 시리즈, BERT, T5, LaMDA 등이 대표적인 예시이며, 모델 규모와 학습 데이터의 양이 성능에 직접적인 영향을 미친다[15].

LLM의 핵심 특징은 제로샷 학습과 퓨샷 학습 능력이다. 명시적인 미세 조정 없이도, 단순히 프롬프트에 몇 가지 예시(퓨샷)나 지시(제로샷)를 제공하는 것만으로 다양한 언어 과제를 수행할 수 있다. 이는 모델이 사전 학습 과정에서 획득한 광범위한 지식과 추론 능력에 기반한다. 주요 능력은 다음과 같이 분류할 수 있다.

능력 범주	주요 내용
언어 생성	논리적 글쓰기, 창의적 이야기 구성, 코드 생성
언어 이해	질문 답변, 요약, 감정 분석, 텍스트 분류
추론	상식 추론, 수학적 문제 해결, 논리적 결론 도출

그러나 LLM은 환각 현상(사실이 아닌 내용을 자신 있게 생성), 학습 데이터에 내재된 편향성, 막대한 계산 자원과 에너지 소비, 그리고 설명 가능성의 부족 등의 한계를 지닌다. 이러한 한계를 극복하기 위해 지시 튜닝, RLHF, 그리고 더 효율적인 모델 구조와 학습 방법에 대한 연구가 활발히 진행되고 있다.

7.3. 하이브리드 아키텍처

하이브리드 아키텍처는 트랜스포머 아키텍처의 핵심 요소를 합성곱 신경망이나 순환 신경망과 같은 다른 신경망 구조와 결합한 모델 설계 방식을 가리킨다. 이 접근법은 각 패러다임의 장점을 통합하여 특정 작업이나 데이터 유형에 더욱 적합한 모델을 만드는 것을 목표로 한다. 예를 들어, 컴퓨터 비전 분야에서는 지역적 특징 추출에 강점을 가진 합성곱 신경망과 전역적 문맥 이해에 뛰어난 트랜스포머를 결합한 Convolutional Vision Transformer 같은 모델이 등장했다.

주요 하이브리드 방식은 다음과 같이 분류할 수 있다.

접근 방식	설명	대표 예시
계층적 결합	모델의 초기 또는 후기 단계에서 다른 아키텍처를 사용.	초기 특징 추출에 CNN, 고수준 이해에 트랜스포머 사용.
병렬 통합	트랜스포머 블록과 CNN/RNN 블록을 병렬로 배치하여 출력을 융합.	어텐션 메커니즘과 컨볼루션 특징을 동시에 활용.
모듈 대체	트랜스포머 내 특정 구성 요소를 다른 구조로 대체.	표준 다중 헤드 어텐션 대신 컨볼루션 기반 어텐션 사용.

이러한 하이브리드화의 주요 동인은 순수 트랜스포머 모델이 가지는 한계를 보완하기 위함이다. 합성곱 신경망은 이미지의 공간적 지역성과 변환 불변성을 효과적으로 학습할 수 있어, Vision Transformer가 고해상도 이미지를 처리할 때 발생할 수 있는 계산 비용과 데이터 효율성 문제를 완화하는 데 기여한다. 반대로, 음성이나 시계열 데이터 처리에서는 순환 신경망의 순차적 모델링 능력과 트랜스포머의 병렬적 어텐션을 결합한 모델이 연구된다.

하이브리드 아키텍처는 특정 도메인의 인덕션 바이어스를 모델에 효과적으로 주입할 수 있어, 제한된 데이터로도 더 나은 일반화 성능을 달성하거나 계산 자원을 절약하는 데 유리하다. 그러나 두 가지 이상의 서로 다른 구조를 통합함에 따라 모델 설계가 복잡해지고, 최적화와 하이퍼파라미터 튜닝이 더 어려워질 수 있다는 도전 과제도 존재한다.

트랜스포머 아키텍처

이름	트랜스포머 아키텍처
분류	인공신경망 아키텍처, 딥러닝 모델
주요 용도	자연어 처리, 시퀀스 모델링, 기계 번역, 텍스트 생성
핵심 메커니즘	어텐션 메커니즘 (특히 셀프 어텐션)
제안 시기	2017년
제안 논문	"Attention Is All You Need"
주요 구성 요소	인코더, 디코더, 피드포워드 신경망, 위치 인코딩
상세 정보
아키텍처 유형	시퀀스 투 시퀀스 모델 (기본), 인코더-전용 (예: BERT), 디코더-전용 (예: GPT) 변형 존재
기존 모델 대비 차별점	순환 신경망이나 합성곱 신경망에 의존하지 않고 어텐션만으로 시퀀스 정보 처리
주요 하이퍼파라미터	헤드 수, 임베딩 차원, 피드포워드 신경망 은닉층 크기, 레이어 수
학습 목표	지도 학습 (대부분), 자기 지도 학습 (마스크드 언어 모델링 등)
입력/출력	토큰화된 시퀀스 (예: 단어, 서브워드)
활용 분야 확장	컴퓨터 비전 (비전 트랜스포머), 오디오 처리, 멀티모달 학습
대표적 변형 모델	BERT, GPT 시리즈, T5, ViT
장점	병렬 처리 가능, 장기 의존성 학습 효과적, 확장성 우수
단점/한계	큰 계산 자원 요구, 매우 긴 시퀀스 처리 시 계산 복잡도 증가
관련 핵심 개념	위치 인코딩, 멀티-헤드 어텐션, 레이어 정규화, 잔차 연결

트랜스포머 아키텍처

이름	트랜스포머 아키텍처
분류	인공신경망 아키텍처, 딥러닝 모델
주요 용도	자연어 처리, 시퀀스 모델링, 기계 번역, 텍스트 생성
핵심 메커니즘	어텐션 메커니즘 (특히 셀프 어텐션)
제안 시기	2017년
제안 논문	"Attention Is All You Need"
주요 구성 요소	인코더, 디코더, 피드포워드 신경망, 위치 인코딩
상세 정보
아키텍처 유형	시퀀스 투 시퀀스 모델 (기본), 인코더-전용 (예: BERT), 디코더-전용 (예: GPT) 변형 존재
기존 모델 대비 차별점	순환 신경망이나 합성곱 신경망에 의존하지 않고 어텐션만으로 시퀀스 정보 처리
주요 하이퍼파라미터	헤드 수, 임베딩 차원, 피드포워드 신경망 은닉층 크기, 레이어 수
학습 목표	지도 학습 (대부분), 자기 지도 학습 (마스크드 언어 모델링 등)
입력/출력	토큰화된 시퀀스 (예: 단어, 서브워드)
활용 분야 확장	컴퓨터 비전 (비전 트랜스포머), 오디오 처리, 멀티모달 학습
대표적 변형 모델	BERT, GPT 시리즈, T5, ViT
장점	병렬 처리 가능, 장기 의존성 학습 효과적, 확장성 우수
단점/한계	큰 계산 자원 요구, 매우 긴 시퀀스 처리 시 계산 복잡도 증가
관련 핵심 개념	위치 인코딩, 멀티-헤드 어텐션, 레이어 정규화, 잔차 연결