그래픽 처리 장치

1. 개요

그래픽 처리 장치(GPU)는 컴퓨터 시스템에서 그래픽 및 영상 데이터의 생성과 출력을 전담하는 전용 마이크로프로세서이다. 주로 모니터나 디스플레이에 표시될 2차원 및 3차원 이미지의 렌더링을 가속화하는 역할을 한다. 초기에는 단순한 그래픽 가속기로 시작했으나, 현대의 GPU는 병렬 연산에 특화된 수천 개의 코어를 갖춘 고성능 병렬 처리 장치로 발전하여 그래픽 처리 외에도 다양한 범용 계산 작업에 널리 활용된다.

GPU의 핵심 기능은 CPU가 처리하기에는 복잡하고 부담이 큰 그래픽 관련 수학적 연산을 대신 수행하여 시스템의 전체적인 성능과 효율성을 높이는 것이다. 이는 특히 3D 그래픽스, 비디오 게임, 영상 편집, 컴퓨터 지원 설계(CAD)와 같은 응용 분야에서 필수적이다. 현대 운영 체제의 그래픽 사용자 인터페이스(GUI)도 GPU의 가속 없이는 원활하게 동작하기 어렵다.

GPU는 처리 방식에 따라 크게 두 가지 범주로 나뉜다. 하나는 CPU와 같은 칩에 통합된 통합 그래픽스(iGPU)이고, 다른 하나는 별도의 확장 카드 형태로 시스템에 장착되는 개별 그래픽 카드(dGPU)이다. 개별 GPU는 일반적으로 더 높은 성능과 전용 비디오 메모리(VRAM)를 가지며, 고사양 게이밍이나 전문가용 콘텐츠 제작에 사용된다.

최근에는 GPU의 병렬 처리 능력이 인공지능(AI) 모델 학습(딥러닝), 과학 연산, 암호 화폐 채굴과 같은 범용 GPU 연산(GPGPU) 작업에 적극적으로 활용되면서, 컴퓨팅 산업에서 그 중요성이 더욱 커지고 있다.

2. 역사와 발전

초기 컴퓨터 그래픽은 중앙 처리 장치가 모든 연산을 담당했으며, 단순한 선이나 도형을 그리는 데에도 많은 시간이 소요되었다. 1980년대에 들어서면서 전문적인 컴퓨터 그래픽 작업과 비디오 게임의 수요가 증가하자, 그래픽 처리를 전담하는 하드웨어의 필요성이 대두되었다. 이 시기에 등장한 초기 그래픽 가속기는 주로 래스터화와 프레임 버퍼 관리 같은 기본적인 2D 작업을 가속하는 데 집중했다. IBM의 모노크롬 디스플레이 어댑터나 비디오 그래픽스 어레이 같은 표준이 확립되면서, 그래픽 하드웨어의 기초가 마련되었다.

1990년대 중반, 3D 게이밍의 인기가 폭발적으로 증가하면서 상황이 바뀌었다. 3D 그래픽스 렌더링에 필요한 복잡한 기하 변환과 라이팅 계산을 가속하기 위해, 3dfx Interactive의 Voodoo Graphics나 NVIDIA의 RIVA 128 같은 전문 3D 가속 카드가 등장했다. 이들은 고정 기능의 렌더링 파이프라인을 하드웨어에 구현하여 성능을 비약적으로 향상시켰다. 이후 1999년, NVIDIA는 지금의 GPU 개념을 정의한 지포스 256을 출시하며, 단일 칩에서 변환 및 조명 연산을 하드웨어로 처리하는 최초의 장치로 이름을 알렸다.

2000년대에 들어서면서 GPU는 단순한 그래픽 가속기를 넘어 범용 병렬 프로세서로 진화하기 시작했다. NVIDIA는 2006년 쿠다 아키텍처를 발표하며 GPU를 병렬 컴퓨팅에 활용할 수 있는 길을 열었다. 이로 인해 GPU의 수많은 코어가 과학적 시뮬레이션, 비디오 인코딩, 이후에는 인공지능과 머신러닝 모델 훈련 같은 그래픽 이외의 연산에도 광범위하게 활용되었다. AMD와 NVIDIA 간의 경쟁은 성능과 효율성을 끊임없이 끌어올렸으며, 스트림 프로세서나 쿠다 코어 같은 병렬 처리 유닛의 수는 기하급수적으로 증가했다.

최근의 주요 동향은 실시간 레이 트레이싱과 AI 업스케일링 기술의 도입이다. NVIDIA의 RT 코어와 DLSS, AMD의 FSR 같은 기술은 게임과 렌더링의 화질과 성능을 혁신적으로 개선했다. 또한, 클라우드 게이밍 서비스의 성장과 더불어 가상화된 GPU를 원격으로 제공하는 클라우드 GPU 시장도 확대되고 있다. 오늘날 GPU는 게임과 콘텐츠 제작을 넘어, 데이터 센터와 슈퍼컴퓨터의 핵심 연산 자원으로 자리 잡으며 그 역할을 계속 확장하고 있다.

2.1. 초기 그래픽 가속기

초기 컴퓨터 그래픽은 중앙 처리 장치가 모든 연산을 담당했으며, 단순한 선이나 도형을 그리는 데에도 많은 자원이 소모되었다. 1970년대 후반부터 1980년대 초반에 이르러, 그래픽 처리를 전담하는 전용 하드웨어의 필요성이 대두되기 시작했다. 이 시기의 장치는 주로 2D 그래픽 가속, 즉 비트맵 조작, 선 그리기, 영역 채우기와 같은 기본적인 작업을 오프로드하는 데 초점을 맞췄다.

초기 상용 그래픽 가속기의 대표적인 예로는 1981년 IBM이 IBM PC와 함께 도입한 MDA와 CGA가 있다. 그러나 이들은 단순한 디스플레이 어댑터에 가까웠다. 본격적인 가속 기능을 갖춘 칩셋으로는 1980년대 중반 등장한 시에라 세미컨덕터의 SCN2674 비디오 디스플레이 컨트롤러나, IBM의 EGA를 들 수 있다. 이들은 여전히 프레임 버퍼 관리와 기본적인 2D 드로잉 명령어 실행에 국한되었다.

1980년대 후반에 접어들면서, GUI 운영체제의 보급과 함께 2D 그래픽 가속 수요가 급증했다. 이 시기의 중요한 발전은 1987년 IBM이 발표한 8514/A 디스플레이 어댑터였다. 이 제품은 고해상도 모드를 지원하고, 윈도우 이동, 선 그리기, 영역 채우기 등의 작업을 하드웨어로 가속하는 기능을 포함했다. 이후 1990년대 초반에는 S3 Graphics의 S3 86C911과 같은 칩이 등장하며, 보다 저렴한 가격에 2D 가속 기능을 제공하는 시장이 형성되었다.

시기	대표 장치/칩셋	주요 특징
1981년	IBM MDA, CGA	텍스트 및 기본 그래픽 디스플레이 어댑터
1984년	IBM EGA	16색 팔레트 지원, 향상된 그래픽 기능
1987년	IBM 8514/A	고해상도 지원, 2D 드로잉 명령어 하드웨어 가속
1991년	S3 Graphics S3 86C911	대중화된 2D 그래픽 가속기 칩의 시작

이러한 초기 그래픽 가속기는 3D 렌더링보다는 GUI 성능 향상과 비즈니스 애플리케이션의 원활한 구동에 주로 기여했다. 이들의 발전은 이후 본격적인 3D 폴리곤 가속 기능을 통합하는 GPU의 등장을 위한 중요한 초석이 되었다.

2.2. GPU의 등장과 진화

1999년 엔비디아가 발표한 지포스 256은 최초로 GPU(Graphics Processing Unit)이라는 용어를 공식적으로 사용한 제품이다. 이전의 그래픽 칩은 주로 2D 가속이나 고정 기능의 3D 변환 및 조명(T&L)에 국한되었으나, 지포스 256은 하드웨어 T&L 엔진을 통합하여 중앙 처리 장치(CPU)의 부담을 크게 줄이고 폴리곤 처리 성능을 혁신적으로 향상시켰다. 이로써 GPU는 단순한 디스플레이 출력 장치를 넘어, 본격적인 3D 그래픽 연산을 전담하는 독립된 프로세서의 지위를 얻었다.

2000년대 초중반에는 픽셀 셰이더와 버텍스 셰이더를 프로그래밍 가능한 유닛으로 구현하는 셰이더 모델 아키텍처가 등장했다. 마이크로소프트의 DirectX 8.0과 9.0이 이를 촉진했으며, 엔비디아의 지포스 3 시리즈와 ATI 테크놀로지스(현 AMD)의 라데온 9700은 이러한 프로그래머블 셰이더 파이프라인을 선보였다. 이 시기를 거치며 GPU는 고정된 기능에서 벗어나, 소프트웨어(셰이더 프로그램)에 의해 그 기능이 정의되는 범용적인 병렬 프로세서로 진화하는 기초를 마련했다.

2006년 이후 GPU의 발전은 병렬 컴퓨팅과 통합 아키텍처에 집중되었다. 엔비디아는 쿠다(CUDA) 아키텍처를 발표하며 수천 개의 스레드를 동시에 처리할 수 있는 범용 스트림 프로세서 기반의 설계를 도입했다. 이는 GPGPU(General-Purpose computing on GPU) 시대를 열어 과학 시뮬레이션, 암호 해독, 이후에는 인공지능 학습 분야까지 GPU의 활용 영역을 넓혔다. 한편, AMD는 CPU와 GPU를 단일 칩에 통합한 APU(Accelerated Processing Unit)를 선보이며 전력 효율과 공간 절약에 기여했다.

2010년대 후반부터 현재까지의 진화는 실시간 레이 트레이싱과 AI 업스케일링 기술을 중심으로 이루어지고 있다. 엔비디아의 튜링 및 앰퍼 아키텍처는 전용 RT 코어와 텐서 코어를 도입하여 실시간 광선 추적과 딥 러닝 슈퍼 샘플링(DLSS)을 가능하게 했다. AMD와 인텔도 각각 RDNA 2/3 아키텍처와 인텔 ARC를 통해 레이 트레이싱 가속 및 FSR(FidelityFX Super Resolution) 같은 경쟁 기술을 제시하며, GPU의 역할을 시각적 충실도와 계산 성능을 함께 끌어올리는 플랫폼으로 확장하고 있다.

2.3. 최근 동향 (AI, 클라우드)

GPU의 활용 영역은 고성능 컴퓨팅과 인공지능 분야로 빠르게 확장되었다. 특히 딥 러닝 모델의 훈련과 추론 과정에서 필요한 대규모 행렬 연산은 GPU의 병렬 처리 구조에 매우 적합하여, AI 가속기로서의 역할이 두드러지게 되었다. NVIDIA는 이 흐름에 맞춰 CUDA 플랫폼과 텐서 코어라는 전용 하드웨어를 도입하여 AI 연산 성능을 극대화했으며, AMD 역시 ROCm 플랫폼과 매트릭스 코어를 통해 경쟁하고 있다[1]. 이로 인해 데이터 센터와 연구 기관에서 GPU는 과학적 시뮬레이션과 더불어 AI 연구의 핵심 자원이 되었다.

클라우드 컴퓨팅 환경에서 GPU 제공 모델도 진화하고 있다. 사용자가 고가의 물리적 GPU 하드웨어를 직접 구매하지 않고도, 클라우드 서비스 공급자를 통해 가상화된 GPU 자원을 필요에 따라 임대할 수 있는 GPU as a Service 모델이 보편화되었다. 주요 서비스로는 AWS의 EC2 G 인스턴스, Microsoft Azure의 NV 시리즈, Google Cloud의 A2 VM 등이 있다. 이는 소규모 개발자나 기업이 AI 모델 개발이나 대용량 렌더링 작업에 접근하는 장벽을 크게 낮추는 효과를 가져왔다.

한편, 엣지 컴퓨팅과 자율 주행 차량 같은 실시간 처리가 중요한 분야에서는 저전력 고효율의 모바일 및 임베디드 GPU에 대한 수요가 증가하고 있다. 또한 메타버스와 고도화된 가상 현실 환경 구축을 위해서는 실시간 레이 트레이싱과 복잡한 물리 엔진 연산을 처리할 수 있는 GPU의 성능이 더욱 중요해지고 있다. 이처럼 GPU는 단순한 그래픽 렌더링 장치를 넘어, 현대 컴퓨팅의 다양한 병렬 워크로드를 처리하는 범용 가속 처리 장치의 중심으로 자리 잡고 있다.

3. 아키텍처와 구성 요소

스트림 프로세서 또는 쿠다 코어는 GPU의 가장 핵심적인 연산 유닛이다. 이들은 수천 개에서 수만 개까지 병렬로 배열되어 있으며, 벡터 연산과 행렬 연산과 같은 대규모 병렬 작업을 처리하는 데 특화되어 있다. NVIDIA 아키텍처에서는 이들을 쿠다 코어라고 부르며, AMD는 스트림 프로세서라는 용어를 사용한다. 이 코어들은 그래픽 파이프라인의 셰이더 프로그램 실행을 담당하며, 최근에는 인공지능 추론과 과학 연산에도 광범위하게 활용된다.

비디오 메모리(VRAM)는 GPU가 프레임 버퍼, 텍스처, 지오메트리 데이터 등을 저장하는 전용 고속 메모리이다. 주로 GDDR SDRAM이 사용되며, 고성능 워크스테이션 및 데이터센터 GPU에는 대역폭이 더 높은 HBM(High Bandwidth Memory)이 적용되기도 한다. VRAM의 용량과 대역폭은 고해상도 텍스처를 로드하거나 복잡한 장면을 렌더링할 때 성능 병목을 결정하는 핵심 요소가 된다.

구성 요소	주요 역할	대표적 기술/표준
연산 코어	병렬 데이터 처리 (셰이딩, AI 연산)	NVIDIA 쿠다 코어, AMD 스트림 프로세서
비디오 메모리	그래픽 데이터 고속 저장	GDDR6/GDDR6X, HBM2e
버스 인터페이스	CPU 및 시스템 메모리와의 데이터 통로	PCI 익스프레스(PCIe)
쿨링 시스템	발열 관리 및 클럭 유지	팬 히트싱크, 증기 챔버, 수냉

GPU는 PCI 익스프레스(PCIe) 버스를 통해 마더보드의 슬롯에 연결되어 중앙 처리 장치 및 시스템 메모리와 데이터를 교환한다. PCIe 버스의 세대(예: PCIe 4.0, 5.0)와 레인 수는 데이터 전송 대역폭을 결정한다. 높은 전력 소비로 인해 효과적인 쿨링 시스템은 필수적이다. 공랭식 팬 히트싱크가 가장 일반적이며, 고성능 모델에는 증기 챔버나 별도의 수냉 키트가 적용되어 발열을 관리하고 고부하 상태에서도 안정적인 성능을 유지하게 한다.

3.1. 스트림 프로세서/쿠다 코어

스트림 프로세서는 AMD의 GPU 아키텍처에서 사용되는 기본적인 병렬 연산 유닛이다. 이는 GPU의 핵심 연산 능력을 결정하며, 수백 개에서 수천 개가 집적되어 동시에 데이터를 처리한다. 각 스트림 프로세서는 정수 및 부동소수점 연산을 수행할 수 있으며, 셰이더 프로그램의 실행을 담당한다. AMD는 이 아키텍처를 GCN(그래픽스 코어 넥스트)부터 RDNA(레이디언 DNA)까지 발전시켜 왔다.

반면, 쿠다 코어는 NVIDIA의 전용 병렬 프로세싱 아키텍처인 쿠다 플랫폼을 위한 연산 코어이다. 쿠다 코어는 단순한 그래픽 렌더링을 넘어 범용 병렬 연산(GPGPU)에 최적화되어 있다. 각 코어는 하나의 부동소수점 연산(FP32) 또는 정수 연산(INT32)을 동시에 처리할 수 있으며, NVIDIA의 아키텍처 발전에 따라 성능과 효율이 지속적으로 향상되었다.

두 유닛의 주요 차이점은 설계 철학과 활용 범위에 있다. 아래 표는 간략한 비교를 보여준다.

특징	스트림 프로세서 (AMD)	쿠다 코어 (NVIDIA)
주요 목적	그래픽 렌더링 및 범용 연산	범용 병렬 연산(GPGPU) 및 그래픽 렌더링
소속 플랫폼	AMD Radeon GPU	NVIDIA CUDA 플랫폼
프로그래밍 모델	OpenCL, ROCm, DirectX	CUDA, DirectX
아키텍처 예시	GCN, RDNA	Tesla, Fermi, Kepler, Ampere, Lovelace

스트림 프로세서와 쿠다 코어의 수는 GPU의 이론적 연산 성능을 나타내는 TFLOPS 지표에 직접적인 영향을 미친다. 그러나 실제 성능은 메모리 대역폭, 캐시 구조, 코어 클럭, 그리고 소프트웨어 및 드라이버 최적화에 크게 의존한다. 따라서 단순한 코어 수 비교만으로 전체 성능을 판단하는 것은 한계가 있다.

3.2. 비디오 메모리 (VRAM)

비디오 메모리, 흔히 VRAM(Video Random Access Memory)으로 불리며, GPU가 그래픽 데이터와 텍스처, 프레임 버퍼, 셰이더 프로그램, 기하 도형 정보 등을 저장하기 위해 사용하는 전용 고속 메모리이다. 시스템 메인 메모리(RAM)와는 별도로 그래픽 카드에 직접 장착되어, GPU 코어와 매우 높은 대역폭으로 데이터를 교환한다.

VRAM의 주요 특성은 대역폭과 용량이다. 대역폭은 GPU가 메모리에서 데이터를 읽고 쓸 수 있는 속도를 결정하며, 초당 기가바이트(GB/s) 단위로 측정된다. 이는 메모리 인터페이스 비트 폭(예: 128-bit, 256-bit, 384-bit)과 메모리 클럭 속도에 의해 결정된다. 고대역폭은 고해상도 텍스처를 빠르게 로드하거나 복잡한 장면을 렌더링할 때 필수적이다. 용량은 한 번에 처리할 수 있는 데이터의 양을 결정하며, 고해상도 모니터(예: 4K, 8K), 고품질 텍스처 팩, 복잡한 레이 트레이싱 효과를 사용할 때 중요해진다.

VRAM은 다양한 물리적 타입이 존재하며, 그 발전은 GPU 성능 향상과 궤를 같이한다. 주요 타입의 변천은 다음과 같다.

메모리 타입	주요 특징 및 시대
SDRAM / DDR	초기 그래픽 카드에 사용된 비교적 단순한 타입이다.
GDDR (Graphics DDR)	그래픽 용도로 최적화된 DDR 메모리로, 여러 세대(GDDR5, GDDR6, GDDR6X 등)로 발전했다. 높은 클럭과 대역폭을 제공하여 현재 대부분의 게이밍 GPU의 표준이다.
HBM (High Bandwidth Memory)	다이를 적층하고 광범위한 인터페이스를 통해 GPU 다이와 직접 연결하는 방식이다. 상대적으로 낮은 클럭으로도 매우 높은 대역폭과 낮은 전력 소비를 실현하지만, 제조 비용이 높다. 주로 고성능 컴퓨팅(HPC) 및 고급 워크스테이션 GPU에 사용된다.
LPDDR (Low Power DDR)	주로 모바일 및 통합 그래픽 솔루션에서 전력 효율성을 위해 사용된다. 최근에는 일부 데스크톱 통합 GPU에도 적용된다.

VRAM의 용량과 속도는 그래픽 성능의 병목 현상을 일으키는 주요 요소 중 하나이다. 용량이 부족하면 시스템 메인 메모리로 데이터를 스왑해야 하며, 이는 심각한 성능 저하와 프레임률 불안정을 초래한다. 따라서 사용 목적(예: e스포츠 게임, 4K 게이밍, AI 모델 학습)에 맞는 충분한 VRAM 용량을 선택하는 것이 중요하다.

3.3. 버스 인터페이스 (PCIe)

버스 인터페이스는 GPU가 컴퓨터의 메인보드 및 CPU와 데이터를 주고받는 물리적 연결 통로이자 통신 규격이다. 이 인터페이스의 대역폭과 속도는 GPU의 성능을 최대한 끌어내는 데 결정적인 역할을 한다. 역사적으로 AGP와 PCI 버스가 사용되었으나, 2000년대 초반 이후로는 PCIe 규격이 절대적인 표준으로 자리 잡았다.

PCIe는 고속 직렬(point-to-point) 연결 방식을 사용하며, 레인 수에 따라 대역폭이 결정된다. 일반적인 그래픽 카드는 16개의 레인을 사용하는 PCIe x16 슬롯에 장착된다. PCIe 규격은 지속적으로 발전해 왔으며, 주요 버전별 이론적 대역폭은 다음과 같다.

PCIe 버전	x16 레인 당 대역폭 (단방향)	x16 레인 당 대역폭 (양방향)
PCIe 3.0	약 16 GB/s	약 32 GB/s
PCIe 4.0	약 32 GB/s	약 64 GB/s
PCIe 5.0	약 64 GB/s	약 128 GB/s
PCIe 6.0	약 128 GB/s	약 256 GB/s

새로운 PCIe 버전은 하위 호환성을 유지한다. 즉, PCIe 4.0 GPU를 PCIe 3.0 슬롯에 장착해도 작동은 하지만, 최대 대역폭은 PCIe 3.0 수준으로 제한된다. 고해상도 게임이나 대용량 데이터를 처리하는 GPU 컴퓨팅 작업에서는 높은 버전의 PCIe 인터페이스가 성능 병목 현상을 줄이는 데 유리하다.

PCIe 인터페이스는 GPU에 전력을 공급하는 수단이기도 하다. 기본적으로 PCIe 슬롯 자체가 최대 75W까지 전력을 공급할 수 있다. 이보다 높은 전력이 필요한 고성능 GPU의 경우, 메인보드에서 직접 연결하는 별도의 전원 커넥터(예: 6핀 또는 8핀 PCIe 전원 커넥터)를 추가로 사용한다.

3.4. 쿨링 시스템

그래픽 처리 장치의 쿨링 시스템은 고성능 연산 과정에서 발생하는 열을 효과적으로 방출하여 칩의 온도를 안정적으로 유지하는 역할을 한다. GPU는 고밀도 집적 회로로 구성되어 높은 클럭 속도와 전력 소비에서 많은 열을 발생시키며, 이 열이 제거되지 않으면 스로틀링 성능 저하나 하드웨어 손상으로 이어질 수 있다. 따라서 적절한 냉각은 GPU의 성능과 수명을 보장하는 핵심 요소이다.

쿨링 방식은 크게 공랭식, 수랭식, 그리고 최근 주목받는 증기 챔버 방식으로 구분된다. 공랭식은 방열판과 팬을 조합한 가장 일반적인 방식으로, 팬이 회전하여 방열판에 전달된 열을 주변 공기로 날려 보낸다. 수랭식은 워터 블록을 GPU에 장착하고, 냉각수가 순환하며 열을 흡수한 뒤 라디에이터에서 냉각되는 방식을 사용한다. 증기 챔버 방식은 얇은 밀봉된 공간 내의 냉매가 기화와 응축을 반복하며 열을 빠르고 균일하게 전달하는 원리를 적용한다.

각 방식의 특징은 다음과 같이 비교할 수 있다.

방식	주요 구성 요소	장점	단점
공랭식	방열판, 히트파이프, 팬	구조가 단순하고 가격이 저렴하며 유지보수가 쉽다.	상대적으로 냉각 효율이 낮고 소음이 클 수 있다.
수랭식	워터 블록, 펌프, 라디에이터, 호스, 팬	우수한 냉각 성능과 낮은 소음을 제공한다.	시스템이 복잡하고 설치가 어려우며, 누수 위험이 존재한다.
증기 챔버	증기 챔버, 방열판, 팬	열 전달 효율이 매우 높아 핫스팟을 효과적으로 해소한다.	제조 단가가 높고 주로 고급 모델에 적용된다.

최근 고성능 개별 GPU는 TDP가 급격히 증가함에 따라 더욱 강력하고 정교한 쿨링 솔루션을 요구한다. 제조사들은 다수의 팬, 대형 방열판, 고효율 히트파이프 배열을 조합하거나, 수직 장착 케이스의 공기 흐름을 고려한 팬 정지 기술을 도입한다. 또한 사용자는 팬 커브를 조정하거나 서멀 패드를 재도포하는 방식으로 쿨링 성능을 개선하기도 한다.

4. 주요 기능과 기술

래스터화는 3차원 장면을 구성하는 폴리곤을 2차원 화면의 픽셀 배열로 변환하는 과정이다. 이 과정은 렌더링 파이프라인이라는 일련의 단계를 통해 이루어진다. 파이프라인은 일반적으로 버텍스 셰이딩, 지오메트리 셰이딩, 래스터화, 픽셀 셰이딩 등의 단계를 포함한다. 각 단계는 GPU 내의 전용 하드웨어 유닛이나 프로그래머블 셰이더 코어에 의해 처리된다.

셰이딩은 물체의 색상, 명암, 질감을 결정하는 핵심 기술이다. 버텍스 셰이더는 3D 모델의 꼭짓점 위치를 변환하고, 지오메트리 셰이더는 폴리곤을 생성하거나 변형하며, 픽셀 셰이더(또는 프래그먼트 셰이더)는 최종 화면의 각 픽셀 색상을 계산한다. 최근에는 더 유연한 범용 셰이더 아키텍처가 보편화되었다.

레이 트레이싱은 빛의 물리적 경로를 추적하여 사실적인 반사, 굴절, 그림자 효과를 구현하는 렌더링 기법이다. 기존의 래스터화 기법보다 훨씬 정확한 결과를 제공하지만, 연산량이 매우 많다. 따라서 현대 GPU는 전용 RT 코어(레이 트레이싱 코어)를 탑재하여 이 부하를 가속한다. 실시간 레이 트레이싱은 주로 DirectX Raytracing 또는 Vulkan Ray Tracing 같은 API를 통해 활용된다.

AI 업스케일링 기술은 낮은 해상도로 렌더링한 이미지를 인공지능을 이용해 고해상도로 변환하여 성능을 높인다. NVIDIA의 DLSS는 전용 Tensor Core를 사용하며, AMD의 FSR은 샘플링 알고리즘에 기반한다. 이 기술들은 고사양 게임에서 프레임률을 크게 향상시키는 핵심 요소가 되었다.

주요 기능	설명	관련 하드웨어/기술
래스터화(Rasterization)	3D 폴리곤을 2D 픽셀로 변환	ROP(래스터 운영 프로세서)
레이 트레이싱(Ray Tracing)	빛의 경로 추적으로 사실적인 조명 구현	RT 코어
AI 업스케일링(AI Upscaling)	AI를 이용한 저해상도 이미지 고화질 변환	Tensor Core(DLSS), 샘플링 알고리즘(FSR)
셰이딩(Shading)	버텍스, 픽셀 등의 속성(색, 명암) 계산	프로그래머블 셰이더 코어

4.1. 래스터화 및 렌더링 파이프라인

래스터화는 3차원 컴퓨터 그래픽스에서 폴리곤으로 구성된 와이어프레임 모델을 2차원 픽셀 이미지로 변환하는 핵심 과정이다. 렌더링 파이프라인은 이 변환을 수행하기 위해 데이터가 거쳐야 하는 일련의 단계적 처리 과정을 의미한다. 전통적인 그래픽 파이프라인은 크게 애플리케이션 단계, 지오메트리 단계, 그리고 래스터화 단계로 구분된다.

애플리케이션 단계는 CPU에서 주로 처리되며, 가상 세계의 물체 데이터를 준비하고, 사용자 입력을 처리하며, 다음 단계로 보낼 장면 정보를 구성한다. 지오메트리 단계는 GPU의 버텍스 셰이더가 담당하며, 모델의 정점(버텍스)들을 3차원 공간에서 변환하고 조명을 계산한다. 주요 작업으로는 모델 변환, 뷰 변환, 투영 변환, 클리핑, 그리고 화면 공간으로의 변환이 포함된다. 이 단계를 거쳐 3차원 장면은 2차원 화면에 투영된 폴리곤 집합으로 변환된다.

래스터화 단계는 투영된 2차원 폴리곤을 실제 화면의 픽셀로 채우는 작업이다. 이 과정은 스캔 변환으로도 불리며, 픽셀 셰이더(또는 프래그먼트 셰이더)가 핵심 역할을 수행한다. 각 폴리곤이 차지하는 픽셀 영역을 결정하고, 텍스처 매핑, 깊이 테스트(Z-버퍼링), 알파 블렌딩 등을 통해 각 픽셀의 최종 색상 값을 계산한다. 래스터화의 효율성은 필레이트라는 지표로 측정되며, 이는 GPU가 초당 얼마나 많은 픽셀을 채울 수 있는지를 나타낸다.

최신 그래픽 파이프라인은 고정 기능에서 프로그래머블 기능으로 진화했다. 지오메트리 셰이더와 테셀레이션 단계가 추가되어 더 복잡하고 세밀한 지오메트리를 실시간으로 생성할 수 있게 되었다. 또한 컴퓨트 셰이더의 도입으로 그래픽 연산 외의 일반 목적 연산도 GPU에서 처리 가능해지면서 파이프라인의 유연성이 크게 증가했다.

4.2. 셰이딩 (버텍스, 픽셀, 지오메트리)

셰이딩은 3차원 컴퓨터 그래픽스에서 폴리곤으로 구성된 메시의 표면에 색상, 질감, 광택, 그림자 등을 부여하여 사실감을 만들어내는 과정이다. 이 과정은 그래픽 처리 장치 내의 전용 셰이더 프로세서에서 실행되는 작은 프로그램인 셰이더에 의해 처리된다. 셰이딩의 종류는 처리하는 데이터의 종류와 파이프라인 내 위치에 따라 구분된다.

가장 기본적인 셰이더 유형은 버텍스 셰이더와 픽셀 셰이더이다. 버텍스 셰이더는 3D 모델을 구성하는 각 정점의 위치, 색상, 텍스처 좌표 등을 처리한다. 주로 모델의 변형(이동, 회전, 크기 조절), 골격 애니메이션, 조명에 대한 기본 계산을 수행한다. 그 결과는 래스터화 단계로 전달되어 폴리곤 내부의 픽셀들로 채워진다. 이렇게 생성된 각 픽셀의 최종 색상은 픽셀 셰이더(또는 프래그먼트 셰이더)가 결정한다. 픽셀 셰이더는 텍스처 매핑, 픽셀 단위 조명, 그림자, 안개 효과 등을 계산하여 화면에 출력될 색상 값을 생성한다.

더 복잡한 기하학적 처리를 위해 지오메트리 셰이더가 도입되었다. 이 셰이더는 버텍스 셰이더 처리 후, 래스터화 전 단계에서 동작한다. 지오메트리 셰이더는 프리미티브(점, 선, 삼각형) 단위로 데이터를 입력받아 새로운 정점을 생성하거나 프리미티브의 형태를 변형할 수 있다. 이를 통해 폴리곤의 실시간 세분화, 파티클 시스템 생성, 실시간 실루엣 에지 추출 등 동적인 기하학적 효과를 구현한다. 현대 GPU 아키텍처에서는 이들 고정 기능 셰이더 단계가 통합된 범용적인 스트림 프로세서 또는 쿠다 코어 배열로 진화하여 더욱 유연한 프로그래밍이 가능해졌다.

셰이더 유형	처리 단위	주요 역할	파이프라인 위치
버텍스 셰이더	정점(Vertex)	정점 변환, 조명 기초 계산	래스터화 전
지오메트리 셰이더	프리미티브(Primitive)	기하구조 변형/생성	버텍스 처리 후, 래스터화 전
픽셀 셰이더 (프래그먼트 셰이더)	픽셀(Fragment)	최종 색상, 텍스처, 조명 계산	래스터화 후

4.3. 레이 트레이싱

레이 트레이싱은 3차원 컴퓨터 그래픽스에서 사실적인 조명 효과를 생성하기 위한 렌더링 기법이다. 이 기술은 가상의 광선을 장면 내에서 추적하여 빛과 표면의 상호작용을 물리 법칙에 기반해 시뮬레이션한다. 기존의 래스터화 방식이 미리 계산된 정보와 근사치에 의존하는 반면, 레이 트레이싱은 광선의 경로를 직접 계산하여 반사, 굴절, 소프트 섀도우, 글로벌 일루미네이션 등의 복잡한 광학 현상을 매우 정확하게 구현할 수 있다.

기술적 구현 측면에서, 레이 트레이싱은 각 픽셀에서 카메라를 통해 발사된 광선이 장면의 지오메트리와 충돌하는 지점과 방향을 재귀적으로 계산한다. 이 과정은 연산 집약적이어서 실시간 적용이 오랫동안 어려웠으나, RT 코어와 같은 전용 하드웨어 가속기의 등장으로 게임과 같은 실시간 응용 프로그램에서도 점차 활용되기 시작했다. 주요 GPU 제조사들은 이 기술을 지원하는 자체 아키텍처를 개발해 왔다.

특징	설명
핵심 원리	픽셀에서 발사된 광선의 경로를 추적하여 빛의 물리적 행동 모방
구현 효과	정확한 반사, 굴절, 그림자, 간접 조명(글로벌 일루미네이션)
연산 부하	매우 높음, 전용 하드웨어 가속(예: RT 코어) 필요
주요 API 지원	DirectX Raytracing(DXR), Vulkan Ray Tracing, OpenGL 확장

실시간 레이 트레이싱의 보급에는 하이브리드 렌더링 방식이 큰 역할을 했다. 순수 레이 트레이싱만으로 전체 장면을 렌더링하는 것은 여전히 부담이 크기 때문에, 현실적인 성능을 위해 전통적인 래스터화 기법으로 기본 장면을 그리고, 반사나 그림자 등 특정 효과에만 레이 트레이싱을 선택적으로 적용하는 방식이 일반적이다. 이는 DLSS나 FSR 같은 AI 기반 업스케일링 기술과 결합되어 성능 손실을 최소화하면서 시각적 품질을 크게 향상시킨다.

4.4. AI 업스케일링 (DLSS, FSR)

AI 업스케일링은 그래픽 처리 장치의 렌더링 성능을 향상시키기 위해 인공지능과 머신 러닝을 활용하는 기술이다. 이 기술은 낮은 해상도로 장면을 렌더링한 후, AI 모델을 통해 목표 해상도로 화질을 복원 및 향상시킨다. 결과적으로 더 높은 프레임 레이트를 유지하면서 고해상도 이미지의 시각적 품질에 근접한 결과를 얻을 수 있다. 이는 특히 실시간 렌더링이 요구되는 비디오 게임 분야에서 성능과 화질 간의 균형을 혁신적으로 개선했다.

주요 기술로는 NVIDIA의 DLSS와 AMD의 FSR이 대표적이다. DLSS는 GPU 내 전용 AI 가속 코어인 텐서 코어를 활용하여 초고해상도 기준으로 학습된 신경망 모델을 실행한다. 반면, FSR은 주로 공간 업스케일링 알고리즘에 기반하며, 최신 버전에서는 시간적 데이터와 간소화된 AI 모델을 추가로 활용한다. 두 기술 모두 게임 개발자가 자사의 게임 엔진에 통합하여 사용자에게 제공한다.

기술	주요 특징	필요한 하드웨어
DLSS	전용 AI 코어(텐서 코어) 활용, 초고해상도 기준 학습	NVIDIA RTX 시리즈 GPU
FSR	공간/시간적 업스케일링 알고리즘 중심, 오픈 소스 접근	다양한 브랜드의 GPU (공급업체 불문)

이러한 기술의 적용은 레이 트레이싱과 같이 연산 집약적인 그래픽 효과를 사용할 때 그 효용이 두드러진다. AI 업스케일링은 기본 렌더링 해상도를 낮춰 GPU의 연산 부하를 줄인 다음, 최종 출력 단계에서 화질을 보정하기 때문이다. 이로 인해 고사양 게임에서도 더 부드러운 플레이 경험을 제공하는 것이 가능해졌다. 기술의 발전에 따라 업스케일링 외에도 안티에일리어싱, 프레임 생성 등의 보조 기능도 함께 제공되는 추세이다.

5. 종류와 분류

그래픽 처리 장치(GPU)는 설계 목적과 물리적 형태, 적용 분야에 따라 여러 종류로 분류된다. 주된 분류 기준은 마더보드와의 통합 방식이며, 이를 기준으로 통합 GPU(iGPU)와 개별 GPU(dGPU)로 크게 나눌 수 있다.

통합 GPU는 중앙 처리 장치(CPU) 패키지 내부나 칩셋에 직접 내장되어 하나의 다이로 제작된다. 주로 인텔의 HD Graphics나 UHD Graphics, AMD의 APU에 내장된 Radeon 그래픽스, 애플 실리콘의 통합 그래픽이 이에 해당한다. 전력 소비가 낮고 추가 비용이 발생하지 않아 기본적인 2D 가속, 비디오 재생, 경량 3D 작업에 적합하며, 노트북과 데스크톱의 기본 구성이나 임베디드 시스템에서 널리 사용된다. 개별 GPU는 별도의 확장 카드 형태로 존재하며, 전용 비디오 메모리(VRAM)와 강력한 쿨링 시스템을 갖추고 있다. NVIDIA GeForce나 AMD Radeon 시리즈가 대표적이며, 고성능 게이밍, 전문가용 콘텐츠 제작, 과학 연산 등 높은 그래픽 처리 성능이 요구되는 분야에서 사용된다.

응용 분야와 시장에 따라 다음과 같이 더 세분화하여 볼 수 있다.

종류	주요 특징	대표적 용도	예시
통합 GPU (iGPU)	CPU와 일체형, 낮은 전력/발열, 비용 효율적	기본 오피스 작업, 웹 브라우징, 초경량 게임	Intel UHD Graphics, AMD Radeon Graphics (APU 내장)
개별 GPU (dGPU)	별도 확장 카드, 전용 VRAM, 고성능	고사양 게이밍, 3D 렌더링, 영상 편집	NVIDIA GeForce RTX, AMD Radeon RX
워크스테이션 GPU	전문가용 검증, 고정밀도 연산, 특화 드라이버	CAD, DCC, 과학 시뮬레이션	NVIDIA RTX A / Quadro, AMD Radeon Pro
서버/데이터센터 GPU	고밀도 가상화, 에너지 효율, 대규모 병렬 처리	AI 학습/추론, 클라우드 게이밍, HPC	NVIDIA Tesla / A100, AMD Instinct
모바일 GPU	낮은 전력 설계(Low Power), 소형 패키지	스마트폰, 태블릿, 울트라북	ARM Mali, 퀄컴 Adreno, Apple GPU

모바일 GPU는 스마트폰과 태블릿 같은 휴대용 장치에 최적화되어 있으며, 극도의 전력 효율과 소형화가 핵심이다. 워크스테이션 GPU는 게이밍 GPU와 유사한 하드웨어를 사용하지만, OpenGL이나 Vulkan 같은 전문 그래픽 API에서의 안정성과 정확성을 보장하는 검증된 드라이버와 펌웨어를 제공한다. 한편, 서버 GPU나 데이터센터 GPU는 인공지능 모델 학습이나 고성능 컴퓨팅(HPC)과 같은 병렬 연산 작업에 특화되어 있으며, 종종 NVLink나 인피니밴드 같은 고대역폭 상호 연결 기술을 지원한다.

5.1. 통합 GPU (iGPU)

통합 GPU(iGPU)는 중앙 처리 장치(CPU)와 동일한 다이 또는 패키지 내에 통합되어 있는 그래픽 처리 장치를 의미한다. 주로 마더보드의 노스브리지 칩셋에 포함되거나, 최신 CPU에는 직접 다이 내에 통합되는 형태로 설계된다. 이는 별도의 그래픽 카드(개별 GPU)를 필요로 하지 않아 시스템 비용과 전력 소비를 절감하며, 소형 및 저전력 장치에 적합한 솔루션을 제공한다.

초기 통합 그래픽 솔루션은 기본적인 2D 가속과 비디오 출력 기능에 국한되었으나, 기술 발전에 따라 3D 가속 성능이 크게 향상되었다. 주요 반도체 제조사인 인텔, AMD, ARM 등이 각자의 CPU 플랫폼에 통합 GPU를 제공하고 있다. 예를 들어, 인텔의 UHD Graphics 또는 Iris Xe 그래픽, AMD의 Radeon Graphics(APU 내장) 등이 대표적이다.

통합 GPU의 성능은 전용 비디오 메모리(VRAM)를 갖지 않고 시스템 메모리(RAM)의 일부를 공유하여 사용한다는 점에서 제한적이다. 이로 인해 메모리 대역폭과 용량이 시스템 성능에 직접적인 영향을 미친다. 주된 용도는 일반 사무 업무, 웹 브라우징, 미디어 재생, 캐주얼 게임이며, 고사양 3D 게임이나 전문적인 콘텐츠 제작에는 일반적으로 개별 GPU가 요구된다.

특성	설명
장점	시스템 비용 절감, 낮은 전력 소비 및 발열, 소형화 가능
단점	제한적인 그래픽 성능, 시스템 메모리 공유로 인한 대역폭 한계
주요 적용 분야	노트북, 울트라북, 소형 폼팩터 PC, 베어본 시스템, 임베디드 장치
성능 추세	CPU와의 긴밀한 통합 및 아키텍처 발전으로 이전보다 향상된 게임 및 미디어 성능 제공[2]

5.2. 개별 GPU (dGPU)

개별 GPU는 메인보드의 확장 슬롯(주로 PCIe)에 별도의 카드 형태로 장착되는 그래픽 처리 장치이다. 통합 GPU와 달리 독자적인 비디오 메모리(VRAM)와 전원 공급 회로, 강력한 쿨링 시스템을 갖추고 있어 훨씬 높은 그래픽 처리 성능과 연산 능력을 제공한다. 주로 고사양 PC 게임, 전문적인 3D 렌더링, 과학 연산, 인공지능 학습 등 고성능 컴퓨팅이 필요한 분야에서 사용된다.

개별 GPU의 성능은 주로 스트림 프로세서 또는 쿠다 코어의 수, GPU 클럭 속도, VRAM의 용량과 대역폭에 의해 결정된다. 주요 제조사인 NVIDIA와 AMD는 각각 GeForce/Quadro 시리즈와 Radeon 시리즈를 통해 게이밍 및 전문가용 개별 GPU 시장을 주도해 왔다. 최근에는 인텔도 Arc 시리즈로 이 시장에 진출하였다.

개별 GPU 시장은 사용 용도와 가격대에 따라 세분화된다. 일반 소비자용 게이밍 GPU는 보급형, 메인스트림, 고성능, 플래그십 등으로 계층화되어 있으며, 전문가용 워크스테이션 GPU는 CAD나 DCC 소프트웨어에 대한 검증과 안정성, 대용량 메모리를 강조한다. 서버용 GPU는 데이터센터에서 머신러닝과 HPC 작업을 가속화하는 데 특화되어 있다.

개별 GPU의 발전은 PCIe 버스 표준의 진화, 레이 트레이싱 및 AI 업스케일링 같은 새로운 렌더링 기술의 도입, 그리고 다중 GPU 구성을 위한 SLI나 크로스파이어와 같은 인터페이스 기술과 밀접하게 연관되어 있다. 그러나 최근에는 다중 GPU 기술의 효용성이 감소하는 추세이다.

5.3. 워크스테이션 및 서버 GPU

워크스테이션 및 서버 GPU는 고정밀 CAD, 과학 시뮬레이션, 데이터 센터 가속과 같은 전문가용 및 엔터프라이즈 환경에 특화된 제품군이다. 이들은 개인용 게이밍 GPU와는 다른 신뢰성, 정확성, 그리고 소프트웨어 인증을 요구하는 업무에 사용된다. 워크스테이션 GPU는 OpenGL 및 DirectX의 전문가용 버전인 OpenGL Professional과 DirectX Workstation 드라이버를 탑재하여 솔리드웍스, 오토캐드, 마야 등의 소프트웨어에서 최적의 안정성과 성능을 보장한다. 또한, 서버 GPU는 가상화 환경에서 다수의 사용자에게 그래픽 자원을 분배하거나, 머신러닝 모델 학습과 HPC 연산을 가속화하는 데 주로 활용된다.

주요 제조사들은 이러한 시장을 위해 별도의 제품 라인을 운영한다. NVIDIA는 전문 그래픽 작업을 위한 Quadro(현재는 NVIDIA RTX로 통합) 라인과, 데이터 센터에서의 연산 가속을 위한 Tesla 및 Ampere, Hopper 아키텍처 기반의 데이터센터 GPU를 제공한다. AMD는 Radeon Pro 시리즈를 워크스테이션 시장에, 그리고 Instinct 시리즈를 AI 및 고성능 컴퓨팅용 서버 시장에 공급한다. Intel도 Arc Pro 시리즈를 통해 이 시장에 진입하고 있다.

이들 GPU의 특징은 다음과 같이 요약할 수 있다.

특징	워크스테이션 GPU	서버/데이터센터 GPU
주요 목적	전문 3D 렌더링, 엔지니어링 설계, 콘텐츠 제작	가상 데스크톱 인프라, 딥 러닝 학습, 과학적 시뮬레이션
핵심 요소	ECC 메모리 지원, ISV 인증 드라이버, 높은 정밀도 연산	높은 에너지 효율, 다중 GPU 확장성, 고대역폭 메모리(예: HBM)
인터페이스	일반적으로 PCIe 슬롯에 장착	PCIe 슬롯 또는 서버 전용 폼팩터(예: SXM 모듈)
대표 제품	NVIDIA RTX A 시리즈, AMD Radeon Pro W 시리즈	NVIDIA H100, AMD Instinct MI300, Intel Gaudi

이러한 GPU들은 일반 소비자용 제품보다 높은 가격대를 형성하지만, 업무 중 발생할 수 있는 그래픽 오류를 최소화하고, 대용량 데이터셋과 복잡한 모델을 처리하는 데 필요한 극한의 성능과 안정성을 제공한다. 특히 서버 GPU는 쿠다 및 ROCm과 같은 병렬 컴퓨팅 플랫폼과 결합되어, 인공지능 연구와 빅데이터 분석의 핵심 인프라로 자리 잡았다.

5.4. 모바일 GPU

모바일 GPU는 스마트폰, 태블릿 컴퓨터, 노트북 및 휴대용 게임기와 같은 모바일 장치에 통합되거나 탑재되어 그래픽 처리를 담당하는 장치이다. 주요 설계 목표는 높은 성능과 더불어 낮은 전력 소비와 발열 관리에 있다. 이는 제한된 배터리 용량과 소형 폼팩터 내에서의 열 방출 능력 때문이다. 초기 모바일 GPU는 기본적인 2D 가속과 비디오 디코딩에 중점을 뒀지만, 현대 모바일 GPU는 고해상도 디스플레이, 고사양 3D 게임, 증강 현실(AR) 및 가상 현실(VR) 콘텐츠를 원활하게 구동할 수 있을 정도로 발전했다.

모바일 GPU는 크게 두 가지 형태로 존재한다. 하나는 모바일 AP(Application Processor) 또는 SoC(System on a Chip) 내에 통합된 형태이다. 퀄컴의 Adreno, ARM의 Mali, 애플의 자체 설계 GPU, 이매지네이션 테크놀로지스의 PowerVR 시리즈가 대표적이다. 다른 하나는 고성능 노트북을 위해 설계된 개별 칩 형태의 모바일 GPU이다. 엔비디아의 GeForce MX 및 RTX 시리즈, AMD의 Radeon RX M 시리즈 등이 있으며, 이들은 데스크톱 GPU와 유사한 아키텍처를 기반으로 하되 전력 소비와 발열을 줄이도록 최적화된다.

성능과 효율성의 균형을 맞추기 위해 모바일 GPU는 다양한 기술을 활용한다. 동적 주파수 조절과 전압 조절은 작업 부하에 따라 실시간으로 성능과 전력을 조정한다. 또한, 멀티코어 CPU와 GPU가 메모리와 전원을 공유하는 통합 설계는 데이터 이동에 따른 지연과 전력 소모를 줄인다. 최근에는 모바일 장치에서도 머신러닝 가속과 고급 셰이딩 기술이 지원되며, AI 업스케일링 기술의 모바일 버전도 등장하고 있다.

제조사/디자이너	GPU 시리즈 이름	주요 적용 장치/플랫폼
ARM	Mali	삼성 엑시노스, 미디어텍 디멘시티 등 다양한 SoC
퀄컴	Adreno	퀄컴 스냅드래곤 SoC
애플	Apple GPU (사실상 명칭 없음)	Apple A 시리즈, M 시리즈 SoC
이매지네이션 테크놀로지스	PowerVR	과거 Apple A 시리즈, 인텔 아톰 등
엔비디아	GeForce Go/MX/RTX	고성능 노트북
AMD	Radeon RX M	고성능 노트북
인텔	Iris Xe Graphics	인텔 코어 프로세서 (노트북용)

6. 주요 제조사와 플랫폼

NVIDIA는 GeForce 브랜드로 게이밍 시장을 주도하며, 고성능 개별 GPU 분야에서 강력한 입지를 구축했다. 전문가용 워크스테이션 시장에는 Quadro(현 NVIDIA RTX로 통합) 라인업을, 데이터센터와 인공지능 연산에는 Tesla 및 NVIDIA A100 같은 서버 GPU를 제공한다. 이들의 독자적인 쿠다 코어와 RT 코어 아키텍처는 레이 트레이싱 및 AI 업스케일링 기술의 기반이 된다.

AMD는 Radeon 브랜드로 게이밍 GPU 시장에서 경쟁하며, 통합 GPU가 장착된 APU로도 알려져 있다. 고성능 컴퓨팅(HPC)과 데이터 분석 분야에서는 Instinct 시리즈를 통해 NVIDIA에 대응한다. AMD의 강점은 개방형 소프트웨어 생태계와 PCIe 버스 표준에 대한 적극적인 기여에 있다.

Intel은 오랫동안 CPU 내장 통합 GPU(iGPU) 시장을 지배해 왔으며, Iris Xe 그래픽스를 통해 성능을 향상시켰다. 최근에는 Arc 브랜드로 개별 GPU 시장에 본격적으로 진출하여 게이밍 및 크리에이티브 워크로드에 주력하고 있다.

소프트웨어 플랫폼 측면에서, 마이크로소프트의 DirectX API는 윈도우 기반 게임 및 응용 프로그램의 사실상 표준이다. 크로스 플랫폼 그래픽 API로는 개방형 표준인 OpenGL과 그 후속인 Vulkan이 있으며, 특히 Vulkan은 낮은 오버헤드와 멀티플랫폼 지원으로 주목받는다. 이들 API는 하드웨어 제조사와 무관하게 GPU의 기능을 활용할 수 있는 공통 인터페이스를 제공한다.

6.1. NVIDIA (GeForce, Quadro, Tesla)

NVIDIA는 1999년 GeForce 브랜드를 출시하며 최초의 GPU(그래픽 처리 장치)를 선보였다. 이 회사의 GPU 제품군은 크게 소비자용 GeForce, 전문가용 Quadro(현 Quadro 브랜드는 통합됨), 그리고 데이터센터 및 AI 연산용 Tesla(현 A100, H100 시리즈 등으로 진화)로 구분된다.

GeForce 라인업은 주로 게이밍과 일반 소비자 시장을 목표로 한다. RTX 시리즈는 실시간 레이 트레이싱과 AI 기반 DLSS 기술을 도입하여 그래픽 충실도와 성능을 혁신했다. GTX 및 이전 시리즈는 레거시 및 메인스트림 시장을 담당했다. 전문가용 워크스테이션 GPU는 과거 Quadro 브랜드로 출시되었으나, 현재는 NVIDIA RTX A 시리즈와 같은 통합된 라인업으로 제공되어 CAD, DCC 소프트웨어의 안정성과 정확도를 보장한다.

데이터센터 및 고성능 컴퓨팅 분야의 GPU는 초기 Tesla 브랜드를 거쳐 현재는 NVIDIA A100, H100, GH200과 같은 가속기로 발전했다. 이들은 쿠다 코어와 텐서 코어를 대규모로 집적하여 과학적 시뮬레이션, 빅데이터 분석, 딥 러닝 모델 훈련 및 추론에 특화된 성능을 제공한다. 이러한 제품들은 슈퍼컴퓨터와 클라우드 서비스의 핵심 연산 자원으로 사용된다.

제품 계열	주요 대상 시장	특징 및 주요 기술
GeForce (예: RTX 4090)	게이밍, 소비자 시장	레이 트레이싱, DLSS, 높은 프레임률
RTX / NVIDIA A 시리즈 (과거 Quadro)	전문가 워크스테이션	ISV 인증, ECC 메모리, 높은 계산 정확도
데이터센터 가속기 (예: H100)	AI, HPC, 데이터센터	텐서 코어, NVLink, 멀티-인스턴스 GPU

6.2. AMD (Radeon, Instinct)

AMD는 ATI 테크놀로지스를 인수한 이후 GPU 시장에서 NVIDIA의 주요 경쟁사로 자리 잡았다. AMD의 GPU 사업은 크게 Radeon 브랜드의 소비자 및 엔터프라이즈 제품과 AMD Instinct 브랜드의 고성능 컴퓨팅 및 AI 가속기 제품군으로 나뉜다.

Radeon 그래픽 카드는 GeForce 시리즈와 경쟁하는 게이밍 및 멀티미디어 제품 라인이다. AMD는 RDNA 아키텍처를 기반으로 한 최신 제품에서 인피니티 캐시와 고대역폭 메모리 같은 기술을 도입하여 성능과 전력 효율을 개선했다. 소프트웨어 측면에서는 AMD Software: Adrenalin Edition 드라이버와 FidelityFX Super Resolution (FSR) 업스케일링 기술을 제공하여 게임 경험을 향상시킨다. Radeon 제품군은 또한 AMD Ryzen 프로세서와의 결합을 통한 AMD 스마트 액세스 메모리 같은 플랫폼 최적화 기술도 특징이다.

AMD Instinct 시리즈는 데이터 센터와 슈퍼컴퓨터를 위한 가속 처리 장치이다. CDNA 아키텍처를 사용하며, 고성능 컴퓨팅, 머신 러닝 훈련 및 추론 작업에 최적화되어 있다. Instinct 가속기는 프론티어와 같은 엑사스케일 슈퍼컴퓨터의 핵심 연산 엔진으로 채택되었다. 이 제품군은 ROCm 소프트웨어 플랫폼을 통해 오픈 소스 생태계를 지원하며, CUDA 대안으로서의 위치를 강화하고 있다.

제품 라인	주요 대상 시장	핵심 아키텍처	주요 기술/플랫폼
Radeon	게이밍, 워크스테이션, 일반 소비자	[[RDNA (마이크로아키텍처)	RDNA]]
AMD Instinct	고성능 컴퓨팅, AI/ML, 데이터 센터	[[CDNA (마이크로아키텍처)	CDNA]]

6.3. Intel (Arc, Iris Xe)

Intel은 통합 GPU 시장에서 오랜 기간 주도적 위치를 차지해왔으며, 2022년을 기점으로 고성능 개별 GPU 시장에 본격적으로 진출했다. 주력 개별 GPU 브랜드인 Intel Arc Alchemist 아키텍처 기반 제품군은 게이밍 및 콘텐츠 제작 시장을 목표로 한다. Arc GPU는 Xe 코어를 기본 연산 유닛으로 사용하며, XeSS 업스케일링 기술과 하드웨어 가속 레이 트레이싱을 지원한다.

통합 그래픽 부문에서는 Intel Iris Xe 및 UHD Graphics 브랜드가 사용된다. Iris Xe 그래픽은 Tiger Lake 및 이후 세대의 노트북 및 데스크톱 프로세서에 내장되어, 이전 세대 대비 향상된 게이밍 및 미디어 성능을 제공한다. 주요 특징은 다음과 같다.

제품 라인	주요 대상	특징
Intel Arc	게이밍, 크리에이터 개별 GPU	Xe-HPG 아키텍처, XeSS, 레이 트레이싱, AV1 하드웨어 인코딩/디코딩 지원
Intel Iris Xe	노트북, 얇은 데스크톱 통합 GPU	Xe-LP 아키텍처, eDP 1.4b/DP 1.4 지원, 4K HDR 출력
Intel UHD Graphics	기본 사무용/엔트리 통합 GPU	기본적인 디스플레이 출력 및 가속 기능 제공

Intel의 그래픽 드라이버 및 소프트웨어 생태계는 역사적으로 약점으로 지적받아왔으나, Arc 시리즈 출시 이후 성능 최적화와 안정성 개선을 위한 지속적인 업데이트를 진행하고 있다. 또한 DirectX, Vulkan, OpenGL 등 주요 그래픽 API를 지원하며, oneAPI를 통해 헤테로지니어스 컴퓨팅 환경에서의 개발을 촉진한다.

6.4. API (DirectX, Vulkan, OpenGL)

그래픽 처리 장치가 하드웨어적 기능을 수행하려면, 소프트웨어가 이를 제어하고 명령할 수 있는 표준화된 인터페이스가 필요하다. 이러한 인터페이스를 API라 부르며, 주로 DirectX, Vulkan, OpenGL이 널리 사용된다.

DirectX는 마이크로소프트가 개발한 멀티미디어 API 모음이다. 그중 그래픽 처리와 직접 관련된 것은 Direct3D이다. 주로 마이크로소프트 윈도우 및 엑스박스 플랫폼에서 사용되며, 게임 개발 분야에서 사실상의 표준 지위를 차지하고 있다. 새로운 버전이 출시될 때마다 더 정교한 그래픽 효과와 높은 성능을 제공하기 위해 기능이 확장되었다[3].

OpenGL은 크로스 플랫폼 2D 및 3D 그래픽 API이다. OpenGL ARB와 이후 크로노스 그룹이 관리하는 개방형 표준이다. 리눅스, macOS, 윈도우 등 다양한 운영 체제에서 동작하며, 전문적인 CAD 소프트웨어나 과학 시각화 도구에서 역사적으로 많이 사용되었다. 그러나 최근 게임 분야에서는 그 사용이 줄어드는 추세이다. OpenGL의 차기 표준으로는 저수준 제어가 가능한 Vulkan이 등장했다.

Vulkan은 크로노스 그룹이 개발한 차세대 크로스 플랫폼 그래픽 및 컴퓨팅 API이다. DirectX 12와 마찬가지로 하드웨어에 대한 직접적인 제어를 제공하여 CPU 사용을 최적화하고 멀티 코어 프로세서의 효율을 높이는 데 중점을 둔다. 스마트폰의 안드로이드 플랫폼을 포함한 광범위한 장치를 지원하며, 고성능을 요구하는 게임과 응용 프로그램에서 점차 채택되고 있다.

API	주요 개발사/관리 기구	주요 플랫폼	특징
DirectX (Direct3D)	마이크로소프트	마이크로소프트 윈도우, 엑스박스	게임 분야의 주류, 윈도우와 긴밀 통합
OpenGL	크로노스 그룹	크로스 플랫폼 (윈도우, 리눅스, macOS 등)	개방형 표준, 전문 그래픽 및 레거시 응용 프로그램
Vulkan	크로노스 그룹	크로스 플랫폼 (윈도우, 리눅스, 안드로이드 등)	고효율 저수준 API, 멀티 코어 CPU 활용 최적화

이들 API는 GPU의 기능에 접근하는 방식을 정의하며, 개발자가 하드웨어의 세부 사항을 깊이 알지 못해도 효율적인 그래픽 프로그램을 작성할 수 있게 한다. 또한, 새로운 GPU 하드웨어 기능은 주로 이러한 API의 새로운 버전을 통해 소프트웨어에 노출된다.

7. 응용 분야

그래픽 처리 장치는 단순한 영상 출력을 넘어, 현대 컴퓨팅의 다양한 핵심 분야에서 고성능 병렬 연산 장치로 활용된다. 초기에는 2D 그래픽 가속과 3D 폴리곤 렌더링에 주력했으나, 프로그래머블 셰이더 아키텍처의 도입 이후 그 활용 범위가 급격히 확장되었다.

가장 대중적인 응용 분야는 비디오 게임 및 시각적 엔터테인먼트이다. 고사양 게임은 GPU를 통해 복잡한 3D 모델링을 실시간으로 래스터화하고, 사실적인 조명과 셰이딩, 텍스처 매핑을 적용하며, 최근에는 레이 트레이싱을 이용한 물리적으로 정확한 빛의 반사와 굴절을 구현한다. 또한 가상 현실과 증강 현실 콘텐츠의 저지연 고화질 렌더링에도 GPU가 필수적이다.

콘텐츠 제작 분야에서는 컴퓨터 지원 설계, 디지털 콘텐츠 제작, 영상 편집 작업의 핵심 도구로 작동한다. CAD 소프트웨어는 GPU 가속을 통해 대규모 어셈블리 모델의 실시간 조작과 렌더링을 가능하게 하며, 3D 애니메이션 제작에서는 복잡한 캐릭터와 장면의 프레임 계산 시간을 크게 단축한다. 비디오 인코딩 및 디코딩을 위한 전용 하드웨어 엔진도 현대 GPU의 중요한 기능이다.

과학기술 및 산업 분야에서는 GPU 가속 컴퓨팅이 혁신을 주도한다. 수천 개의 코어를 이용한 병렬 처리 능력은 유체 역학 시뮬레이션, 기상 예보, 유전체학, 금융 모델링 등 방대한 데이터를 다루는 연산 작업에 적합하다. 이는 GPGPU 프로그래밍 모델을 통해 CPU만으로 실행했을 때보다 수십에서 수백 배 빠른 성능을 제공한다.

가장 급성장하는 응용 분야는 인공지능과 머신러닝이다. 딥 러닝 알고리즘의 핵심 연산인 행렬 곱셈 및 합성곱 연산은 GPU의 병렬 구조에 매우 적합하여, AI 모델의 훈련과 추론 과정을 가속화한다. 자율 주행 시스템의 실시간 환경 인식, 자연어 처리, 영상 인식, 추천 시스템 등은 현대 AI 가속기의 기반이 된 GPU 기술에 크게 의존한다.

응용 분야	주요 활용 예	요구되는 GPU 특성
게이밍	고화질 3D 렌더링, 레이 트레이싱, 고주사율 출력	높은 TFLOPS, 많은 VRAM, RT 코어
콘텐츠 제작	3D 모델링/애니메이션, 비디오 편집/렌더링	큰 메모리 용량과 대역폭, 안정적인 드라이버
과학연산	시뮬레이션, 데이터 분석, 연구	높은 배정밀도 연산 성능, GPGPU 지원
인공지능	딥러닝 훈련 및 추론	많은 텐서 코어/매트릭스 코어, 고속 메모리

7.1. 게이밍 및 엔터테인먼트

게임은 그래픽 처리 장치의 가장 대표적이고 주된 응용 분야이다. 현대의 고사양 비디오 게임은 사실적인 3D 그래픽, 복잡한 조명 효과, 고해상도 텍스처를 실시간으로 렌더링하기 위해 강력한 GPU 성능을 요구한다. 게임 내에서 GPU는 장면의 기하학적 구조를 처리하고, 텍스처를 입히며, 조명과 그림자를 계산하고, 최종 픽셀을 화면에 출력하는 렌더링 파이프라인 전체를 담당한다.

성능은 프레임 레이트(초당 프레임 수)와 해상도로 직접적으로 나타난다. 높은 프레임 레이트는 부드러운 움직임을 제공하며, 4K 이상의 고해상도는 더 선명하고 디테일한 화면을 구현한다. 이를 위해 GPU 제조사들은 지포스와 라데온 같은 게이밍 라인업을 통해 실시간 레이 트레이싱과 AI 기반 업스케일링 기술을 경쟁적으로 도입했다. DLSS나 FSR 같은 기술은 낮은 해상도로 렌더링한 후 AI로 고해상도로 복원하여 성능을 크게 높이면서도 화질을 유지한다.

엔터테인먼트 분야에서는 게임 이외에도 고해상도 비디오 재생과 스트리밍이 중요하다. 최신 GPU는 AV1 같은 고효율 비디오 코덱의 하드웨어 디코딩을 지원하여 8K HDR 콘텐츠의 원활한 재생을 가능하게 한다. 또한 가상 현실과 증강 현실 헤드셋은 양안에 대한 초고속 렌더링과 낮은 지연 시간을 요구하며, 이는 전적으로 GPU의 성능에 좌우된다.

주요 게이밍 GPU 기술	설명
실시간 레이 트레이싱	빛의 물리적 경로를 시뮬레이션하여 사실적인 반사, 굴절, 그림자 효과를 생성한다.
AI 업스케일링	딥 러닝을 이용해 낮은 해상도의 이미지를 고해상도로 변환하여 성능 대비 화질을 향상시킨다.
가변 주사율	G-Sync 또는 FreeSync 기술로 GPU의 출력 프레임과 모니터의 주사율을 동기화하여 화면 찢어짐을 제거한다.
고효율 미디어 엔진	AV1, H.264/265 등 비디오 코덱의 하드웨어 가속 인코딩/디코딩을 처리하여 방송이나 녹화 부하를 줄인다.

7.2. 콘텐츠 제작 (CAD, DCC)

컴퓨터 지원 설계(CAD)와 디지털 콘텐츠 제작(DCC) 분야는 그래픽 처리 장치의 고성능 및 고정밀 연산 능력을 요구하는 대표적인 응용 분야이다. 이 분야에서는 단순한 그래픽 출력을 넘어선 복잡한 3차원 모델링, 실시간 조작, 사실적인 렌더링이 필수적이며, 이를 위해 GPU는 버텍스 셰이더와 지오메트리 셰이더를 활용한 복잡한 다각형 처리, 레이 트레이싱을 통한 정확한 조명 및 그림자 계산, 그리고 대용량 텍스처 매핑을 빠르게 처리하는 역할을 담당한다.

CAD 소프트웨어(예: AutoCAD, SolidWorks, CATIA)에서는 엔지니어가 설계한 부품이나 건축물의 3D 모델을 실시간으로 회전, 확대, 단면 분석할 수 있어야 한다. 이를 위해 GPU는 와이어프레임부터 고품질 음영 처리까지 다양한 시각화 모드를 즉시 제공하며, 특히 대형 어셈블리(수천 개의 부품으로 구성된 모델)를 조작할 때는 높은 필레이트와 낮은 지연 시간이 중요하다. 전문가용 워크스테이션 GPU는 이러한 작업을 위해 ECC 메모리를 탑재해 데이터 무결성을 보장하고, 안정적인 드라이버를 제공한다.

DCC 분야(예: Maya, 3ds Max, Blender, Adobe After Effects)에서는 영화, 게임, 애니메이션을 위한 자산을 제작한다. 여기서 GPU의 역할은 모델링과 애니메이션 과정의 인터랙티브한 미리보기부터 최종적인 포토리얼리스틱 �더링까지 광범위하다. 특히 오프라인 렌더링에서 GPU 렌더링 엔진(예: Octane Render, V-Ray GPU)의 사용이 증가하면서, 수백 개의 쿠다 코어 또는 스트림 프로세서를 가진 GPU는 CPU만을 사용하는 전통적인 방식보다 훨씬 빠른 렌더링 속도를 제공한다. 또한, 시뮬레이션(파이어, 연기, 유체)과 같은 복잡한 연산 작업도 GPU 가속의 혜택을 크게 받는다.

응용 분야	대표 소프트웨어	주요 GPU 활용 작업
컴퓨터 지원 설계 (CAD)	AutoCAD, SolidWorks, Creo	실시간 3D 뷰포트 조작, 대형 어셈블리 렌더링, 광선 추적 기반 시각화
디지털 콘텐츠 제작 (DCC)	Maya, Blender, Cinema 4D	폴리곤 모델링, 텍스처 페인팅, 애니메이션 미리보기, 최종 프레임 GPU 렌더링
비디오 편집 및 합성	Adobe Premiere Pro, DaVinci Resolve	고해상도 비디오 실시간 재생, 색보정, 효과 렌더링(GPU 가속), 코덱 인코딩/디코딩

이러한 전문 분야에서는 소비자용 게이밍 GPU보다 높은 정밀도와 안정성, 특화된 기능을 지원하는 쿼드로(NVIDIA)나 레이디언 프로(AMD) 같은 워크스테이션 GPU 제품군이 선호된다. 이들은 전문 소프트웨어에 대해 공인 및 최적화된 드라이버를 제공하며, 고부하 작업에서도 안정적인 성능을 유지하도록 설계되었다.

7.3. 과학 연산 및 데이터 분석

그래픽 처리 장치(GPU)는 본래 그래픽 렌더링을 위해 설계되었으나, 그 병렬 처리 능력 덕분에 다양한 과학 연산 및 데이터 분석 분야에서 핵심 연산 가속기로 활용된다. 이러한 활용을 GPGPU(General-Purpose computing on GPU)라고 부른다. CPU가 복잡한 제어 흐름과 순차적 작업에 강점을 보이는 반면, GPU는 수천 개의 간단한 코어로 동시에 많은 양의 데이터에 동일한 연산을 적용하는 데 특화되어 있다. 이는 행렬 곱셈, 퓨리에 변환, 유체 역학 시뮬레이션과 같은 대규모 수치 계산 작업에 매우 적합한 구조이다.

과학 연산 분야에서 GPU는 기후 모델링, 유전체 분석, 양자 화학 계산, 입자 물리학 시뮬레이션 등에 광범위하게 사용된다. 예를 들어, 암 연구를 위한 단백질 접힘 시뮬레이션([4])이나 천체 물리학에서의 은하 형성 모의 실험은 GPU의 병렬 연산 능력 없이는 실용적인 시간 내에 완료하기 어려운 작업이다. 또한, 유한 요소 해석(FEA)과 전산 유체 역학(CFD)과 같은 공학적 시뮬레이션도 GPU 가속을 통해 설계 및 분석 시간을 크게 단축한다.

데이터 분석 및 빅데이터 처리 영역에서는 머신 러닝의 학습과 추론 과정, 대규모 데이터베이스의 쿼리 처리, 실시간 데이터 스트림 분석 등에 GPU가 적용된다. 특히 딥러닝은 엄청난 양의 행렬 및 텐서 연산을 요구하기 때문에 GPU 가속은 사실상 필수적이다. Apache Spark나 RAPIDS와 같은 데이터 처리 프레임워크는 GPU를 활용하여 ETL(추출, 변환, 적재) 작업과 데이터 전처리 속도를 획기적으로 높인다.

이를 위한 소프트웨어 생태계도 잘 구축되어 있다. NVIDIA의 CUDA 플랫폼과 AMD의 ROCm 플랫폼은 GPGPU 프로그래밍을 위한 핵심 도구 체계를 제공한다. 또한 OpenCL과 같은 개방형 병렬 컴퓨팅 프레임워크나 Python의 NumPy, CuPy 라이브러리를 통해 과학자와 데이터 엔지니어는 비교적 쉽게 GPU의 연산 능력을 활용할 수 있다. 이로 인해 고성능 컴퓨팅(HPC) 클러스터와 데이터 센터에서는 CPU와 GPU가 혼합된 헤테로지니어스 컴퓨팅 아키텍처가 표준으로 자리 잡았다.

7.4. 인공지능 및 머신러닝

인공지능 및 머신러닝은 그래픽 처리 장치의 핵심 응용 분야로 부상했다. 특히 대규모 행렬 연산과 병렬 처리에 특화된 GPU의 아키텍처는 신경망 학습과 추론 작업에 매우 효율적이다. 딥러닝 모델 훈련에는 수천 개의 스트림 프로세서가 동시에 작동하여 CPU보다 수십 배에서 수백 배 빠른 성능을 제공한다[5]. 이로 인해 데이터 센터와 연구 기관에서는 다수의 고성능 GPU를 GPU 클러스터로 구성하여 사용한다.

GPU는 추론 단계에서도 중요한 역할을 한다. 엣지 컴퓨팅 장치나 클라우드 서버에서 실시간 이미지 분류, 자연어 처리, 추천 시스템 등을 구동한다. NVIDIA의 TensorRT나 AMD의 ROCm과 같은 소프트웨어 스택은 모델을 최적화하여 GPU에서의 추론 속도를 극대화한다. 또한, 생성형 AI 모델의 실행에도 GPU는 필수적이다.

주요 제조사는 AI 연산을 위해 특수한 하드웨어를 도입했다.

제조사	제품 라인	주요 AI 가속 기술
NVIDIA	Tesla/H100, GeForce RTX	Tensor 코어, CUDA 코어
AMD	Instinct MI300, Radeon	Matrix 코어, ROCm 소프트웨어
Intel	Gaudi, Arc GPU	AI 매트릭스 확장 (AMX)

이러한 기술 발전은 대규모 언어 모델과 확산 모델의 실용화를 가능하게 하는 기반이 되었다.

8. 성능 지표와 벤치마크

성능을 측정하는 주요 지표로는 클럭 속도, 메모리 대역폭, 필레이트, 텍스처 필레이트 등이 있다. 클럭 속도는 코어와 메모리가 초당 작동하는 사이클 수를 나타내며, 일반적으로 MHz 또는 GHz 단위로 표시된다. 메모리 대역폭은 비디오 메모리(VRAM)가 초당 처리할 수 있는 데이터 양을 의미하며, 메모리 속도와 버스 폭(예: 256-bit, 384-bit)에 의해 결정된다. 이 값은 GB/s 단위로 표현된다.

연산 성능은 주로 FLOPS(초당 부동소수점 연산 횟수)로 측정되며, 특히 AI 및 과학 연산 작업에서 중요하게 여겨진다. 최신 GPU의 성능은 수십 TFLOPS(테라플롭스)에 이른다. 그러나 이 수치는 이론적 최대치이며, 실제 응용 프로그램에서의 성능은 아키텍처 효율성, 드라이버 최적화, 작업 부하 특성에 크게 의존한다.

실제 사용 환경에서의 성능을 평가하기 위해 다양한 벤치마크 소프트웨어가 사용된다. 게이밍 성능 측정에는 *3DMark*, *Unigine Superposition*과 같은 합성 벤치마크가 널리 쓰인다. 또한 *Shadow of the Tomb Raider*, *Cyberpunk 2077*, *Red Dead Redemption 2* 등 실제 게임 타이틀을 이용한 프레임률(FPS) 테스트가 가장 일반적인 평가 방법이다. 콘텐츠 제작 및 워크스테이션 성능은 *Blender*의 BMW27 또는 Classroom 장면 렌더링 시간, *SPECviewperf*의 다양한 CAD 및 DCC 테스트 세트로 측정한다.

주요 지표	설명	단위/측정 예
GPU 클럭 속도	코어의 작동 주파수	MHz, GHz
메모리 대역폭	VRAM의 데이터 전송률	GB/s
필레이트	픽셀 출력률	Gigapixels/s
TFLOPS	이론적 최대 부동소수점 연산 성능	Tera FLOPS
게임 성능	실제 게임 평균 프레임률	FPS (Frames Per Second)
렌더링 성능	특정 장면 렌더링 소요 시간	초(seconds)

벤치마크 결과는 단일 수치보다는 동일한 테스트 환경(해상도, 그래픽 설정, 시스템 사양)에서 비교했을 때 의미가 있다. 또한 전력 대비 성능(Performance-per-Watt)도 모바일 장치나 데이터센터를 고려할 때 중요한 평가 요소가 된다.

8.1. 클럭 속도, 메모리 대역폭

GPU의 성능을 평가하는 핵심 지표 중 하나는 클럭 속도이다. 이는 GPU의 코어가 초당 동작하는 사이클 수를 나타내며, 일반적으로 MHz 또는 GHz 단위로 표시된다. 클럭 속도가 높을수록 코어가 단위 시간당 더 많은 연산을 처리할 수 있다. 그러나 최종 성능은 코어 수, 아키텍처 효율성, 메모리 성능 등 다른 요소들과 복합적으로 결정된다.

메모리 대역폭은 GPU의 비디오 메모리(VRAM)와 프로세싱 코어 사이에서 초당 전송할 수 있는 데이터의 최대량을 의미한다. 이는 메모리 인터페이스 비트 폭과 메모리의 유효 클럭 속도를 곱하여 계산되며, 일반적으로 GB/s(기가바이트每秒) 단위로 표시된다. 높은 대역폭은 고해상도 텍스처를 로드하거나 복잡한 장면을 렌더링할 때 데이터 병목 현상을 줄이는 데 중요하다.

이 두 지표는 서로 긴밀하게 연관되어 성능에 영향을 미친다. 예를 들어, 코어 클럭이 매우 높아도 메모리 대역폭이 부족하면 고화질 게임이나 렌더링 작업에서 데이터 공급이 따라가지 못해 성능이 제한될 수 있다. 반대로, 대역폭이 넉넉하더라도 코어의 연산 처리 능력이 낮으면 전체 성능은 낮아진다. 따라서 균형 잡힌 설계가 필수적이다.

지표	설명	주요 영향 요소	단위
클럭 속도	GPU 코어의 동작 속도	기본 클럭, 부스트 클럭, 전력 제한, 온도	MHz, GHz
메모리 대역폭	GPU 코어와 VRAM 간 데이터 전송률	메모리 인터페이스(비트 폭), 메모리 클럭, 메모리 유형(GDDR6X 등)	GB/s

실제 성능을 비교할 때는 이들 기본 지표뿐만 아니라 TFLOPS 같은 이론적 연산 성능이나, 실제 게임 및 응용 프로그램에서의 벤치마크 결과를 함께 고려하는 것이 일반적이다.

8.2. TFLOPS 및 연산 성능

TFLOPS는 초당 1조 번의 부동소수점 연산을 수행할 수 있는 능력을 나타내는 단위이다. 이는 주로 GPU의 이론적 최대 연산 성능을 측정하는 지표로 널리 사용된다. TFLOPS 수치는 GPU의 코어 클럭 속도, 코어 수, 그리고 코어당 한 클럭 사이클에 처리할 수 있는 연산량을 곱하여 계산된다[6]. 따라서 이 수치는 하드웨어의 원시적인 계산 능력을 비교하는 데 유용한 기준을 제공한다.

그러나 TFLOPS는 실제 응용 프로그램 성능을 완벽하게 예측하지는 못한다. 동일한 TFLOPS 수치를 가진 GPU라도 메모리 대역폭, 메모리 지연 시간, 아키텍처 효율성, 드라이버 최적화, 그리고 실행되는 워크로드의 특성에 따라 성능 차이가 크게 발생할 수 있다. 예를 들어, 단정밀도 부동소수점 연산에 최적화된 TFLOPS 수치는 과학 연산이나 인공지능 학습에는 중요한 지표가 되지만, 게이밍 성능과는 직접적인 상관관계가 높지 않을 수 있다. 게임 성능은 래스터화 파이프라인, 레이 트레이싱 가속 코어, 텍스처 매핑 유닛 등의 성능에 더 크게 영향을 받는다.

다양한 연산 정밀도에 대한 성능 지표도 중요하게 평가된다. 주요 지표는 다음과 같다.

연산 정밀도	주요 용도	측정 단위
FP32 (단정밀도)	전통적인 그래픽 렌더링, 범용 과학 연산	TFLOPS
FP16/BF16 (반정밀도)	인공지능 학습 및 추론, 일부 그래픽 효과	TFLOPS (FP16)
INT8/INT4 (정수 연산)	인공지능 추론, 저정밀도 가속	TOPS (초당 조 회 연산)

따라서 특정 작업을 위한 GPU를 평가할 때는 해당 워크로드에 적합한 정밀도에서의 연산 성능과 함께, 메모리 대역폭 및 실제 벤치마크 결과를 종합적으로 고려해야 한다.

8.3. 게임 및 렌더링 벤치마크

게임 및 렌더링 벤치마크는 GPU의 실제 성능을 측정하고 비교하기 위한 표준화된 테스트 도구이다. 게임 성능 측정에는 주로 인기 있는 상용 게임 타이틀을 이용한 실측(FPS) 방식과, 통합 벤치마크 프로그램이 사용된다. 대표적인 게임 벤치마크 도구로는 '3DMark'와 'Unigine Superposition'이 있으며, 이들은 가상의 고사장 장면을 렌더링하여 시스템의 안정성과 평균/최소 FPS를 제공한다. 또한 'Shadow of the Tomb Raider', 'Cyberpunk 2077' 등 특정 게임에 내장된 벤치마크 모드는 해당 게임 엔진에서의 성능을 가장 직접적으로 반영한다.

렌더링 성능 측정은 주로 콘텐츠 제작 및 워크스테이션 환경에서 중요시된다. 여기에는 DCC 소프트웨어의 실제 렌더링 엔진을 활용한 벤치마크가 포함된다. 예를 들어, 'Blender Benchmark'는 오픈 소스 3D 제작 도구 Blender의 Cycles 렌더러를 사용하여 모델을 렌더링하는 데 걸리는 시간을 측정한다. 'V-Ray Benchmark'와 'LuxMark'는 각각 V-Ray와 LuxCore 렌더 엔진의 레이 트레이싱 성능을 평가하는 데 널리 쓰인다.

벤치마크 결과는 단일 수치보다는 비교 표를 통해 보는 것이 일반적이다. 아래는 가상의 GPU 모델에 대한 게임 성능 비교 예시이다.

GPU 모델	3DMark Time Spy 점수	Cyberpunk 2077 (1080p Ultra) 평균 FPS	Blender BMW27 렌더 시간
GPU A	12000점	85 FPS	45초
GPU B	9500점	68 FPS	62초
GPU C	14000점	102 FPS	38초

이러한 벤치마크는 사용자가 자신의 사용 목적(게이밍, 영상 편집, 3D 렌더링)에 가장 적합한 GPU를 선택하는 데 결정적인 참고 자료가 된다. 그러나 벤치마크 결과는 테스트 환경(드라이버 버전, 시스템 사양, 해상도 및 설정)에 크게 의존하므로, 동일한 조건에서 수행된 결과를 비교하는 것이 중요하다.

9. 관련 기술 및 표준

그래픽 처리 장치의 기능을 활용하고 제어하기 위한 핵심적인 소프트웨어 인터페이스와 표준이 존재한다. 가장 널리 사용되는 그래픽 API는 마이크로소프트의 DirectX와 크로스 플랫폼 오픈GL, 그리고 현대적인 벌칸이다. DirectX는 주로 윈도우 및 엑스박스 플랫폼에서 게임과 멀티미디어 응용 프로그램에 사용된다. Vulkan과 OpenGL은 리눅스, 안드로이드, 다양한 운영체제에서 폭넓게 지원되는 저수준 API이다.

GPU의 병렬 연산 능력을 범용 계산에 활용하는 기술인 GPGPU도 중요한 관련 기술이다. 이를 위한 주요 컴퓨팅 플랫폼으로는 NVIDIA의 CUDA와 오픈CL이 있다. CUDA는 NVIDIA GPU 전용의 폐쇄적 플랫폼이지만 생태계가 넓고, OpenCL은 다양한 하드웨어(AMD, Intel GPU 등)에서 동작하는 개방형 표준이다. 최근에는 머신러닝 프레임워크들(텐서플로, 파이토치)이 GPU 가속을 핵심으로 삼으면서 이들 플랫폼의 중요성이 더욱 커졌다.

표준화 측면에서는 PCI 익스프레스 버스 인터페이스와 HDMI, 디스플레이포트 같은 디스플레이 출력 표준이 GPU와 시스템의 물리적 연결을 담당한다. 또한, 에너지 효율 등급을 규정하는 에너지 스타나 전력 관리 관련 표준도 GPU 설계에 영향을 미친다.

10. 여담

그래픽 처리 장치의 발전은 단순한 하드웨어의 진화를 넘어 문화적 현상과 맞물려 있다. 예를 들어, 2010년대 중후반부터 시작된 암호화폐 채굴 열풍은 GPU 시장에 큰 변동을 가져왔다. 채굴에 최적화된 GPU에 대한 엄청난 수요가 발생하면서 게이머들을 위한 GPU 가격이 폭등하고 품귀 현상이 빚어지기도 했다. 이는 GPU가 본래의 목적인 그래픽 렌더링을 넘어 범용 병렬 연산 장치로서의 가치를 대중에게 각인시키는 계기가 되었다.

GPU 관련 커뮤니티에서는 특정 세대의 제품이 전설적인 상태로 회자되기도 한다. 예를 들어, NVIDIA의 GeForce GTX 1060은 오랜 기간 스팀 하드웨어 설문조사에서 가장 높은 점유율을 기록하며 '국민 그래픽카드'로 불렸다. AMD의 Radeon HD 7970이나 Radeon RX 580과 같은 모델도 가성비와 내구성으로 오랜 기간 사랑받은 대표적인 사례이다. 이러한 장수 모델들은 특정 시기의 게임 및 소프트웨어 생태계와 깊이 연관되어 있다.

GPU 제조사들의 마스코트나 브랜딩 전략도 독특한 팬 문화를 형성하는 요소이다. NVIDIA의 초록색 눈을 가진 GeForce 로고나, AMD Radeon의 독특한 적색 브랜드 컬러는 제품 그 이상의 정체성을 보여준다. 한때 GPU 쿨러에 장착된 팬의 LED 색상으로 제조사를 구분하는 농담이 유행하기도 했다.

기술적 측면에서도 재미있는 일화들이 존재한다. 초기 GPU 시절, 게임 개발자들은 하드웨어의 한계를 뛰어넘기 위해 다양한 꼼수(핵(Hack) 또는 트릭)를 사용했다. 예를 들어, 거대한 폭포나 벽면을 렌더링하기 위해 사실은 매우 얇은 텍스처가 입혀진 평면 다각형을 특정 각도로 배치하는 방법이 널리 쓰였다. 이러한 창의적인 기법들은 당시의 기술적 제약 속에서 탄생한 독특한 역사의 일부이다.

그래픽 처리 장치

이름	그래픽 처리 장치
영문명	Graphics Processing Unit (GPU)
분류	하드웨어 / 반도체 / 마이크로프로세서
주요 용도	그래픽 렌더링, 병렬 처리 연산
주요 제조사	NVIDIA, AMD, 인텔
대표 아키텍처	NVIDIA CUDA, AMD RDNA
상세 정보
역사	초기에는 고정 기능 파이프라인을 가진 그래픽 카드로 시작, 이후 프로그래밍 가능한 셰이더 아키텍처로 발전
핵심 구성 요소	스트림 프로세서 (CUDA 코어/스트림 프로세서), 비디오 메모리 (VRAM), 메모리 컨트롤러, 쿨링 시스템
주요 인터페이스	PCI 익스프레스 (PCIe), AGP (과거)
연산 방식	SIMD (단일 명령 다중 데이터) 또는 SIMT (단일 명령 다중 스레드) 방식의 병렬 처리
API 지원	DirectX, OpenGL, Vulkan, OpenCL, CUDA
응용 분야	게임, 영상 편집, 3D 모델링, 과학 연산, 머신러닝 (AI 가속), 암호화폐 채굴
종류	통합 GPU (iGPU), 개별 GPU (dGPU), 워크스테이션 GPU, 서버/데이터센터 GPU (예: NVIDIA Tesla 시리즈)
메모리 종류	GDDR SDRAM (GDDR6/GDDR6X 등), HBM (고대역폭 메모리)
성능 지표	FLOPS (부동소수점 연산 성능), 메모리 대역폭, 텍스처 필 레이트, 전력 효율 (성능 per 와트)
관련 기술	레이 트레이싱, DLSS (딥 러닝 슈퍼 샘플링), 가상 현실 (VR) 렌더링

그래픽 처리 장치

이름	그래픽 처리 장치
영문명	Graphics Processing Unit (GPU)
분류	하드웨어 / 반도체 / 마이크로프로세서
주요 용도	그래픽 렌더링, 병렬 처리 연산
주요 제조사	NVIDIA, AMD, 인텔
대표 아키텍처	NVIDIA CUDA, AMD RDNA
상세 정보
역사	초기에는 고정 기능 파이프라인을 가진 그래픽 카드로 시작, 이후 프로그래밍 가능한 셰이더 아키텍처로 발전
핵심 구성 요소	스트림 프로세서 (CUDA 코어/스트림 프로세서), 비디오 메모리 (VRAM), 메모리 컨트롤러, 쿨링 시스템
주요 인터페이스	PCI 익스프레스 (PCIe), AGP (과거)
연산 방식	SIMD (단일 명령 다중 데이터) 또는 SIMT (단일 명령 다중 스레드) 방식의 병렬 처리
API 지원	DirectX, OpenGL, Vulkan, OpenCL, CUDA
응용 분야	게임, 영상 편집, 3D 모델링, 과학 연산, 머신러닝 (AI 가속), 암호화폐 채굴
종류	통합 GPU (iGPU), 개별 GPU (dGPU), 워크스테이션 GPU, 서버/데이터센터 GPU (예: NVIDIA Tesla 시리즈)
메모리 종류	GDDR SDRAM (GDDR6/GDDR6X 등), HBM (고대역폭 메모리)
성능 지표	FLOPS (부동소수점 연산 성능), 메모리 대역폭, 텍스처 필 레이트, 전력 효율 (성능 per 와트)
관련 기술	레이 트레이싱, DLSS (딥 러닝 슈퍼 샘플링), 가상 현실 (VR) 렌더링