리소스 스케줄링

1. 개요

리소스 스케줄링은 컴퓨팅, 특히 분산 시스템과 클라우드 컴퓨팅 환경에서 한정된 컴퓨팅 자원을 여러 작업이나 사용자에게 효율적으로 할당하고 관리하는 프로세스이다. 이는 시스템의 전반적인 성능, 안정성, 비용 효율성을 결정하는 핵심 요소로 작동한다.

주요 목표는 시스템의 처리량을 최대화하고, 작업의 응답 시간을 최소화하며, CPU, 메모리, 네트워크 대역폭, 스토리지 같은 자원의 활용률을 극대화하는 것이다. 현대의 데이터 센터나 빅데이터 처리 플랫폼에서는 수천 대의 서버와 동시에 실행되는 수많은 작업을 관리해야 하므로, 체계적인 스케줄링이 필수적이다.

리소스 스케줄링은 단일 머신의 운영체제 수준에서부터 클러스터 전체를 관리하는 클러스터 관리자 수준에 이르기까지 다양한 계층에서 적용된다. Apache Hadoop의 YARN, Kubernetes, 그리고 Apache Mesos 같은 시스템이 대표적인 클러스터 리소스 스케줄러의 예이다. 이들 시스템은 사용자가 제출한 작업을 분석하여 적절한 시점에 적합한 자원을 할당하는 복잡한 의사 결정을 수행한다.

효율적인 스케줄링은 단순히 자원을 나누는 것을 넘어, 작업의 우선순위, 데드라인, 비용 제약, 그리고 워크로드의 특성(예: 배치 처리 대 실시간 처리)을 종합적으로 고려한다. 따라서 리소스 스케줄링은 운영 연구와 컴퓨터 과학이 교차하는 분야로, 지속적인 연구와 발전이 이루어지고 있다.

2. 리소스 스케줄링의 기본 개념

리소스 스케줄링은 한정된 컴퓨팅 자원을 여러 작업이나 프로세스에 효율적으로 할당하고 관리하는 과정이다. 그 핵심 목표는 시스템의 전반적인 성능을 최대화하면서, 주어진 제약 조건 내에서 각 작업의 요구 사항을 만족시키는 것이다. 주요 목표로는 처리량 향상, 응답 시간 단축, 자원 활용률 균형, 공정성 확보, 그리고 데드라인 준수가 있다.

이 과정은 세 가지 주요 구성 요소의 상호작용으로 이루어진다. 첫째는 리소스로, CPU, 메모리, 디스크 I/O, 네트워크 대역폭 등 작업 실행에 필요한 물리적 또는 가상의 컴퓨팅 자원을 의미한다. 둘째는 작업 또는 태스크로, 실행되어야 하는 개별적인 계산 단위이다. 셋째는 큐로, 실행을 대기 중인 작업들이 순서에 따라 정렬되어 관리되는 대기열이다.

스케줄링 시스템은 이러한 구성 요소들을 바탕으로 작동한다. 작업은 시스템에 제출되면 적절한 큐에 배치되고, 스케줄러는 정의된 스케줄링 알고리즘에 따라 큐에서 작업을 선택하여 사용 가능한 리소스에 할당한다. 이때 리소스의 상태(사용 중/유휴 상태)를 지속적으로 모니터링하는 것이 필수적이다. 효과적인 스케줄링은 자원 낭비를 줄이고, 시스템 정체를 방지하며, 다양한 워크로드가 원활하게 실행될 수 있는 환경을 조성한다.

2.1. 정의와 목표

리소스 스케줄링은 제한된 컴퓨팅 자원을 여러 작업이나 프로세스에 효율적으로 할당하고 관리하는 과정이다. 이 과정의 핵심 목표는 시스템의 전반적인 성능을 최적화하면서, 개별 작업의 요구 사항을 만족시키는 것이다. 주로 운영체제, 분산 컴퓨팅 시스템, 클라우드 컴퓨팅 환경에서 중요한 역할을 한다.

주요 목표는 크게 세 가지로 구분할 수 있다. 첫째는 공평성으로, 모든 작업이 공정하게 자원을 사용할 기회를 보장하는 것이다. 둘째는 효율성으로, 주어진 자원을 최대한 활용하여 시스템의 처리량을 높이고 응답 시간을 줄이는 것이다. 셋째는 서비스 수준 계약 준수로, 작업의 데드라인이나 우선순위와 같은 특정 요구사항을 충족시키는 것이다.

이를 달성하기 위해 스케줄러는 시스템의 현재 상태(예: CPU 사용률, 메모리 여유 공간, 네트워크 대역폭)와 대기 중인 작업의 특성(예: 예상 실행 시간, 자원 요구량, 의존성)을 지속적으로 모니터링하고 분석한다. 그 후 미리 정의된 스케줄링 알고리즘이나 정책에 따라 어떤 작업을 어떤 순서로, 어떤 자원에 할당할지를 결정한다.

2.2. 주요 구성 요소 (리소스, 작업, 큐)

리소스 스케줄링 시스템의 주요 구성 요소는 리소스, 작업, 그리고 큐입니다. 이 세 요소는 스케줄링 결정의 기본 단위를 형성하며, 시스템이 자원을 효율적으로 분배하고 작업을 실행하는 방식을 정의합니다.

리소스는 시스템이 관리하고 할당하는 물리적 또는 논리적 자산을 의미합니다. 대표적인 예로는 CPU 코어 수, 메모리 용량, 디스크 저장 공간, 네트워크 대역폭 등이 있습니다. 분산 시스템에서는 여러 컴퓨터 노드에 분산된 이러한 자원들을 통합된 풀로 관리하기도 합니다. 리소스는 정량화 가능한 단위로 표현되며, 스케줄러는 작업의 요구 사항에 맞게 적절한 양의 리소스를 할당합니다.

작업은 시스템에 의해 실행되어야 하는 단위 업무입니다. 작업은 실행에 필요한 리소스의 양(예: CPU 2코어, 메모리 4GB), 실행 우선순위, 의존성(다른 작업이 완료되어야 시작 가능), 그리고 데드라인 같은 제약 조건을 명시합니다. 작업은 단일 프로세스부터 복잡한 분산 컴퓨팅 잡이나 데이터베이스 쿼리에 이르기까지 다양한 형태를 가질 수 있습니다. 스케줄러의 핵심 역할은 이러한 작업들을 이용 가능한 리소스에 매핑하는 것입니다.

큐는 작업들이 실행을 기다리는 대기 영역입니다. 큐는 작업 관리와 스케줄링 정책을 구현하는 데 중심적인 역할을 합니다. 작업은 제출 시점이나 특정 규칙에 따라 큐에 배치됩니다. 스케줄러는 큐에서 작업을 꺼내어 적절한 리소스가 가용해지면 할당합니다. 큐의 구조와 정책은 시스템의 목표에 따라 달라집니다. 예를 들어, 단순한 FIFO 큐, 우선순위가 다른 여러 큐, 또는 특정 사용자나 프로젝트 그룹에 자원을 보장하는 공정 공유 큐 등이 사용됩니다.

3. 스케줄링 알고리즘

스케줄링 알고리즘은 시스템의 리소스를 여러 작업에 어떻게 할당할지 결정하는 규칙의 집합이다. 이 알고리즘의 선택은 시스템의 전체 성능, 공정성, 그리고 특정 서비스 수준 목표를 달성하는 데 직접적인 영향을 미친다. 일반적으로 처리 순서를 결정하는 방식에 따라 여러 유형으로 분류된다.

가장 기본적인 알고리즘은 FIFO이다. 이 방식은 작업이 도착한 순서대로 리소스를 할당하며, 선점이 발생하지 않는다. 구현이 단순하고 오버헤드가 낮다는 장점이 있지만, 중요한 작업이 긴 작업 뒤에서 대기해야 하는 호위 효과가 발생할 수 있어 단일 사용자 환경이나 매우 단순한 시스템에 적합하다.

보다 복잡한 요구사항을 충족하기 위해 다양한 알고리즘이 개발되었다. 우선순위 기반 스케줄링은 각 작업에 우선순위를 부여하여 높은 우선순위 작업을 먼저 처리한다. 우선순위는 작업의 중요도, 데드라인, 예상 실행 시간 등에 기반하여 정적 또는 동적으로 할당될 수 있다. 공정 공유 스케줄링은 CPU 시간이나 대역폭과 같은 리소스를 사용자나 그룹 간에 공정하게 분배하는 것을 목표로 한다. 각 엔티티가 균등한 양의 리소스를 받도록 보장하여 특정 사용자가 시스템을 독점하는 것을 방지한다. 데드라인 기반 스케줄링은 실시간 시스템에서 주로 사용되며, 각 작업이 반드시 완료되어야 하는 시간 제한을 기준으로 스케줄링을 수행한다. Earliest Deadline First 알고리즘이 대표적인 예이다.

알고리즘 유형	주요 원리	장점	단점	적합 환경
FIFO	도착 순서 처리	구현 단순, 오버헤드 낮음	호위 효과, 응답 시간 불균등	배치 처리, 단순 시스템
우선순위 기반	우선순위가 높은 작업 선처리	중요한 작업 신속 처리	낮은 우선순위 작업 기아 상태 가능	작업 중요도가 명확한 시스템
공정 공유	리소스를 사용자/그룹별로 균등 분배	공정성 보장, 독점 방지	절대적 성능보다 공정성에 초점	다중 사용자 분산 컴퓨팅
데드라인 기반	작업의 마감 시간 기준 스케줄링	시간 제약 조건 준수 보장	정확한 실행 시간 예측 필요	실시간 시스템, 미디어 처리

3.1. FIFO (First In, First Out)

FIFO는 가장 단순하고 직관적인 리소스 스케줄링 알고리즘이다. 이 방식은 작업이 시스템에 도착한 순서대로, 즉 먼저 들어온 작업을 먼저 처리한다. 큐 자료구조의 동작 원리와 동일하여, 때로는 FCFS(First-Come, First-Served) 스케줄링이라고도 불린다.

구현이 간단하고 공정성이 보장된다는 장점이 있다. 모든 작업은 도착 순서에 따라 처리될 기회를 얻으며, 별도의 우선순위 계산이 필요 없어 오버헤드가 매우 낮다. 이는 초기 배치 처리 시스템이나 단순한 작업 흐름을 관리하는 데 적합하다.

그러나 처리 시간이 긴 작업이 먼저 큐에 들어가면, 그 뒤의 짧은 작업들은 긴 대기 시간을 겪게 되는 호위 효과(Convoy Effect)가 발생할 수 있다. 이로 인해 전체 시스템의 평균 응답 시간이 길어지고 자원 활용률이 저하될 수 있다. 또한 작업의 긴급성이나 중요도를 고려하지 않아, 데드라인이 임박한 작업이나 우선순위가 높은 작업이 지연될 수 있다는 단점이 있다.

장점	단점
구현이 단순하고 오버헤드가 낮다	호위 효과로 인한 평균 응답 시간 증가
도착 순서에 따른 공정성이 보장된다	작업의 중요도나 긴급성을 반영하지 못함
스케줄링 결정이 예측 가능하다	자원 활용률이 비효율적일 수 있음

따라서 FIFO는 작업들의 실행 시간이 균일하거나, 스케줄링의 복잡성을 최소화해야 하는 특정 환경에서 주로 사용된다. 현대의 복잡한 데이터 파이프라인이나 분산 컴퓨팅 시스템에서는 이러한 한계를 보완하기 위해 공정 공유 스케줄링이나 우선순위 기반 스케줄링 같은 더 발전된 알고리즘과 혼용되거나, 특정 큐 내부의 기본 정책으로 활용되기도 한다.

3.2. 우선순위 기반 스케줄링

우선순위 기반 스케줄링은 각 작업에 우선순위를 할당하고, 그 순위에 따라 리소스를 할당하는 방식이다. 이 방법의 핵심 목표는 가장 중요한 작업이 먼저 처리되도록 보장하여 시스템의 전반적인 효율성이나 특정 서비스 수준 목표를 달성하는 것이다. 우선순위는 작업의 중요도, 데드라인, 예상 실행 시간, 사용자 등급 또는 이러한 요소들의 조합에 따라 정적으로 또는 동적으로 결정될 수 있다.

가장 간단한 형태는 비선점형 우선순위 스케줄링으로, 높은 우선순위 작업이 도착해도 현재 실행 중인 낮은 우선순위 작업이 끝날 때까지 기다려야 한다. 반면, 선점형 우선순위 스케줄링에서는 더 높은 우선순위의 작업이 도착하면 현재 실행 중인 작업을 중단시키고 즉시 리소스를 점유한다. 이는 긴급한 작업의 빠른 처리를 보장하지만, 문맥 교환 오버헤드가 발생할 수 있다.

우선순위 기반 스케줄링의 주요 이슈는 기아 상태이다. 지속적으로 높은 우선순위 작업이 유입되면 낮은 우선순위 작업은 영원히 실행 기회를 얻지 못할 수 있다. 이를 완화하기 위해 에이징 기법이 사용된다. 에이징은 대기 중인 작업의 우선순위를 시간이 지남에 따라 점진적으로 높여, 결국 실행될 수 있도록 보장한다.

우선순위 결정 방식	설명	예시
정적 우선순위	작업 제출 시 한 번 정해지며 변경되지 않음.	시스템 관리자 작업은 일반 사용자 작업보다 높은 우선순위 부여
동적 우선순위	시스템 상태나 작업 특성에 따라 실행 중 우선순위가 변경됨.	대기 시간이 길어질수록 우선순위를 높이는 에이징 기법 적용

이 방식은 실시간 시스템, 온라인 트랜잭션 처리 시스템, 그리고 작업의 중요도가 명확히 구분되는 다양한 분산 컴퓨팅 환경에서 널리 사용된다.

3.3. 공정 공유 스케줄링

공정 공유 스케줄링은 시스템의 자원을 여러 사용자나 작업 그룹 사이에 공정하게 분배하는 것을 목표로 하는 스케줄링 알고리즘이다. 이 방식은 단순히 작업 도착 순서나 절대적 우선순위에 따라 자원을 할당하는 대신, 각 주체가 균등하거나 가중치에 비례한 자원 사용 기회를 보장받도록 설계되었다. 주로 다중 사용자 환경이나 클라우드 컴퓨팅 서비스에서 특정 사용자가 시스템 자원을 독점하는 것을 방지하고 전체적인 공평성을 유지하는 데 중점을 둔다.

이 스케줄링의 핵심 메커니즘은 각 작업이나 사용자에게 일정한 양의 가상 시간 또는 CPU 시간 크레딧을 할당하고, 이를 기준으로 실행 순서를 결정하는 것이다. 작업이 실행될수록 사용한 크레딧이 소모되며, 크레딧이 적은 작업(즉, 상대적으로 자원을 덜 사용한 작업)이 높은 우선순위를 얻어 공정성을 실현한다. 대표적인 구현 방식으로는 유닉스 계열 운영체제에서 오랫동안 사용된 공정 공유 스케줄러가 있으며, 이는 CFS와 같은 현대 스케줄러의 기반이 되기도 했다.

다음은 공정 공유 스케줄링의 주요 특성을 요약한 표이다.

특성	설명
주요 목표	자원 사용의 공평성과 독점 방지
할당 기준	가상 시간, 크레딧, 사용량 기록
적용 환경	다중 사용자 시스템, 그리드 컴퓨팅, 클라우드 서비스
장점	예측 가능한 성능, 기아 상태 방지
단점	절대적 성능 최적화보다는 공정성에 초점[1]

공정 공유 스케줄링은 처리량이나 응답 시간 최적화만을 추구하는 다른 알고리즘과 차별화된다. 예를 들어, FIFO는 선착순 원칙을 따르고, 우선순위 기반 스케줄링은 중요도에 따라 차별을 두지만, 공정 공유 방식은 장기적으로 모든 주체가 정의된 공정성 모델에 따라 자원을 나누어 쓰도록 보장한다. 이는 멀티테넌시 환경이나 서비스 수준 계약이 중요한 비즈니스 시나리오에서 특히 유용하다.

3.4. 데드라인 기반 스케줄링

데드라인 기반 스케줄링은 각 작업에 명시된 마감 시간(Deadline)을 가장 중요한 제약 조건으로 삼아 리소스를 할당하는 방식이다. 이 방식의 핵심 목표는 가능한 한 많은 작업이 주어진 마감 시간 내에 완료되도록 보장하는 것이다. 주로 실시간 시스템, 미디어 처리, 특정 시간 내에 결과가 필요한 배치 작업 등에서 활용된다.

스케줄링 결정은 작업의 마감 시간을 기준으로 이루어진다. 가장 일반적인 알고리즘은 EDF(Earliest Deadline First)로, 마감 시간이 가장 빠른 작업을 가장 높은 우선순위로 할당하여 먼저 실행한다. 또 다른 방식은 마감 시간이 임박했을 때 작업의 우선순위를 동적으로 높이는 방법이다. 이러한 접근법은 시스템이 시간 제약을 엄격하게 준수해야 할 때 효과적이다.

다만, 데드라인 기반 스케줄링은 시스템 부하가 높은 상황에서 도전 과제에 직면한다. 모든 작업의 마감 시간을 만족시키기 어려울 경우, 스케줄러는 어떤 작업을 포기할지 결정해야 한다. 이를 위해 작업의 중요도나 지연 허용 오차를 추가적인 메트릭으로 사용하는 경우도 있다. 또한, 마감 시간 정보의 정확성이 스케줄링 효율에 직접적인 영향을 미친다.

알고리즘	주요 원리	일반적 적용 분야
EDF (Earliest Deadline First)	마감 시간이 가장 임박한 작업을 최우선 실행	실시간 운영체제, 임베디드 시스템
LLF (Least Laxity First)	여유 시간(마감 시간 - 남은 실행 시간 - 현재 시간)이 가장 적은 작업을 실행	동적 실시간 시스템
데드라인 모니터링	작업 실행 중 마감 시간 준수 여부를 지속적으로 확인 및 조정	데이터 파이프라인, 미디어 스트리밍

4. 데이터 환경에서의 적용

데이터 환경에서의 리소스 스케줄링은 대규모 데이터 처리 작업을 효율적으로 관리하고 실행하기 위한 핵심 메커니즘이다. 이는 분산 컴퓨팅 시스템의 성능, 확장성, 그리고 비용 효율성을 직접적으로 결정한다. 데이터의 양, 속도, 다양성이 급증하는 현대 환경에서 스케줄러는 단순한 작업 순서 결정을 넘어, 복잡한 자원 풀을 동적으로 할당하고 다양한 워크로드의 요구 사항을 충족시키는 역할을 담당한다.

주요 적용 분야는 크게 세 가지로 나눌 수 있다. 첫째, 분산 컴퓨팅 시스템에서의 스케줄링이다. 아파치 하둡의 YARN과 아파치 스파크의 클러스터 매니저는 대표적인 예시로, 수천 대의 서버에 걸쳐 데이터 처리 작업(맵리듀스, 스파크 잡)을 분배하고 실행한다. 이들 스케줄러는 데이터 지역성[2]을 고려하여 네트워크 트래픽을 최소화하고, 작업의 우선순위나 자원 요구량에 따라 큐에 작업을 할당한다.

둘째, 데이터베이스 쿼리 스케줄링이다. 다중 사용자 데이터베이스 시스템이나 데이터 웨어하우스에서는 동시에 제출된 여러 SQL 쿼리를 효율적으로 처리해야 한다. 스케줄러는 쿼리의 복잡도, 예상 실행 시간, 사용자 우선순위, 시스템의 현재 부하 상태를 고려하여 실행 순서를 조정한다. 이를 통해 시스템의 전체 처리량을 높이고, 중요한 쿼리의 응답 시간을 보장할 수 있다.

적용 분야	대표 시스템/도구	스케줄링 주요 고려사항
분산 컴퓨팅	아파치 하둡 YARN, 아파치 스파크	데이터 지역성, 클러스터 자원 공정 공유, 작업 우선순위
데이터베이스	관계형 DBMS, OLAP 엔진	쿼리 복잡도, 동시 실행, [[락
데이터 파이프라인	Apache Airflow, Luigi	작업 의존성, 실행 주기, 실패 처리 및 재시도

셋째, 데이터 파이프라인 오케스트레이션에서의 스케줄링이다. ETL(추출, 변환, 적재)이나 데이터 변환 워크플로우를 관리하는 Apache Airflow, Luigi 같은 도구들은 수백 개의 작업과 그 사이의 복잡한 의존 관계를 관리한다. 이들의 스케줄러는 사전 정의된 시간 또는 이벤트에 따라 작업을 트리거하고, 의존성이 충족된 작업만을 실행 순서에 넣으며, 실패한 작업의 재시도를 관리한다. 이를 통해 end-to-end 데이터 파이프라인의 신뢰성과 자동화 수준을 높인다.

4.1. 분산 컴퓨팅 시스템 (하둡, 스파크)

분산 컴퓨팅 시스템은 대규모 데이터 처리를 위해 다수의 컴퓨터 노드를 연결하여 단일 시스템처럼 동작하게 한다. 이러한 시스템에서 리소스 스케줄링은 제한된 컴퓨팅 자원을 여러 작업에 효율적으로 분배하고 관리하는 핵심 메커니즘이다. 대표적인 분산 처리 프레임워크인 아파치 하둡과 아파치 스파크는 각각 고유한 스케줄링 아키텍처를 채택하여 데이터 처리 워크로드를 관리한다.

아파치 하둡의 초기 버전은 맵리듀스 프로그래밍 모델과 단순한 FIFO 스케줄러를 사용했다. 그러나 작업의 우선순위와 다양한 사용자 요구를 수용하기 위해 YARN이 도입되었다. YARN은 중앙집중식 리소스 매니저와 애플리케이션별 애플리케이션 마스터를 두어 자원 관리와 작업 스케줄링을 분리한다. 이를 통해 HDFS 상에서 맵리듀스 작업뿐만 아니라 스파크, 하이브 등 다양한 데이터 처리 엔진이 동일한 클러스터 자원을 공유하며 실행될 수 있게 되었다. YARN의 스케줄러는 주로 용량 스케줄러나 공정 스케줄러를 사용하여 큐 기반의 자원 할당을 수행한다.

반면, 아파치 스파크는 인메모리 처리를 중심으로 설계되어 스케줄링 접근 방식이 다르다. 스파크는 자체적인 클러스터 매니저 모드와 함께 YARN, 메소스, 또는 쿠버네티스와 같은 외부 클러스터 매니저 위에서도 실행될 수 있다. 스파크 애플리케이션 내부에서는 DAG 스케줄러가 작업 스테이지와 태스크를 구성하고 실행한다. 특히 RDD의 파티션 단위로 태스크를 분할하여 여러 익스큐터에 분산시키는 방식으로 동작하며, 데이터 지역성을 고려한 스케줄링을 통해 성능을 최적화한다.

시스템	핵심 스케줄링 컴포넌트	주요 특징
아파치 하둡 (YARN)	리소스 매니저, 노드 매니저	자원 관리와 애플리케이션 스케줄링 분리, 큐 기반 다중 테넌시 지원
아파치 스파크	스파크 컨텍스트, DAG 스케줄러, 클러스터 매니저	인메모리 DAG 기반 실행, 데이터 지역성 최적화, 다중 클러스터 매니저 지원

이러한 분산 컴퓨팅 시스템의 스케줄러는 클러스터의 전체 처리량을 높이고, 작업의 응답 시간을 줄이며, 자원 활용률을 극대화하는 것을 목표로 한다. 데이터 지역성, 장애 허용, 그리고 다양한 워크로드(배치 처리, 인터랙티브 쿼리, 스트리밍)를 동시에 지원하는 것이 주요한 설계 고려 사항이다.

4.2. 데이터베이스 쿼리 스케줄링

데이터베이스 쿼리 스케줄링은 다중 사용자 환경의 데이터베이스 관리 시스템(DBMS)에서 동시에 제출된 여러 쿼리나 트랜잭션에 시스템 자원(주로 CPU, 메모리, 입출력)을 효율적으로 할당하고 실행 순서를 결정하는 과정이다. 그 주요 목표는 전체 시스템 처리량을 최대화하거나 개별 쿼리의 응답 시간을 최소화하는 것이다. DBMS는 내부 쿼리 옵티마이저가 생성한 실행 계획을 바탕으로, 사용 가능한 자원과 현재 시스템 부하 상태를 고려하여 쿼리들의 실행을 조정한다.

스케줄링은 일반적으로 쿼리 수준과 연산자 수준에서 이루어진다. 쿼리 수준에서는 각 쿼리를 하나의 작업 단위로 보고 실행 순서를 정한다. 연산자 수준(또는 파이프라인 스케줄링)에서는 하나의 쿼리 내부의 여러 연산(예: 조인, 정렬, 필터)들 사이에서 중간 결과물을 주고받으며 자원을 할당한다. 대기 중인 쿼리들은 종종 우선순위 큐에 저장되며, 스케줄러는 선점형 스케줄링 또는 비선점형 스케줄링 정책에 따라 이들을 관리한다.

주요 스케줄링 정책은 다음과 같다.

정책	설명	주요 고려 사항
FIFO (First-In, First-Out)	도착한 순서대로 쿼리를 처리한다.	구현이 간단하지만, 긴 실행 시간의 쿼리가 짧은 쿼리의 실행을 지연시킬 수 있다.
최단 작업 우선 (SJF)	예상 실행 시간이 가장 짧은 쿼리를 우선 처리한다.	평균 대기 시간을 줄이는 데 효과적이지만, 실행 시간 예측 정확도에 의존한다.
우선순위 기반	쿼리에 부여된 우선순위(예: 사용자 등급, 비즈니스 중요도)에 따라 처리한다.	중요한 쿼리의 응답 시간을 보장할 수 있으나, 우선순위가 낮은 쿼리는 기아 상태에 빠질 수 있다.
라운드 로빈	각 쿼리에 시간 할당량을 주고 순환하며 처리한다.	공정성을 제공하지만, 문맥 전환 오버헤드가 발생할 수 있다.

현대의 복잡한 데이터 웨어하우스나 OLTP 시스템에서는 이러한 기본 정책들이 혼합되어 사용된다. 예를 들어, 시스템은 짧은 대화형 쿼리에는 높은 우선순위를 부여하여 빠른 응답을 제공하는 동시에, 장기간 실행되는 분석 쿼리에는 남는 자원을 할당하는 방식으로 동작한다. 또한, 동시성 제어 메커니즘(예: 락)과 밀접하게 연동되어 데드락을 방지하고 데이터 일관성을 유지하는 역할도 수행한다[3].

4.3. 데이터 파이프라인 오케스트레이션

데이터 파이프라인 오케스트레이션은 데이터 파이프라인의 각 단계를 구성하고, 실행 순서를 조정하며, 작업 간 의존성을 관리하는 과정을 자동화하는 것을 말한다. 이는 데이터의 수집, 변환, 적재, 분석에 이르는 일련의 워크플로를 신뢰성 있게 운영하기 위한 핵심 기능이다. 오케스트레이션은 개별 작업의 스케줄링을 넘어서 전체 파이프라인의 상태 모니터링, 오류 처리, 재실행 정책을 포함하는 포괄적인 관리 체계를 제공한다.

주요 오케스트레이션 도구는 DAG(방향성 비순환 그래프)를 사용하여 작업과 그 의존 관계를 정의한다. 예를 들어, A 작업이 완료되어야 B 작업이 실행될 수 있다는 관계를 명시적으로 설정한다. 이를 통해 복잡한 데이터 처리 로직을 시각화하고, 병렬 실행이 가능한 경로를 식별하여 전체 처리 시간을 단축할 수 있다. 일반적인 오케스트레이션 기능은 다음과 같다.

기능	설명
작업 정의	SQL 쿼리 실행, Python 스크립트 호출, 파일 전송 등 개별 작업 단위를 기술한다.
의존성 관리	작업 간 실행 순서와 조건(성공/실패 시 분기)을 설정한다.
스케줄링	시간 기반(예: 매일 오전 2시) 또는 이벤트 기반(예: 파일 도착 시) 트리거를 설정한다.
모니터링 & 알림	작업 실행 상태, 소요 시간, 로그를 추적하고 실패 시 알림을 발송한다.
재시도 & 오류 처리	일시적 오류에 대한 재시도 정책과 최종 실패 처리를 구성한다.

Apache Airflow와 Luigi는 이 분야의 대표적인 오픈소스 도구이다. 특히 Airflow는 파이썬 코드로 DAG를 정의할 수 있는 유연성과 풍부한 연산자(Operator) 라이브러리로 널리 사용된다. 클라우드 환경에서는 Google Cloud Composer(관리형 Airflow), AWS Step Functions, Azure Data Factory와 같은 관리형 서비스도 제공된다. 데이터 파이프라인 오케스트레이션을 효과적으로 구현하면 데이터의 신선도와 품질을 보장하고, 운영 부담을 줄이며, 복잡한 데이터 워크플로의 유지보수성을 크게 향상시킬 수 있다.

5. 스케줄링 정책과 전략

스케줄링 정책은 시스템의 전반적인 목표를 달성하기 위해 스케줄링 알고리즘이 리소스를 할당하는 방식을 결정하는 상위 규칙이다. 이 정책은 단순히 작업의 순서를 정하는 것을 넘어, 클러스터 전체의 효율성, 비용, 서비스 품질을 관리하는 전략적 틀을 제공한다. 주요 정책으로는 처리량 극대화, 응답 시간 최소화, 공정성 보장, 비용 절감 등이 있으며, 이들은 종종 서로 상충 관계에 놓인다[4]. 따라서 시스템 운영자는 주어진 환경과 비즈니스 요구사항에 따라 적절한 정책을 선택하고 조정해야 한다.

자원 할당 최적화 정책은 한정된 컴퓨팅 리소스를 가장 효율적으로 사용하는 데 초점을 맞춘다. 핵심은 자원 활용률을 높여 유휴 상태의 리소스를 최소화하는 것이다. 이를 위해 작업의 리소스 요구량을 정확히 예측하고, 패킹 알고리즘을 사용해 서로 다른 리소스 요구 패턴을 가진 작업들을 동일한 물리적 노드에 조밀하게 배치하는 전략이 사용된다. 또한, 가상화 기술을 활용해 리소스를 시간 또는 공간적으로 분할하여 여러 작업이 공유하도록 하는 정책도 널리 적용된다.

부하 균형 정책은 시스템 내 모든 작업 노드의 작업량을 고르게 분산시켜 특정 노드에 과부하가 걸리거나 다른 노드가 쉬는 상황을 방지한다. 이는 시스템의 전체 처리량을 높이고 단일 장애점을 줄이는 데 기여한다. 정적 부하 균형은 미리 정의된 규칙에 따라 작업을 분배하는 반면, 동적 부하 균형은 실시간으로 각 노드의 CPU 사용률, 메모리 사용량, 네트워크 트래픽 등을 모니터링하여 부하가 적은 노드로 새 작업을 라우팅한다. 많은 분산 시스템은 자동 확장 정책과 결합되어 부하 증가 시 새 노드를 자동으로 추가하기도 한다.

비용 기반 스케줄링 정책은 특히 퍼블릭 클라우드 환경에서 중요성이 증가한다. 이 정책의 목표는 작업 완료 시간이나 성능 제약 조건을 만족시키면서 총 컴퓨팅 비용을 최소화하는 것이다. 주요 전략으로는 다양한 인스턴스 유형(온디맨드, 스팟, 예약 인스턴스)을 비용과 안정성에 따라 혼합 사용하거나, 데이터 지역성을 고려해 데이터 전송 비용을 줄이는 것이 있다. 또한, 작업의 데드라인과 중요도를 고려해 저비용 리소스에는 덜 긴급한 작업을, 고성능 리소스에는 중요한 작업을 할당하는 정교한 비용-성능 트레이드오프 분석이 이루어진다.

정책 유형	주요 목표	일반적인 적용 기법
자원 할당 최적화	자원 활용률 극대화, 유휴 리소스 최소화	패킹 알고리즘, 가상화, 리소스 오버커밋
부하 균형	시스템 전체 처리량 향상, 핫스팟 방지	동적 모니터링 기반 라우팅, 작업 이전, 자동 확장
비용 기반 스케줄링	총 컴퓨팅 비용 최소화	혼합 인스턴스 전략, 데이터 지역성 고려, 비용-성능 트레이드오프

5.1. 자원 할당 최적화

자원 할당 최적화는 제한된 컴퓨팅 자원을 여러 작업이나 사용자에게 효율적으로 분배하여 시스템의 전반적인 성능과 목표를 극대화하는 과정이다. 이는 단순히 자원을 나누는 것을 넘어, 주어진 제약 조건 하에서 처리량, 응답 시간, 비용, 에너지 소비 등 특정 목표 함수를 최적화하는 수학적 문제로 접근한다. 최적화의 목표는 시스템의 운영 목적에 따라 달라지며, 종종 서로 상충되는 여러 지표 사이의 균형을 찾는 것이 핵심이다.

주요 최적화 기법으로는 선형 계획법, 정수 계획법, 제약 조건 프로그래밍, 휴리스틱 및 메타휴리스틱 알고리즘 등이 활용된다. 복잡하고 동적인 환경에서는 실시간으로 변하는 자원 상태와 작업 요구 사항을 반영하기 위해 온라인 스케줄링 알고리즘이 사용된다. 예를 들어, 클라우드 컴퓨팅 환경에서는 가상 머신의 배치 문제를 해결하기 위해 빈 패킹 문제와 유사한 알고리즘이 적용되어 서버 통합을 통해 자원 활용률을 높이고 운영 비용을 절감한다.

데이터 중심 환경에서의 자원 할당 최적화는 데이터 지역성, 네트워크 대역폭, 스토리지 I/O를 고려해야 한다. 분산 컴퓨팅 시스템에서는 계산 작업을 해당 데이터가 저장된 노드에 가깝게 스케줄링하여 데이터 이동 비용을 최소화하는 것이 성능에 결정적이다. 아래 표는 다양한 최적화 목표와 그에 따른 전략의 예를 보여준다.

최적화 목표	주요 고려 사항	적용 예시
처리량 극대화	자원 활용률, 작업 간 간섭 최소화	과학적 계산 클러스터
평균 응답 시간 최소화	작업의 예상 실행 시간, 우선순위 큐	대화형 웹 서비스
비용 최소화	스팟 인스턴스 활용, 자원 종료/시작 전략	퍼블릭 클라우드 배치 작업
에너지 효율성	전력 소모 모델링, 서버 통합	그린 데이터센터
공정성 유지	도미넌트 리소스 페어니스 등 공정성 메트릭	다중 테넌트 공유 시스템

이러한 최적화는 정적 설정으로 끝나지 않으며, 시스템 모니터링을 통해 지속적으로 자원 사용 패턴을 분석하고 스케줄링 정책을 동적으로 조정하는 폐루프 제어 방식으로 진화하고 있다.

5.2. 부하 균형 (Load Balancing)

부하 균형은 리소스 스케줄링의 핵심 전략 중 하나로, 시스템 내의 작업 부하를 여러 컴퓨팅 노드나 처리 장치에 고르게 분배하여 단일 지점에 과부하가 걸리는 것을 방지하고 전체 시스템의 성능과 안정성을 최적화하는 것을 목표로 한다. 이는 특정 자원의 포화 상태로 인한 병목 현상을 해소하고, 가용성을 높이며, 작업 처리 시간을 단축시키는 데 기여한다. 부하 균형은 클라우드 컴퓨팅, 웹 서버 팜, 분산 데이터베이스, 고성능 컴퓨팅 클러스터 등 다양한 컴퓨팅 환경에서 광범위하게 적용된다.

부하 균형을 구현하는 주요 방법은 정적 부하 분산과 동적 부하 분산으로 구분된다. 정적 방법은 시스템 상태를 사전에 알고 있거나 실시간 모니터링 없이 미리 정의된 정책에 따라 부하를 분배한다. 대표적인 알고리즘으로는 라운드 로빈, 최소 연결 수, 해시 기반 분산 등이 있다. 반면, 동적 방법은 각 노드의 실시간 부하 지표(예: CPU 사용률, 메모리 사용량, 네트워크 대역폭, 활성 연결 수)를 지속적으로 모니터링하여 현재 가장 여유 있는 자원을 가진 노드로 새 작업을 라우팅한다. 이 방식은 시스템 상태 변화에 더 민첩하게 대응할 수 있지만, 모니터링에 따른 오버헤드가 발생할 수 있다.

효과적인 부하 균형 전략을 수립하기 위해서는 워크로드의 특성을 고려해야 한다. 배치 작업과 대화형 작업은 각각 다른 자원 요구 사항과 응답 시간 민감도를 가지므로, 이를 구분하여 스케줄링하는 것이 중요하다. 또한, 데이터 지역성을 고려한 스케줄링은 데이터가 저장된 노드에서 작업을 실행함으로써 네트워크 전송 비용을 줄이고 처리 속도를 높일 수 있다. 많은 현대 분산 시스템 스케줄러는 이러한 요소들을 복합적으로 고려한 정책을 채택하고 있다.

부하 균형 방식	주요 원리	장점	단점
라운드 로빈	요청을 노드 목록에 따라 순차적으로 할당	구현이 간단하고 공정함	노드의 성능 차이나 현재 부하 상태를 고려하지 않음
최소 연결 수	현재 활성 연결 수가 가장 적은 노드에 할당	동적 부하를 일부 반영할 수 있음	연결 수가 부하를 완전히 대표하지는 않을 수 있음
가중치 기반	노드의 처리 능력(가중치)에 비례하여 분배	이기종 자원 환경에 적합	가중치 설정이 정확해야 함
동적 모니터링 기반	실시간 자원 사용률(CPU, 메모리 등)을 기준으로 분배	가장 효율적인 자원 활용 가능	모니터링 오버헤드 발생, 복잡도 높음

5.3. 비용 기반 스케줄링

비용 기반 스케줄링은 리소스 스케줄링 정책의 하나로, 작업을 실행하는 데 드는 비용을 최소화하거나 지정된 예산 내에서 성능을 최대화하는 것을 목표로 한다. 이 접근법은 특히 클라우드 컴퓨팅 환경에서 중요성을 지닌다. 클라우드 환경에서는 CPU, 메모리, 스토리지, 네트워크 대역폭 등 다양한 리소스를 사용량에 따라 지불하는 종량제 모델이 일반적이기 때문이다. 따라서 스케줄러는 단순히 작업을 완료하는 것뿐만 아니라, 가장 경제적인 리소스 조합을 선택하여 총 실행 비용을 줄이는 결정을 내린다.

비용 최적화를 위한 주요 전략은 다음과 같다. 첫째, 스팟 인스턴스와 같은 저비용이지만 중단 가능한 리소스를 활용하는 것이다. 둘째, 작업의 데드라인과 중요도를 고려하여 고가의 프리미엄 리소스 사용을 최소화하는 것이다. 셋째, 데이터 지역성을 고려하여 네트워크 전송 비용이 큰 데이터 이동을 줄이는 것이다. 또한, 리소스의 유휴 시간을 최소화하여 자원이 비용을 발생시키지만 실제 작업에는 사용되지 않는 상황을 방지한다.

이 스케줄링 방식의 효과는 다양한 요소에 의해 결정된다. 클라우드 제공업체별로 동일한 성능의 리소스라도 가격이 상이할 수 있으며, 지역에 따라 비용 차이가 발생한다. 작업의 특성, 예를 들어 배치 처리 작업인지 대화형 처리 작업인지에 따라 적합한 리소스 등급과 비용 구조가 다르다. 따라서 비용 기반 스케줄러는 실시간으로 변동하는 리소스 가격 정보, 작업의 예상 실행 시간, 그리고 성능 요구사항을 종합적으로 분석해야 한다.

고려 요소	설명	비용 영향
리소스 유형	온디맨드 인스턴스, 스팟 인스턴스, 예약 인스턴스 등	인스턴스 유형에 따라 시간당 비용이 크게 차이남
리소스 지역/존	데이터센터의 지리적 위치와 가용 영역	지역별 가격 차이 및 데이터 전송 비용 발생
작업 실행 시간	작업의 예상 소요 시간	장시간 실행 시 누적 비용 증가
데이터 이동	컴퓨팅 리소스와 데이터 저장소 간의 거리	네트워크 송신 비용을 초래할 수 있음

결과적으로, 비용 기반 스케줄링은 자원 할당 최적화와 부하 균형의 목표에 경제적 효율성이라는 차원을 추가한다. 이는 기업이 클라우드 인프라 비용을 효과적으로 통제하면서도 서비스 수준 계약을 충족시키는 데 핵심적인 역할을 한다.

6. 성능 평가 지표

성능 평가 지표는 리소스 스케줄링 시스템의 효율성과 효과성을 측정하고 비교하는 데 사용되는 핵심 기준이다. 시스템의 설계 목표에 따라 강조되는 지표가 달라지며, 주로 처리량, 응답 시간, 자원 활용률이 가장 기본적인 평가 항목으로 고려된다. 이러한 지표들은 서로 상충 관계에 있을 수 있어, 스케줄링 정책은 특정 목표에 따라 이러한 지표들 사이의 균형을 찾는 방향으로 설계된다.

처리량은 단위 시간당 시스템이 완료한 작업의 수를 의미한다. 높은 처리량은 시스템의 전체적인 생산성을 나타내는 지표로, 특히 배치 처리 환경에서 중요한 목표가 된다. 응답 시간은 작업이 제출된 시점부터 결과를 반환받을 때까지 걸리는 시간을 말한다. 이는 대화형 시스템이나 온라인 트랜잭션 처리와 같이 사용자 경험에 직접 영향을 미치는 환경에서 가장 중요한 지표 중 하나이다. 응답 시간은 평균 응답 시간, 최대 응답 시간, 백분위 응답 시간 등으로 세분화되어 분석된다.

자원 활용률은 CPU, 메모리, 네트워크 대역폭, 스토리지와 같은 시스템 자원이 실제 작업을 수행하는 데 얼마나 효율적으로 사용되고 있는지를 나타내는 비율이다. 높은 자원 활용률은 일반적으로 하드웨어 투자 대비 효율이 높음을 의미하지만, 자원 포화 상태는 새로운 작업의 수용성을 떨어뜨리고 응답 시간을 악화시킬 수 있다. 이 외에도 작업 완료 시간, 공정성, 예측 가능성 등이 중요한 평가 기준이 될 수 있다.

지표	설명	중요성이 높은 환경 예시
처리량	단위 시간당 완료된 작업 수	과학 계산, 대규모 데이터 배치 처리
응답 시간	작업 제출부터 결과 반환까지의 시간	웹 서비스, 실시간 데이터 스트림 처리
자원 활용률	각 하드웨어 자원의 사용 비율	클라우드 데이터센터, 비용 기반 스케줄링
공정성	사용자 또는 작업 그룹 간 자원 분배의 공정성	다중 테넌트 클라우드 컴퓨팅 환경

이러한 지표들은 실제 운영 환경에서 지속적으로 모니터링되어, 스케줄링 알고리즘의 튜닝이나 부하 균형 전략 변경의 근거로 활용된다. 최근에는 단일 지표 최적화보다는 여러 지표를 종합적으로 고려한 다목적 최적화 접근법이 주목받고 있다.

6.1. 처리량 (Throughput)

처리량은 단위 시간당 시스템이 완료한 작업의 수 또는 처리한 데이터의 양을 측정하는 지표이다. 리소스 스케줄링의 핵심 성능 평가 기준 중 하나로, 시스템의 전체 생산성과 효율성을 나타낸다. 높은 처리량은 주어진 시간 내에 더 많은 작업을 성공적으로 처리했음을 의미하며, 이는 자원 활용률과 밀접한 관련이 있다. 일반적으로 초당 트랜잭션 수(TPS)나 시간당 작업 수 등의 단위로 표현된다.

처리량은 스케줄링 알고리즘의 설계와 정책에 직접적인 영향을 받는다. 예를 들어, FIFO (First In, First Out) 방식은 간단하지만 짧은 작업이 긴 작업 뒤에서 대기하는 경우 전체 처리량이 저하될 수 있다. 반면, 공정 공유 스케줄링이나 적절한 우선순위 기반 스케줄링은 리소스 점유 시간이 짧은 작업을 우선 처리함으로써 전체적인 처리량을 향상시킬 수 있다. 분산 컴퓨팅 환경에서 Apache YARN이나 Kubernetes 스케줄러는 작업을 여러 노드에 효율적으로 분배하여 병렬 처리를 극대화하고, 이로 인해 시스템 전체의 처리량을 높이는 것을 목표로 한다.

처리량을 최적화할 때는 다른 지표와의 트레이드오프를 고려해야 한다. 처리량만을 극대화하려고 하면 개별 작업의 응답 시간이 길어지거나 공정성이 떨어질 수 있다. 또한, 시스템의 부하가 과도하게 증가하면 부하 균형 (Load Balancing)이 깨져 오히려 처리량이 감소하는 지점에 도달할 수 있다. 따라서 효과적인 스케줄링은 처리량, 응답 시간, 자원 활용률, 비용 등을 종합적으로 고려한 정책을 수립하는 것이다.

6.2. 응답 시간 (Response Time)

응답 시간은 작업이 시스템에 제출된 시점부터 그 결과가 사용자에게 반환되기까지 걸리는 총 시간을 의미한다. 이는 리소스 스케줄링의 핵심 성능 지표 중 하나로, 사용자가 체감하는 시스템의 반응 속도를 직접적으로 나타낸다.

응답 시간은 일반적으로 대기 시간과 실행 시간의 합으로 구성된다. 대기 시간은 작업이 스케줄링 큐에서 자신의 차례를 기다리는 시간이며, 실행 시간은 실제로 컴퓨팅 리소스를 할당받아 처리되는 시간이다. 짧은 응답 시간을 보장하는 것은 대화형 시스템이나 실시간 처리가 요구되는 환경에서 특히 중요하다.

다양한 스케줄링 알고리즘은 응답 시간에 서로 다른 영향을 미친다. 예를 들어, FIFO 방식은 평균 응답 시간이 길어질 수 있는 반면, 라운드 로빈 방식이나 최단 작업 우선 방식은 평균 응답 시간을 단축시키는 데 효과적일 수 있다. 시스템 설계자는 처리량이나 자원 활용률 같은 다른 지표와의 트레이드오프를 고려하여 적절한 스케줄링 정책을 선택해야 한다.

지표	설명	영향 요인
평균 응답 시간	모든 작업의 응답 시간을 평균한 값	시스템 부하, 스케줄링 정책
최대 응답 시간	가장 오래 걸린 작업의 응답 시간	긴 작업의 존재, 자원 기아 현상
응답 시간 분산	응답 시간의 편차 또는 표준편차	스케줄링의 공정성, 워크로드 특성

응답 시간을 모니터링하고 분석하는 것은 시스템 병목 현상을 식별하고 부하 균형 전략을 수립하는 데 필수적이다. 특히 데이터 파이프라인에서 각 작업의 응답 시간을 예측하고 관리하는 것은 전체 프로세스의 완료 시간을 보장하는 데 결정적인 역할을 한다.

6.3. 자원 활용률 (Resource Utilization)

자원 활용률은 시스템이 보유한 총 컴퓨팅 리소스 중 실제로 작업 수행에 사용된 비율을 의미한다. 이는 CPU 사용률, 메모리 사용률, 네트워크 대역폭 사용률, 스토리지 I/O 사용률 등 세부 자원별로 측정될 수 있다. 높은 자원 활용률은 일반적으로 하드웨어 투자 대비 효율이 높음을 나타내지만, 항상 바람직한 것은 아니다. 100%에 가까운 지속적인 높은 활용률은 시스템에 여유 공간이 없음을 의미하며, 새로운 작업 요청이나 트래픽 급증 시 응답 시간 저하나 서비스 장애로 이어질 수 있다.

이 지표는 리소스 스케줄링 정책의 효과를 평가하는 핵심 척도 중 하나이다. 스케줄러는 작업을 할당할 때 자원 활용률을 높이면서도 시스템의 안정성을 유지하는 균형점을 찾아야 한다. 예를 들어, 공정 공유 스케줄링은 여러 사용자나 작업 그룹 간에 자원을 공평하게 나누어 장기적인 활용률 균형을 목표로 한다. 반면, 비용 기반 스케줄링은 자원 사용 비용을 최소화하거나 예산 내에서 최대의 활용률을 달성하는 방식으로 접근한다.

자원 활용률을 최적화하기 위한 일반적인 전략으로는 부하 균형이 있다. 이는 작업을 여러 서버나 컴퓨팅 노드에 고르게 분산시켜 특정 노드의 자원이 포화 상태가 되는 것을 방지하고 전체 클러스터의 평균 활용률을 높인다. 또한, 가상화 및 컨테이너화 기술은 물리적 자원을 더 세분화하여 할당함으로써 자원의 공유율과 전반적인 활용 효율을 크게 향상시켰다.

측정 대상	설명	과도한 활용의 위험
CPU 활용률	프로세서가 유휴 상태가 아닌 시간 비율	시스템 정체 및 과열, 응답 시간 급증
메모리 활용률	할당된 물리적/가상 메모리 사용량	스와핑 발생으로 인한 성능 급락
디스크 I/O 활용률	저장 장치 읽기/쓰기 활동 수준	I/O 대기 시간 증가 및 관련 작업 지연
네트워크 활용률	네트워크 대역폭 사용량	패킷 손실 및 통신 지연 발생

따라서 효과적인 스케줄링은 단순히 자원 활용률을 최대화하는 것이 아니라, 처리량과 응답 시간 같은 다른 성능 평가 지표와 함께 고려하여 목표 서비스 수준 협약을 충족하는 범위 내에서 적정 수준의 활용률을 유지하는 것이다.

7. 도구와 플랫폼

Apache YARN은 하둡 2.0부터 도입된 핵심 리소스 관리자이다. 이전 맵리듀스의 단점을 보완하여, 맵리듀스뿐만 아니라 다양한 데이터 처리 프레임워크(스파크, 테즈, 플링크 등)가 동일한 클러스터 자원을 공유하며 실행될 수 있도록 설계되었다. YARN의 주요 역할은 클러스터의 컴퓨팅 리소스(CPU, 메모리)를 중앙에서 관리하고, 개별 애플리케이션(예: 맵리듀스 잡)의 자원 요청에 따라 이를 할당하는 것이다. 이를 통해 클러스터의 자원 활용률을 극대화하고, 다양한 워크로드를 효율적으로 지원한다.

Kubernetes 스케줄러는 컨테이너 오케스트레이션 플랫폼인 쿠버네티스의 핵심 컴포넌트로, 파드를 적절한 노드에 배치하는 역할을 담당한다. 스케줄러는 파드의 자원 요구사항(예: CPU, 메모리 요청), 노드의 가용 자원, 어피니티/안티-어피니티 규칙, 테인트와 톨러레이션 등 다양한 제약 조건과 정책을 고려하여 최적의 배치 결정을 내린다. 사용자는 기본 스케줄러를 사용하거나, 특정 스케줄링 요구사항에 맞춰 커스텀 스케줄러를 개발하여 통합할 수도 있다.

워크플로 관리 도구는 복잡한 데이터 파이프라인의 작업 순서, 의존성, 실행 주기를 정의하고 조율하는 데 특화되어 있다. Apache Airflow는 파이썬 코드로 워크플로를 DAG(방향성 비순환 그래프) 형태로 정의하며, 풍부한 스케줄링 옵션, 모니터링 UI, 확장성을 제공하는 대표적인 도구이다. Luigi는 스포티파이에서 개발한 파이썬 기반 도구로, 작업 의존성 해결과 실패 처리에 중점을 두고 보다 간결한 구조를 지닌다. 이들 도구는 배치 작업의 스케줄링과 실행 상태 관리에 주로 사용된다.

도구/플랫폼 유형	대표 예시	주요 스케줄링 대상	핵심 특징
클러스터 리소스 관리자	Apache YARN, Apache Mesos	애플리케이션 마스터/프레임워크	클러스터 자원의 중앙 집중형 관리와 공정한 분배
컨테이지 오케스트레이터	Kubernetes 스케줄러	파드(컨테이너 그룹)	다양한 제약 조건 하에서 컨테이너 워크로드의 자동 배치
워크플로 오케스트레이션	Apache Airflow, Luigi	작업(Task) DAG	시간/이벤트 기반 실행, 작업 의존성 관리, 모니터링

7.1. Apache YARN

Apache YARN(Yet Another Resource Negotiator)은 Apache Hadoop 2.0부터 도입된 핵심 자원 관리 및 작업 스케줄링 플랫폼이다. 기존 Hadoop 1.0의 MapReduce가 자원 관리와 작업 실행을 모두 담당했던 모놀리식 아키텍처의 한계를 해결하기 위해 설계되었다. YARN은 클러스터의 자원 관리와 개별 애플리케이션의 생명주기 관리를 분리하는 역할을 담당한다.

YARN의 아키텍처는 크게 세 가지 핵심 컴포넌트로 구성된다.

컴포넌트	역할
ResourceManager (RM)	클러스터 전체 자원의 최종 할당을 담당하는 마스터 데몬이다. 모든 노드의 자원 사용을 모니터링하고 애플리케이션의 자원 요청을 스케줄링한다.
NodeManager (NM)	클러스터의 각 개별 노드에서 실행되는 슬레이브 데몬이다. 해당 노드의 자원(CPU, 메모리 등)을 관리하고 RM의 지시에 따라 컨테이너를 실행 및 모니터링한다.
ApplicationMaster (AM)	각 애플리케이션(예: MapReduce 잡, Apache Spark 작업)마다 별도로 생성되는 컴포넌트이다. RM으로부터 자원을 협상(Negotiate)받아 NM에 컨테이너 실행을 요청하고, 작업의 진행 상황과 상태를 관리한다.

이러한 분리된 구조 덕분에 YARN은 MapReduce뿐만 아니라 Apache Spark, Apache Tez, Apache Flink 등 다양한 데이터 처리 프레임워크를 단일 클러스터 상에서 실행할 수 있는 범용 플랫폼 역할을 한다. 사용자는 FIFO (First In, First Out), 용량(Capacity), 공정(Fair) 스케줄러 등 다양한 스케줄링 알고리즘 중 선택하여 클러스터 자원을 여러 부서나 프로젝트 간에 효율적으로 분배할 수 있다.

7.2. Kubernetes 스케줄러

쿠버네티스 스케줄러는 쿠버네티스 클러스터에서 파드를 적절한 노드에 할당하는 핵심 컨트롤 플레인 컴포넌트이다. 스케줄러는 새로 생성된 파드를 감시하며, 할당된 노드가 없는 파드를 사용 가능한 노드 중 하나에 배치하는 역할을 한다. 이 결정은 파드의 리소스 요구사항, 노드의 가용 자원, 어피니티/안티-어피니티 규칙, 테인트와 톨러레이션, 데이터 지역성 등 다양한 제약 조건과 정책을 고려하여 내려진다.

스케줄링 결정은 필터링과 스코어링이라는 두 단계로 이루어진다. 필터링 단계에서는 파드의 스펙과 노드의 상태를 기반으로 실행 가능한 노드 목록을 찾는다. 예를 들어, 파드가 요구하는 CPU나 메모리를 노드가 보유하지 않았거나, 노드에 부여된 테인트를 파드가 용인하지 않으면 해당 노드는 후보에서 제외된다. 스코어링 단계에서는 필터링을 통과한 실행 가능한 노드들에 점수를 매겨 가장 적합한 노드를 선택한다. 점수는 리소스 균형, 파드 간 어피니티, 이미지 레지스트리와의 근접성 등의 요소를 기반으로 계산된다.

사용자는 다양한 방법으로 스케줄링 동작을 제어할 수 있다. 노드 셀렉터나 노드 어피니티를 사용해 특정 노드를 선호하도록 하거나, 파드 어피니티와 안티-어피니티를 설정해 특정 파드들과 함께 배치되거나 반드시 분리되도록 요구할 수 있다. 또한, 기본 스케줄러 외에 사용자 정의 스케줄러를 구현하여 배포하고, 특정 파드에 대해 이를 지정하여 실행할 수도 있다. 이는 특정 워크로드에 맞춤화된 스케줄링 정책을 적용할 때 유용하다.

구성 요소/개념	설명
kube-scheduler	쿠버네티스의 기본 스케줄러 컴포넌트이다.
스케줄링 프로파일	서로 다른 스케줄링 단계(필터, 스코어)에 사용할 플러그인을 구성할 수 있다.
스케줄링 프레임워크	사용자 정의 스케줄링 플러그인을 개발할 수 있는 확장 가능한 아키텍처이다.
스케줄러 확장기	기본 알고리즘을 확장하는 더 간단한 방법으로, 필터링과 우선순위 지정 함수를 제공한다[5].

7.3. 워크플로 관리 도구 (Airflow, Luigi)

워크플로 관리 도구는 복잡한 데이터 파이프라인을 구성하는 개별 작업들의 실행 순서, 의존성, 재시도, 모니터링을 자동화하는 소프트웨어 플랫폼이다. 이 도구들은 리소스 스케줄링의 상위 추상화 계층으로 작동하여, 사용자가 선언적으로 정의한 워크플로를 하위의 클러스터 관리자나 스케줄러에 효율적으로 할당하고 조정하는 역할을 한다. 이를 통해 데이터 수집, 변환, 분석, 보고와 같은 일련의 과정을 안정적이고 반복 가능하게 실행할 수 있다.

대표적인 도구로는 Apache Airflow와 Luigi가 있다. Airflow는 Python으로 워크플로를 코드 형태로 정의하는 방식을 채택했으며, 풍부한 사용자 인터페이스, 확장성, 다양한 실행 환경 지원이 특징이다. 반면, Luigi는 Spotify에서 개발되었으며, 작업 간 의존성을 명확히 해결하는 데 중점을 두고 비교적 단순한 설계를 지닌다. 두 도구 모두 DAG를 사용하여 작업의 흐름과 관계를 모델링한다.

도구	주요 언어	개발사/커뮤니티	주요 특징
Apache Airflow	Python	Apache Software Foundation	풍부한 UI, 스케줄러, 오퍼레이터, 확장성 높음
Luigi	Python	Spotify	단순성, 명확한 의존성 관리, Hadoop 통합 용이

이러한 도구들은 내부적으로 자체 스케줄러 컴포넌트를 포함하고 있어, 작업의 실행 시점을 결정하고 의존성이 충족된 작업을 식별한다. 최종적인 작업 실행은 로컬 프로세스, Docker 컨테이너, Kubernetes 파드, 또는 Apache Spark 클러스터와 같은 외부 실행 환경에 위임된다. 따라서 워크플로 관리 도구는 복합적인 리소스 스케줄링 정책의 일환으로, 높은 수준의 작업 오케스트레이션을 담당한다고 볼 수 있다.

8. 도전 과제와 최신 동향

데이터 처리 환경의 복잡성 증가와 워크로드의 다양화는 리소스 스케줄링에 새로운 도전 과제를 제시한다. 전통적인 배치 처리 작업 외에 실시간 스트리밍 데이터 처리, 대화형 쿼리, 머신러닝 모델 학습과 서빙 등 다양한 유형의 작업이 동일한 클러스터에서 혼재되어 실행된다. 이러한 혼합 워크로드를 효율적으로 관리하기 위해서는 작업의 특성(예: 짧은 지연 시간 요구, 장기 실행, 자원 변동성)을 정확히 인지하고 차별화된 스케줄링 정책을 적용해야 한다. 또한, 다중 테넌시 환경에서 서로 다른 팀이나 프로젝트 간의 자원 경쟁을 관리하고 서비스 수준 협약을 준수하는 것도 중요한 과제이다.

에너지 소비와 운영 비용 최적화에 대한 요구가 높아지면서 에너지 효율적 스케줄링이 주요 관심사로 부상했다. 대규모 데이터 센터는 막대한 전력을 소비하므로, 스케줄러는 작업을 특정 시간대나 지리적 리전으로 이동시키거나, 유휴 자원을 신속하게 절전 모드로 전환하는 등의 전략을 통해 전체적인 에너지 소비를 줄이는 방향으로 진화하고 있다. 이는 탄소 배출량 감소와 직접적으로 연결되는 환경적, 경제적 동인에 의해 추진된다.

최근에는 머신러닝과 인공지능 기술을 스케줄링 자체에 적용하는 연구와 실험이 활발히 진행되고 있다. 강화 학습을 이용한 스케줄러는 시스템의 복잡한 상태(작업 대기열, 자원 가용성, 네트워크 상태 등)를 관찰하고, 장기적인 보상(예: 처리량 극대화, 비용 최소화)을 위해 최적의 스케줄링 결정을 학습한다. 또한, 히스토리 데이터를 분석하여 작업 실행 시간을 예측하고, 이를 바탕으로 더 정확한 자원 예약과 배치를 수행하는 예측 기반 스케줄링도 발전하고 있다. 이러한 지능형 접근법은 고정된 규칙 기반 알고리즘으로는 해결하기 어려운 동적이고 불확실한 환경에서의 의사결정을 개선할 수 있는 잠재력을 지닌다.

8.1. 다양한 워크로드 관리

워크로드의 다양성은 현대 리소스 스케줄링 시스템이 직면한 주요 도전 과제 중 하나이다. 전통적인 배치 처리 작업과 달리, 오늘날의 데이터 센터와 클라우드 컴퓨팅 환경은 인터랙티브 쿼리, 스트림 처리, 머신러닝 모델 학습 및 추론, 실시간 분석 등 이질적이고 동적인 워크로드를 동시에 실행해야 한다. 이러한 워크로드들은 각각 상이한 SLA, 리소스 요구 패턴(예: CPU 집약적, 메모리 집약적, I/O 집약적), 실행 시간, 그리고 중요도를 가진다.

효과적인 관리를 위해서는 스케줄러가 워크로드의 특성을 정확히 인지하고 분류할 수 있어야 한다. 예를 들어, 짧은 지연 시간이 요구되는 실시간 작업은 우선적으로 자원을 할당받는 반면, 수 시간 걸리는 대규모 배치 작업은 백그라운드에서 유휴 자원을 활용하여 실행될 수 있다. 이를 위해 큐 기반 격리, 자원 예약, 그리고 워크로드 유형별로 다른 스케줄링 정책을 적용하는 다중 테넌시 지원이 필수적이다. Apache YARN의 용량 스케줄러나 Kubernetes의 네임스페이스와 리소스 쿼터는 이러한 다중 워크로드 환경을 관리하는 데 널리 사용되는 메커니즘이다.

관리의 복잡성은 워크로드의 예측 불가능성에서도 기인한다. 사용자 요청에 따라 갑자기 생성되는 애드혹 쿼리나 변동하는 데이터 스트림 부하는 시스템에 예상치 못한 부하를 일으킬 수 있다. 따라서 스케줄러는 정적 할당을 넘어서 동적으로 자원을 재배분하고 부하 균형을 맞추는 능동적인 정책이 필요하다. 오토스케일링 기능은 수요에 따라 컴퓨팅 인스턴스를 자동으로 증감시켜 변동 워크로드를 수용하는 데 핵심적인 역할을 한다.

워크로드 유형	주요 특징	일반적인 스케줄링 요구사항
배치 처리	실행 시간이 김, 높은 처리량 요구	자원 활용률 최대화, 데드라인 내 완료
인터랙티브 쿼리 / 실시간 분석	짧은 응답 시간 요구	낮은 지연 시간, 빠른 자원 할당
스트림 처리	연속적인 데이터 입력, 지속적 실행	안정적인 자원 보장, 장애 허용
머신러닝 학습	계산 집약적, GPU/TPU 같은 특수 하드웨어 필요	특수 가속기 할당, 장시간 실행 견딤

결국, 다양한 워크로드를 효율적으로 관리하는 것은 서로 상충되는 목표(예: 처리량 대 지연 시간) 사이의 균형을 찾고, 제한된 물리적 자원 위에서 각 작업의 성능 목표를 만족시키는 것을 의미한다. 이는 단일 알고리즘보다는 상황 인지적이고 정책 기반의 통합 관리 프레임워크를 요구하는 지속적인 진화의 영역이다.

8.2. 에너지 효율적 스케줄링

에너지 효율적 스케줄링은 컴퓨팅 자원을 할당하고 작업을 순서화할 때 시스템의 전력 소비를 최소화하거나 에너지 효율을 극대화하는 것을 주요 목표로 하는 접근법이다. 이는 특히 대규모 데이터 센터와 클라우드 컴퓨팅 환경에서 운영 비용 절감과 환경적 지속 가능성을 위해 중요성이 부각되었다. 기존 스케줄링이 처리량이나 응답 시간과 같은 성능 지표에 집중했다면, 에너지 효율적 스케줄링은 성능과 에너지 소비 사이의 최적 균형점을 찾는다.

주요 전략으로는 DVFS 기술을 활용한 동적 전압 및 주파수 조절이 있다. 이는 작업 부하가 낮은 시점에 프로세서의 전압과 클록 주파수를 낮추어 전력을 절감한다. 또한, 서버 통합 기법을 사용하여 시스템 부하를 가능한 한 적은 수의 물리적 서버에 집중시키고, 사용률이 낮은 서버는 저전력 모드로 전환하거나 종료하여 전체적인 에너지 소비를 줄인다. 작업의 특성과 데드라인을 고려하여 에너지 소비가 상대적으로 적은 시간대나 지역의 자원에 작업을 할당하는 지리적 스케줄링도 활용된다.

에너지 효율적 스케줄링의 구현은 복잡한 과제를 안고 있다. 에너지 절감과 시스템 성능 저하 사이의 트레이드오프 관계를 정량화하고 관리해야 한다. 또한, 실제 시스템의 에너지 소비를 정확하게 모니터링하고 예측하는 모델이 필요하다. 최근에는 이러한 복잡성을 해결하기 위해 머신러닝과 강화학습 기법을 도입하여 실시간 부하와 자원 상태를 학습하고 최적의 스케줄링 결정을 내리는 연구가 활발히 진행되고 있다.

8.3. 머신러닝 기반 스케줄링

머신러닝 기반 스케줄링은 인공지능 기술, 특히 머신러닝과 강화학습을 활용하여 리소스 스케줄링의 의사결정 과정을 자동화하고 최적화하는 접근법이다. 기존의 규칙 기반이나 휴리스틱 알고리즘이 정적이고 사전 정의된 정책에 의존하는 반면, 이 방법은 시스템의 역사적 데이터와 실시간 상태를 학습하여 동적으로 적응하는 스케줄링 정책을 생성한다. 목표는 처리량, 응답 시간, 자원 활용률 같은 전통적인 성능 지표를 넘어, 예측 불가능한 워크로드 변동과 복잡한 제약 조건 하에서도 더 효율적이고 강건한 자원 관리를 달성하는 것이다.

주요 적용 방식은 크게 예측 모델과 의사결정 모델로 나눌 수 있다. 예측 모델은 작업의 실행 시간, 필요한 자원 양, 도착 패턴 등을 예측하여 스케줄러에 더 정확한 입력 정보를 제공한다. 의사결정 모델, 특히 강화학습은 스케줄러 자체를 에이전트로 모델링한다. 에이전트는 특정 상태(예: 대기 중인 작업 목록, 가용 자원)에서 스케줄링 액션(예: 작업 A를 노드 X에 할당)을 선택하고, 그 결과로 얻는 보상(예: 전체 작업 완료 시간 단축, 자원 유휴 시간 감소)을 통해 정책을 지속적으로 개선한다[6].

이 방식은 특히 클라우드 컴퓨팅 환경과 데이터 파이프라인 오케스트레이션에서 주목받고 있다. 워크로드의 다양성과 변동성이 크며, 부하 균형과 비용 기반 스케줄링을 동시에 고려해야 하는 복잡한 시나리오에서 잠재력을 보인다. 그러나 실제 시스템에 적용하기 위해서는 몇 가지 도전 과제가 존재한다. 학습을 위한 양질의 데이터 수집, 학습 과정 자체의 계산 오버헤드, 탐색과 활용의 균형, 그리고 예측 불가능한 환경에서 학습된 정책의 안정성과 설명 가능성을 보장하는 것이 주요 과제이다.

접근 방식	설명	주요 활용 목적
예측 모델	작업 특성(실행 시간, 자원 사용량)을 예측	스케줄링 알고리즘에 정확한 입력 제공
강화학습	스케줄러가 환경과 상호작용하며 최적 정책 학습	복잡한 목표(비용, 성능, 에너지의 균형) 하의 동적 의사결정
시뮬레이션 기반 학습	실제 시스템 대신 고속 시뮬레이션 환경에서 정책 학습	학습 샘플 수집 비용 및 위험 감소

리소스 스케줄링

정의	제한된 컴퓨팅 자원을 여러 작업이나 프로세스에 효율적으로 할당하고 관리하는 기술
주요 목표	처리량 최대화, 응답 시간 최소화, 자원 활용률 극대화, 공정성 유지
적용 분야	운영체제, 클라우드 컴퓨팅, 데이터센터, 분산 시스템, 빅데이터 처리
스케줄링 단위	CPU, 메모리, 네트워크 대역폭, 저장장치 I/O, GPU
주요 유형	CPU 스케줄링, 메모리 스케줄링, 디스크 스케줄링, 네트워크 스케줄링, 작업 스케줄링
상세 정보
스케줄링 정책	선입선처리(FCFS), 최단작업우선(SJF), 우선순위 스케줄링, 라운드 로빈(RR), 다단계 큐, 다단계 피드백 큐
평가 지표	CPU 이용률, 처리량, 반환 시간, 대기 시간, 응답 시간
클라우드 환경 특성	가상 머신 배치, 탄력적 확장, 서비스 수준 계약(SLA), 다중 테넌시 지원
도전 과제	워크로드 예측, 자원 이질성, 에너지 효율, 데이터 지역성, 동적 환경 대응
관련 기술/도구	Apache Hadoop YARN, Apache Mesos, Kubernetes Scheduler, Borg, Slurm
최적화 기법	부하 분산, 에너지 인지 스케줄링, 비용 기반 스케줄링, 데이터 지역성 최적화
연구 동향	머신러닝 기반 예측 스케줄링, 에지 컴퓨팅 환경 스케줄링, 그린 컴퓨팅을 위한 스케줄링

리소스 스케줄링

정의	제한된 컴퓨팅 자원을 여러 작업이나 프로세스에 효율적으로 할당하고 관리하는 기술
주요 목표	처리량 최대화, 응답 시간 최소화, 자원 활용률 극대화, 공정성 유지
적용 분야	운영체제, 클라우드 컴퓨팅, 데이터센터, 분산 시스템, 빅데이터 처리
스케줄링 단위	CPU, 메모리, 네트워크 대역폭, 저장장치 I/O, GPU
주요 유형	CPU 스케줄링, 메모리 스케줄링, 디스크 스케줄링, 네트워크 스케줄링, 작업 스케줄링
상세 정보
스케줄링 정책	선입선처리(FCFS), 최단작업우선(SJF), 우선순위 스케줄링, 라운드 로빈(RR), 다단계 큐, 다단계 피드백 큐
평가 지표	CPU 이용률, 처리량, 반환 시간, 대기 시간, 응답 시간
클라우드 환경 특성	가상 머신 배치, 탄력적 확장, 서비스 수준 계약(SLA), 다중 테넌시 지원
도전 과제	워크로드 예측, 자원 이질성, 에너지 효율, 데이터 지역성, 동적 환경 대응
관련 기술/도구	Apache Hadoop YARN, Apache Mesos, Kubernetes Scheduler, Borg, Slurm
최적화 기법	부하 분산, 에너지 인지 스케줄링, 비용 기반 스케줄링, 데이터 지역성 최적화
연구 동향	머신러닝 기반 예측 스케줄링, 에지 컴퓨팅 환경 스케줄링, 그린 컴퓨팅을 위한 스케줄링