SPARK (r1)

1. 개요

SPARK는 대규모 데이터 처리를 위한 오픈 소스 분산 컴퓨팅 프레임워크이다. 2009년 UC 버클리의 AMPLab에서 연구 프로젝트로 시작되었으며, 2010년에 오픈 소스로 공개된 후 2014년에 아파치 소프트웨어 재단의 최상위 프로젝트가 되었다. 기존의 맵리듀스 모델의 한계를 극복하고, 인메모리 처리를 통해 데이터 분석 작업의 속도를 획기적으로 향상시키는 것을 주요 목표로 설계되었다.

이 프레임워크의 핵심 철학은 속도, 사용 편의성, 그리고 유연성에 있다. 인메모리 캐싱과 최적화된 질의 실행을 통해 하둡의 맵리듀스보다 최대 100배 빠른 배치 처리 성능을 제공한다고 알려져 있다[1]. 또한 스칼라, 자바, 파이썬, R 등 다양한 프로그래밍 언어를 위한 API를 제공하여 광범위한 사용자 층이 접근할 수 있도록 한다.

SPARK는 단일의 통합 플랫폼으로, 배치 처리, 실시간 스트리밍, 인터랙티브 쿼리, 머신러닝, 그래프 처리 등 다양한 데이터 처리 패러다임을 지원한다. 이는 복잡한 데이터 파이프라인을 여러 시스템(예: 배치용 맵리듀스, 스트림용 스톰)으로 구성해야 했던 기존 방식에 비해 개발 및 유지보수 부담을 크게 줄여준다. 현재 금융, 통신, 전자상거래, 과학 연구 등 방대한 데이터를 분석해야 하는 다양한 산업 분야에서 핵심적인 데이터 처리 인프라로 널리 채택되어 사용되고 있다.

2. 아키텍처와 핵심 구성 요소

SPARK의 아키텍처는 모듈식으로 설계되어 있으며, 모든 기능의 기반이 되는 Spark Core 엔진과 그 위에 구축된 여러 고수준 라이브러리로 구성된다. 이 계층적 구조는 공통의 실행 엔진을 공유하면서도 배치 처리, SQL 쿼리, 스트리밍, 머신러닝 등 다양한 워크로드를 효율적으로 지원한다.

핵심 구성 요소는 다음과 같다.

* Spark Core: 스파크의 기본 실행 엔진으로, 메모리 관리, 작업 스케줄링, 오류 복구, 분산 파일 시스템과의 상호작용과 같은 핵심 기능을 제공한다. 또한 RDD라는 기본 데이터 추상화를 정의하며, 다른 모든 라이브러리는 이 RDD를 기반으로 구축된다.

* Spark SQL: 구조화된 데이터를 처리하기 위한 모듈이다. 사용자는 SQL 구문이나 DataFrame API를 사용하여 데이터를 쿼리할 수 있으며, Hive와의 통합을 지원한다. 내부적으로 카탈리스트 옵티마이저라는 쿼리 최적화 엔진을 사용하여 성능을 극대화한다.

* Spark Streaming: 실시간 스트리밍 데이터를 처리하기 위한 컴포넌트이다. 마이크로 배치 아키텍처를 채택하여 실시간 데이터 스트림을 작은 배치 단위로 나누어 처리하며, 이는 Spark Core 엔진의 고속 배치 처리 능력을 활용한다.

* MLlib: 분산 환경에서 실행 가능한 머신러닝 알고리즘 라이브러리이다. 분류, 회귀, 클러스터링, 협업 필터링 등 다양한 알고리즘을 포함하며, 피처 추출, 변환, 검증을 위한 파이프라인 도구도 제공한다.

* GraphX: 그래프 구조 데이터를 처리하고 병렬 계산을 수행하기 위한 API이다. 정점과 간선으로 구성된 그래프를 표현하고, 페이지랭크나 연결 요소 찾기와 같은 그래프 알고리즘을 실행할 수 있다.

이러한 구성 요소들은 서로 긴밀하게 통합되어 있어 하나의 애플리케이션 내에서 배치, 대화형, 스트리밍 작업을 조합하는 복합 파이프라인을 쉽게 구축할 수 있다. 모든 작업은 동일한 클러스터 관리자 하에서 Spark Core에 의해 조율되며, 데이터는 구성 요소 간에 효율적으로 공유된다.

2.1. Spark Core

Spark Core는 Apache Spark의 기본 실행 엔진이자 모든 다른 라이브러리(Spark SQL, Spark Streaming, MLlib, GraphX)의 기반이 되는 핵심 구성 요소이다. 이는 분산 작업 스케줄링, 메모리 관리, 장애 복구, 그리고 스토리지 시스템과의 상호작용과 같은 가장 기본적인 기능들을 제공한다. 다른 모든 고수준 API들은 결국 이 코어 엔진 위에서 실행된다.

Spark Core의 가장 핵심적인 추상화는 RDD이다. RDD는 변경 불가능한 분산 객체 컬렉션으로, 여러 컴퓨터의 클러스터에 걸쳐 분할되어 저장된다. RDD는 사용자가 명시적으로 지정한 파티션 단위로 데이터를 처리하며, 메모리나 디스크에 지속적으로 저장될 수 있다. 코어 엔진은 RDD의 생성, 변환, 그리고 최종 결과를 계산하는 액션 연산을 조율하는 역할을 담당한다.

이 엔진은 DAG 실행 엔진을 통해 작업을 최적화한다. 사용자가 정의한 RDD 변환 연산들은 하나의 방향성 비순환 그래프로 구성되고, 이 그래프는 스케줄러에 의해 여러 태스크로 분할되어 실행된다. 이 방식은 MapReduce와 같은 기존 모델보다 더 효율적인 실행 계획을 가능하게 하며, 특히 반복적인 알고리즘에서 성능 이점을 제공한다. 또한, 메모리 캐싱을 통해 중간 결과를 메모리에 저장함으로써 동일한 데이터셋에 대한 반복적인 접근 속도를 크게 향상시킨다.

Spark Core는 다양한 클러스터 관리자와 통합되어 실행될 수 있다. 이는 자체적인 스탠드얼론 클러스터 관리자를 포함하며, Apache Hadoop YARN, Apache Mesos, 그리고 Kubernetes와 같은 외부 관리자 위에서도 원활하게 동작한다. 또한, HDFS, Apache Cassandra, Amazon S3와 같은 다양한 데이터 소스로부터 데이터를 읽고 쓸 수 있는 기능을 내장하고 있다.

2.2. Spark SQL

Spark SQL은 Apache Spark의 구성 요소 중 하나로, 구조화된 데이터 처리를 위한 모듈이다. 이 모듈은 사용자가 표준 SQL 쿼리와 DataFrame API를 사용하여 데이터를 쿼리할 수 있게 해준다. Spark SQL의 핵심 목표는 관계형 처리와 함수형 프로그래밍을 통합된 API로 제공하여 다양한 데이터 소스를 효율적으로 처리하는 것이다.

Spark SQL은 Hive와의 호환성을 제공하는 HiveQL을 지원하며, 기존 Hive 메타스토어, 테이블, UDF(사용자 정의 함수)를 그대로 사용할 수 있다. 또한 JSON, Parquet, ORC, JDBC 등 다양한 데이터 소스에 대한 통합 인터페이스를 제공한다. 내부적으로 Catalyst 최적화 엔진을 사용하여 쿼리 실행 계획을 생성하고 최적화하며, Tungsten 프로젝트의 바이트코드 생성 및 오프-힙 메모리 관리 기능을 활용하여 높은 성능을 달성한다.

사용자는 Spark SQL을 통해 두 가지 주요 API를 사용할 수 있다. 첫 번째는 익숙한 SQL 구문을 사용하는 것이고, 두 번째는 DataFrame 및 Dataset API를 사용하는 프로그래밍 방식이다. 두 방식 모두 동일한 실행 엔진을 공유하므로 성능 차이가 발생하지 않는다. Spark SQL은 배치 처리와 Spark Streaming을 통한 스트리밍 처리 모두에서 구조화된 데이터를 처리하는 데 사용될 수 있다.

주요 기능은 다음과 같다.

기능	설명
통합 데이터 액세스	HDFS, Hive, Avro, Parquet, JSON, JDBC 등 다양한 데이터 소스에서 데이터를 읽고 쓸 수 있다.
표준 SQL 지원	ANSI SQL:2003 호환 구문과 HiveQL을 지원한다.
고성능 실행	Catalyst 쿼리 최적화기와 Tungsten 실행 엔진을 통해 최적화된 코드를 생성한다.
DataFrame/Dataset API	Scala, Java, Python, R 언어에서 사용할 수 있는 강력한 도메인 특화 언어(DSL)를 제공한다.
Hive 통합	기존 Hive 데이터 웨어하우스에 대한 완전한 호환성을 제공한다.

2.3. Spark Streaming

Spark Streaming은 Apache Spark의 핵심 구성 요소 중 하나로, 실시간 데이터 스트림을 처리하기 위한 라이브러리이다. 이는 마이크로 배치(micro-batch) 아키텍처를 기반으로 작동하여, 들어오는 실시간 데이터를 짧은 간격(예: 1초, 2초)의 배치로 나누어 처리한다. 이 방식은 Spark Core 엔진의 강력한 배치 처리 능력과 RDD 모델을 그대로 활용할 수 있게 해준다. 결과적으로 개발자는 배치 처리와 동일한 API와 프로그래밍 모델을 사용하여 스트림 처리 애플리케이션을 작성할 수 있다.

주요 추상화 객체는 DStream(Discretized Stream)이다. DStream은 일정 시간 간격으로 생성된 일련의 RDD로 표현되는 연속적인 데이터 스트림이다. 사용자는 마치 정적인 RDD 컬렉션을 다루듯이 map, reduce, join, window 등의 고수준 연산을 DStream에 적용할 수 있다. 내부적으로 Spark Streaming은 이러한 연산들을 각 배치 간격에 해당하는 RDD들에 변환 연산으로 적용하고, Spark Core 엔진을 통해 분산 병렬 실행한다.

이 라이브러리는 다양한 실시간 데이터 소스와 싱크를 지원한다. 주요 입력 소스로는 Kafka, Flume, Kinesis, HDFS, TCP 소켓 등이 있다. 처리된 결과는 다시 Kafka나 Flume 같은 메시지 큐로, 또는 HDFS, 데이터베이스 등 다양한 외부 저장 시스템으로 출력될 수 있다. 또한 상태 유지가 필요한 스트림 처리(예: 사용자 세션별 클릭 수 집계)를 위한 updateStateByKey나 mapWithState와 같은 연산도 제공한다.

Spark Streaming의 마이크로 배치 모델은 엄격한 저지연(1ms 미만)이 요구되는 경우보다는, 초 단위의 지연 시간이 허용되면서도 높은 처리량과 장애 복구 능력이 필요한 사용 사례에 적합하다. 예를 들어, 실시간 대시보드, 이상 감지, 실시간 ETL 파이프라인 등에 널리 사용된다. 이후 Apache Spark는 지연 시간을 더욱 줄인 진정한 의미의 스트리밍 처리 엔진인 Structured Streaming을 도입하였다.

2.4. MLlib (머신러닝 라이브러리)

MLlib는 Apache Spark의 핵심 구성 요소 중 하나로, 대규모 데이터에 대한 머신러닝 작업을 분산 환경에서 효율적으로 수행할 수 있도록 설계된 확장 가능한 라이브러리이다. 이 라이브러리는 RDD와 DataFrame 기반의 API를 제공하며, 분류, 회귀 분석, 클러스터링, 협업 필터링, 차원 축소 등 다양한 머신러닝 알고리즘을 포함하고 있다. MLlib의 주요 목표는 Spark의 인메모리 컴퓨팅 엔진을 활용하여 반복적인 알고리즘 연산 속도를 획기적으로 높이고, 사용자가 손쉽게 엔드투엔드 머신러닝 파이프라인을 구축할 수 있도록 하는 것이다.

MLlib는 크게 두 가지 주요 API를 제공한다. 첫 번째는 원시 데이터를 직접 다루는 'RDD 기반 API'이다. 두 번째는 Spark SQL과 통합되어 구조화된 데이터를 효율적으로 처리하며, 파이프라인 개념을 도입한 'DataFrame 기반 API'이다. DataFrame 기반 API는 피처 추출, 변환, 선택, 머신러닝 모델 추정 등 여러 단계를 하나의 워크플로우로 구성할 수 있는 파이프라인 객체를 중심으로 설계되었다. 이를 통해 데이터 전처리부터 모델 학습, 평가, 튜닝까지의 과정을 체계적으로 관리하고 재현할 수 있다.

MLlib가 제공하는 주요 기능은 다음과 같이 분류할 수 있다.

기능 범주	주요 알고리즘 예시
분류(Classification)	로지스틱 회귀, 의사결정나무, 랜덤 포레스트, 그레이디언트 부스티드 트리, 선형 서포트 벡터 머신, 나이브 베이즈
회귀(Regression)	선형 회귀, 의사결정나무 회귀, 그레이디언트 부스티드 트리 회귀, 서포트 벡터 회귀
클러스터링(Clustering)	K-평균 알고리즘, 가우시안 혼합 모델, LDA (잠재 디리클레 할당)
협업 필터링(Collaborative Filtering)	ALS (교대 최소제곱법)
차원 축소(Dimensionality Reduction)	특이값 분해, 주성분 분석
피처 변환 및 추출(Feature Transformation & Extraction)	토큰화, TF-IDF, 워드2Vec, 표준화, 정규화
유틸리티(Utilities)	모델 평가, 교차 검증, 하이퍼파라미터 튜닝

이 라이브러리의 장점은 Spark의 분산 처리 능력과 통합되어 있어, 디스크 기반의 전통적인 도구들보다 훨씬 빠르게 대용량 데이터에 대한 모델 학습과 예측을 수행할 수 있다는 점이다. 또한, 파이썬, 스칼라, 자바, R 언어를 모두 지원하여 넓은 범위의 사용자 층을 포용한다. 그러나 매우 깊은 신경망을 요구하는 딥러닝 작업에는 특화되지 않았으며, 이러한 영역은 TensorFlow나 PyTorch와 같은 별도의 프레임워크와의 연동을 통해 보완되는 경우가 많다[2].

2.5. GraphX (그래프 처리 라이브러리)

GraphX는 Apache Spark의 구성 요소 중 하나로, 대규모 그래프 데이터를 처리하고 분석하기 위한 분산 그래프 처리 라이브러리입니다. 이 라이브러리는 Spark Core의 RDD 추상화를 기반으로 구축되어, Pregel과 같은 그래프 처리 모델과 MapReduce 스타일의 데이터 병렬 처리를 통합합니다. GraphX는 정점과 간선으로 구성된 그래프 데이터 구조를 효율적으로 표현하고, 이를 활용한 다양한 그래프 알고리즘을 실행할 수 있는 API를 제공합니다.

GraphX의 핵심 데이터 구조는 속성 그래프입니다. 속성 그래프는 각 정점과 간선에 사용자 정의 속성을 첨부할 수 있는 방향성 다중 그래프입니다. 이는 정점과 간선에 추가 데이터(예: 사용자 프로필, 관계 가중치)를 저장할 수 있어 실세계 데이터 모델링에 유용합니다. GraphX는 이러한 그래프를 분산 환경에서 효율적으로 저장하고 조작하기 위해 정점과 간선을 파티션으로 나누어 관리합니다.

주요 기능으로는 그래프 생성, 변환, 조인 연산과 같은 기본적인 그래프 연산과 함께, 널리 알려진 그래프 알고리즘들의 최적화된 구현체를 포함합니다. 제공되는 알고리즘에는 다음과 같은 것들이 있습니다.

알고리즘 카테고리	예시
페이지랭크 알고리즘	PageRank, Connected Components
군집 분석	Triangle Counting, Strongly Connected Components
최단 경로 탐색	Shortest Paths
협업 필터링	SVDPlusPlus

GraphX는 그래프를 위한 전용 API와 함께, 그래프를 RDD나 DataFrame으로 변환하여 Spark SQL이나 MLlib과 같은 다른 Spark 구성 요소와 연동하는 기능도 지원합니다. 이를 통해 사용자는 그래프 분석 결과를 다시 테이블 형태로 변환하여 SQL 쿼리를 수행하거나, 머신러닝 모델의 입력 데이터로 활용하는 복합적인 데이터 파이프라인을 구성할 수 있습니다. 이는 단일 처리 엔진 내에서 그래프 처리와 일반 데이터 처리 작업을 통합한다는 Spark의 철학을 잘 반영합니다.

3. RDD (Resilient Distributed Dataset)

RDD는 분산 시스템에서 장애 허용을 보장하는 불변의 데이터 집합을 나타내는 기본 추상화 단위이다. RDD는 클러스터의 여러 노드에 분산되어 저장되며, 파티션 단위로 나뉘어 처리된다. 이는 맵리듀스의 한계를 극복하고, 반복 알고리즘과 인터랙티브 쿼리에 효율적인 인메모리 컴퓨팅을 가능하게 하는 핵심 개념이다.

RDD는 라인지 정보를 통해 높은 내고장성을 제공한다. RDD는 생성된 이후 변환 연산을 통해 새로운 RDD를 만들어내지만, 실제 데이터 변환은 지연 실행된다. 모든 변환 내역은 라인지라는 그래프 구조로 기록되며, 데이터 일부가 유실되면 이 정보를 바탕으로 필요한 부분만 재계산하여 복구한다. 이 방식은 데이터 복제에 의한 저장 오버헤드를 크게 줄인다.

RDD의 연산은 크게 변환 연산과 액션 연산으로 구분된다. 주요 변환 연산은 다음과 같다.

연산	설명	예시
`map`	각 요소에 함수를 적용하여 새로운 RDD 생성	`rdd.map(x => x*2)`
`filter`	조건을 만족하는 요소만 걸러냄	`rdd.filter(x => x>10)`
`reduceByKey`	키별로 값을 집계함	`pairRdd.reduceByKey(_+_)`
`join`	두 개의 키-값 RDD를 키 기준으로 결합	`rdd1.join(rdd2)`

액션 연산은 RDD에 저장된 데이터를 실제로 계산하여 결과를 드라이버 프로그램에 반환하거나 외부 저장소에 쓰는 작업이다. count(), collect(), saveAsTextFile(), reduce() 등이 대표적이다. 액션 연산이 호출되어야 비로소 기록된 모든 변환 연산의 실행 계획이 DAG 스케줄러에 의해 단계로 나뉘고, 태스크로 변환되어 클러스터에서 실행된다.

3.1. 특성과 장점

RDD는 분산 컴퓨팅 환경에서 데이터를 표현하는 기본 추상화 단위이다. RDD는 불변성을 가지는 읽기 전용 데이터 집합으로, 여러 노드에 걸쳐 분할되어 저장된다. 이 분산된 데이터 조각을 파티션이라고 부른다.

RDD의 핵심 특성은 회복 탄력성이다. RDD는 데이터 자체를 저장하지 않고, 데이터를 생성하기 위한 일련의 변환 연산 기록을 저장한다. 이 기록을 Lineage라고 한다. 클러스터의 특정 노드에 장애가 발생하여 데이터 파티션을 잃어버리더라도, Lineage 정보를 바탕으로 해당 파티션만 다시 계산하여 복구할 수 있다. 이는 데이터의 복제본을 지속적으로 유지하는 방식보다 훨씬 효율적이다.

RDD의 주요 장점은 다음과 같다.

장점	설명
회복 탄력성	Lineage를 통한 효율적인 장애 복구가 가능하다.
분산 처리	데이터가 자동으로 파티셔닝되어 여러 노드에서 병렬 처리된다.
지연 실행	액션 연산이 호출되기 전까지는 실제 계산이 수행되지 않아 불필요한 연산을 줄인다.
메모리 내 처리	중간 결과를 디스크가 아닌 메모리에 유지하여 반복적인 알고리즘의 처리 속도를 극적으로 향상시킨다.
유연성	다양한 데이터 소스를 지원하며, 사용자가 저수준의 제어를 할 수 있다.

이러한 특성 덕분에 RDD는 반복 알고리즘과 대화형 데이터 분석 작업에 특히 적합하다. 예를 들어, 머신러닝 알고리즘은 동일한 데이터셋에 대해 반복적인 계산을 수행하는데, RDD의 메모리 캐싱 기능은 이러한 작업의 성능을 크게 개선시켰다.

3.2. 생성 및 변환 연산

RDD는 크게 두 가지 방식으로 생성됩니다. 첫째, 외부 데이터 소스(예: HDFS, 로컬 파일 시스템, Cassandra, HBase)에서 데이터를 읽어 생성하는 방법입니다. SparkContext의 textFile(), wholeTextFiles(), sequenceFile() 등의 메서드를 사용합니다. 둘째, 드라이버 프로그램에서 이미 존재하는 스칼라, 파이썬 또는 자바 컬렉션(예: 리스트, 세트)을 parallelize() 또는 makeRDD() 메서드로 변환하여 생성하는 방법입니다.

변환 연산은 기존 RDD로부터 새로운 RDD를 생성하는 지연 실행(lazy) 연산입니다. 주요 변환 연산은 다음과 같습니다.

연산	설명	예시
`map(func)`	RDD의 각 요소에 함수 `func`를 적용하여 새로운 RDD를 반환합니다.	`rdd.map(x => x * 2)`
`filter(func)`	함수 `func`의 조건을 만족하는 요소만으로 구성된 새로운 RDD를 반환합니다.	`rdd.filter(x => x > 10)`
`flatMap(func)`	각 입력 요소를 0개 이상의 출력 요소로 매핑한 후, 결과를 평탄화하여 단일 RDD로 반환합니다.	`rdd.flatMap(line => line.split(" "))`
`union(otherRDD)`	현재 RDD와 다른 RDD의 데이터를 합친 새로운 RDD를 반환합니다(중복 허용).	`rdd1.union(rdd2)`
`distinct([numPartitions])`	RDD 내 중복된 요소를 제거한 새로운 RDD를 반환합니다.	`rdd.distinct()`
`groupByKey([numPartitions])`	키-값 쌍 RDD에서 동일한 키를 가진 모든 값을 그룹화합니다.	`pairRdd.groupByKey()`
`reduceByKey(func, [numPartitions])`	동일한 키를 가진 값들에 대해 함수 `func`를 사용하여 병합합니다.	`pairRdd.reduceByKey(_ + _)`
`sortByKey([ascending], [numPartitions])`	키-값 쌍 RDD를 키 기준으로 정렬합니다.	`pairRdd.sortByKey()`
`join(otherRDD, [numPartitions])`	두 개의 키-값 쌍 RDD를 키를 기준으로 내부 조인합니다.	`rdd1.join(rdd2)`
`repartition(numPartitions)`	RDD의 파티션 수를 명시적으로 조정하여 데이터를 균등하게 재분배합니다.	`rdd.repartition(10)`

이러한 변환 연산은 비순환 방향 그래프 형태의 실행 계획을 구성하기만 하고, 실제 계산은 액션 연산이 호출될 때까지 시작되지 않습니다. 이 지연 실행 모델은 불필요한 중간 결과물 저장을 피하고, 전체 작업 흐름을 최적화할 수 있는 기회를 제공합니다[3].

3.3. 액션 연산

액션 연산은 RDD나 DataFrame 등의 데이터셋에 대해 실제 계산을 수행하고 결과를 드라이버 프로그램으로 반환하거나 외부 저장소에 저장하는 작업을 의미한다. 변환 연산이 지연 실행되는 반면, 액션 연산은 호출되는 즉시 연산 그래프를 실행시키는 트리거 역할을 한다.

주요 액션 연산으로는 데이터 수집, 집계, 저장 등이 있다. 대표적인 예는 다음과 같다.

연산	설명
`collect()`	RDD의 모든 요소를 배열 형태로 드라이버에 반환한다. 결과 데이터가 작을 때만 사용해야 한다.
`count()`	데이터셋에 있는 요소의 총 개수를 반환한다.
`first()`	데이터셋의 첫 번째 요소를 반환한다.
`take(n)`	데이터셋에서 처음 n개의 요소를 배열로 반환한다.
`reduce(func)`	주어진 함수(func)를 사용하여 데이터셋의 요소들을 병합하여 최종 결과를 반환한다.
`foreach(func)`	데이터셋의 각 요소에 대해 함수(func)를 적용한다. 이는 부수 효과를 위해 사용된다.
`saveAsTextFile(path)`	데이터셋의 요소를 텍스트 파일로 지정된 경로에 저장한다.

액션 연산이 호출되면 Spark는 지연 실행되었던 모든 변환 연산들의 계보를 확인하고, 최적화된 실행 계획을 수립한 후 클러스터에서 작업을 분산 실행한다. 결과는 단일 값, 배열, 혹은 외부 저장 시스템에 쓰여진 파일 형태로 나타난다. reduce나 aggregate 같은 액션은 셔플 과정을 유발할 수 있으며, 이는 성능에 중요한 영향을 미친다. 따라서 액션 연산의 사용은 필요한 최종 결과를 얻는 데 꼭 필요한 시점에 신중하게 이루어져야 한다.

4. 데이터프레임과 Dataset API

데이터프레임은 RDD 위에 구축된 분산 데이터 컬렉션으로, 명명된 열을 가진 테이블 형태의 구조를 가집니다. 스키마를 통해 각 열의 데이터 타입을 정의하며, SQL 쿼리와 유사한 연산을 수행할 수 있습니다. 이 구조적 API의 등장 배경은 개발자들이 익숙한 관계형 데이터 처리 방식과 선언형 프로그래밍 패러다임을 활용하여 더 효율적이고 직관적인 데이터 처리를 가능하게 하기 위함이었습니다. 또한, 카탈리스트 옵티마이저와 같은 고급 쿼리 최적화 엔진이 내장되어 있어, 사용자가 작성한 코드를 최적화된 실행 계획으로 변환해 성능을 극대화합니다.

RDD와 데이터프레임의 주요 차이점은 최적화 수준과 프로그래밍 인터페이스에 있습니다. RDD는 저수준의 함수형 프로그래밍 API를 제공하며, 자바 가상 머신 객체로 데이터를 다루기 때문에 가비지 컬렉션과 직렬화 비용이 높을 수 있습니다. 반면 데이터프레임은 구조적 정보를 활용한 최적화가 가능하며, 데이터를 내부적인 이진 형식으로 저장하여 메모리 사용 효율과 처리 속도를 개선합니다. 다음 표는 주요 차이점을 보여줍니다.

특성	RDD	DataFrame
데이터 표현	JVM 객체	컬럼 기반 이진 형식 (Tungsten)
최적화	수동 최적화 필요	카탈리스트 옵티마이저에 의한 자동 최적화
API 수준	저수준 함수형 API	고수준 선언형 API (SQL 스타일)
언어 지원	Scala, Java, Python, R	Scala, Java, Python, R

Dataset API는 스칼라와 자바에서 사용 가능하며, 데이터프레임의 장점과 RDD의 타입 안정성을 결합한 강력한 인터페이스를 제공합니다. Dataset은 정적 타입과 런타임 타입 안전성을 모두 보장하는 타입 안정성을 특징으로 합니다. 이는 컴파일 시점에 데이터 타입 오류를 검출할 수 있어 대규모 애플리케이션 개발의 신뢰성을 높입니다. Dataset은 인코더를 사용하여 도메인 특화 언어 객체와 스파크 SQL의 내부 이진 형식 간의 효율적인 변환을 수행합니다.

4.1. 구조적 API의 등장 배경

초기 RDD API는 유연성을 제공했지만, 개발자가 데이터의 구조를 명시적으로 정의하고 최적화를 수동으로 수행해야 하는 부담이 컸다. 특히 SQL과 같은 선언형 언어에 익숙한 데이터 분석가나 엔지니어에게는 함수형 프로그래밍 스타일의 RDD API가 진입 장벽으로 작용했다.

이러한 배경에서 2013년에 도입된 Spark SQL과 DataFrame API는 RDD 위에 구조화된 데이터 추상화 계층을 제공했다. 이는 RDD의 장점인 분산 처리와 내결함성을 유지하면서, 데이터 스키마를 명시적으로 정의함으로써 카탈리스트 옵티마이저와 같은 고급 쿼리 최적화 엔진의 적용을 가능하게 했다. 사용자는 컬럼 이름과 데이터 타입을 가진 테이블 형태로 데이터를 다룰 수 있게 되었다.

구조적 API의 등장은 스파크의 사용성을 크게 확장시켰다. 사용자는 더 이상 저수준의 RDD 변환 연산을 작성할 필요 없이, 친숙한 SQL 구문이나 도메인 특화 언어(DSL)를 사용하여 복잡한 데이터 처리 작업을 표현할 수 있게 되었다. 또한, 최적화 엔진이 자동으로 필터 푸시다운, 조인 재정렬, 불필요한 계산 생략 등의 최적화를 수행하여 성능을 크게 향상시켰다.

결과적으로, 구조적 API는 스파크를 단순한 분산 처리 엔진에서 대규모 구조화 데이터를 위한 통합 분석 플랫폼으로 진화시키는 핵심 계기가 되었다. 이는 이후 Dataset API의 등장으로 이어져 정적 타입 안정성과 RDD의 함수형 API 장점을 결합하는 토대를 마련했다.

4.2. DataFrame vs RDD

RDD는 스파크의 기본적인 분산 데이터 추상화로, 개발자가 저수준의 변환과 액션을 직접 제어할 수 있는 유연성을 제공한다. 그러나 RDD는 스키마 정보가 없어 구조적 API의 최적화 기회를 활용하지 못하며, 직렬화와 역직렬화 과정에서 성능 오버헤드가 발생할 수 있다. 특히 자바 가상 머신 기반의 객체로 처리되기 때문에 가비지 컬렉션의 부담이 크고, 메모리 사용 효율이 낮은 편이다.

반면 데이터프레임은 명명된 열을 가진 테이블 형태의 구조적 데이터 추상화다. 각 열의 데이터 타입과 전체 스키마를 명시적으로 정의함으로써 스파크 SQL의 카탈리스트 옵티마이저가 효율적인 실행 계획을 수립할 수 있게 한다. 이 최적화 과정에는 조건절 푸시다운, 필터링, 공통 표현식 제거 등이 포함되어, 개발자가 작성한 코드와 실제 실행 계획 사이에 큰 차이가 발생할 수 있다.

다음 표는 두 데이터 추상화의 주요 차이점을 요약한다.

특성	RDD	DataFrame
데이터 추상화	저수준, 객체 기반	고수준, 테이블 기반 (스키마 있음)
최적화	수동 최적화 필요	카탈리스트 옵티마이저에 의한 자동 최적화
실행 계획	개발자 코드 그대로 실행	논리적/물리적 계획 단계를 거친 최적화된 실행
성능	일반적으로 느림 (JVM 객체 오버헤드)	일반적으로 빠름 (컬럼 기반 포맷, 코드 생성)
언어 지원	Scala, Java, Python, R	Scala, Java, Python, R (동일한 최적화 적용)
에러 감지	런타임 에러 가능성 높음	컴파일 타임에 많은 에러 감지 가능

결과적으로, 대부분의 데이터 처리 작업에서는 데이터프레임 API를 사용하는 것이 성능과 사용 편의성 측면에서 유리하다. RDD는 여전히 사용자 정의 파티셔닝이나 매우 특수한 저수준 제어가 필요한 경우에 한해 활용된다. 스파크의 발전 방향은 구조적 API를 중심으로 이루어지고 있으며, 데이터세트 API는 데이터프레임의 성능과 RDD의 타입 안정성을 결합한 진화된 형태로 제공된다.

4.3. Dataset의 타입 안정성

Dataset API는 DataFrame의 구조적 최적화 이점과 RDD의 타입 안정성 및 객체 지향 프로그래밍 스타일을 결합한 강력한 인터페이스를 제공한다. Dataset은 정적 타입 언어인 Scala와 Java에서 사용 가능하며, 동적 타입 언어인 Python과 R에서는 완전한 타입 안정성을 지원하지 않는다[4].

Dataset의 핵심 장점은 컴파일 타임에 스키마와 데이터 타입 오류를 검출할 수 있다는 점이다. DataFrame은 Row 객체로 표현되는 비정형 데이터를 다루지만, Dataset은 사용자가 정의한 도메인 특화 객체(Domain-specific Object)로 작업한다. 예를 들어, Dataset<Person>을 정의하면 각 레코드는 Person 클래스의 인스턴스가 되며, name이나 age 같은 필드에 접근할 때 컴파일러가 타입을 검증한다. 이는 잘못된 필드명 사용이나 타입 불일치로 인한 런타임 오류를 사전에 방지하여 애플리케이션의 안정성을 크게 높인다.

내부적으로 Dataset은 인코더(Encoder)라는 구성 요소를 사용하여 JVM 객체와 Spark SQL의 내부 바이너리 형식 간의 효율적인 변환을 수행한다. 인코더는 직렬화/역직렬화를 처리하며, Java 직렬화나 Kryo보다 훨씬 빠르고 메모리 효율적이다. 이는 타입 안정성을 유지하면서도 DataFrame과 동등한 수준의 성능 최적화를 가능하게 하는 기반 기술이다.

특성	DataFrame (Dataset[Row])	Typed Dataset (예: Dataset[Person])
타입 검사 시점	런타임	컴파일 타임
표현 객체	제네릭 Row 객체	사용자 정의 클래스 객체 (예: Person)
오류 발견 용이성	쿼리 실행 중	코드 컴파일 중
프로그래밍 스타일	관계형(주로 SQL/DSL)	객체 지향적 + 관계형
언어 지원	Scala, Java, Python, R	Scala, Java

따라서 복잡한 비즈니스 로직이나 타입에 민감한 데이터 처리 파이프라인을 구축할 때 Dataset API는 개발 생산성과 런타임 안정성 측면에서 유리하다.

5. 실행 모델과 클러스터 관리자

SPARK는 다양한 클러스터 환경에서 실행될 수 있도록 설계되었다. 이를 위해 클러스터 관리자와 상호작용하는 유연한 실행 모델을 채택하고 있다. SPARK 애플리케이션은 드라이버 프로그램과 익스큐터라는 두 가지 주요 구성 요소로 실행된다. 드라이버 프로그램은 사용자의 main 함수를 실행하고 고수준 변환 및 액션 작업을 조정하는 역할을 한다. 익스큐터는 클러스터의 작업자 노드에서 할당된 태스크를 실행하고 데이터를 메모리에 저장하는 책임을 진다.

SPARK는 다음과 같은 주요 클러스터 관리자를 지원한다.

클러스터 관리자	주요 특징
스탠드얼론 모드	SPARK에 내장된 간단한 클러스터 관리자로, 별도의 시스템 설치 없이 빠르게 클러스터를 구성할 수 있다.
Apache Mesos	데이터센터 전체의 자원을 효율적으로 공유할 수 있는 범용 클러스터 관리자이다. 세분화된 공유 모드를 지원한다.
Hadoop YARN	Hadoop 에코시스템의 표준 자원 관리자로, HDFS와의 긴밀한 통합이 필요한 환경에서 널리 사용된다.
Kubernetes	컨테이너 오케스트레이션 플랫폼으로, SPARK 애플리케이션을 컨테이너화하여 실행할 수 있어 현대적인 클라우드 네이티브 배포에 적합하다.

각 클러스터 관리자는 자원 할당, 스케줄링, 장애 복구 등의 기능을 제공하며, SPARK는 이들 위에서 동일한 실행 모델을 유지한다. 사용자는 애플리케이션 코드를 변경하지 않고도 --master 옵션을 통해 실행 대상을 쉽게 전환할 수 있다. 예를 들어, 로컬 테스트는 local[*] 모드로, YARN 클러스터에서는 yarn 모드로 제출한다.

클러스터 관리자의 선택은 인프라 환경, 기존 시스템과의 통합성, 운영 복잡도, 확장성 요구사항에 따라 결정된다. 스탠드얼론은 시작하기 쉽고, YARN은 Hadoop 생태계와의 통합이 강점이며, Kubernetes는 컨테이너 기반의 유연한 자원 관리와 확장성을 제공한다. SPARK의 이러한 유연한 아키텍처는 다양한 운영 환경에 적용될 수 있는 핵심 요인 중 하나이다.

5.1. 스탠드얼론 모드

스탠드얼론 모드는 Apache Spark를 실행하기 위한 가장 기본적인 클러스터 관리 모드이다. 이 모드에서는 Spark 자체에 내장된 독립적인 클러스터 관리자가 자원 할당과 작업 스케줄링을 담당한다. 사용자는 별도의 클러스터 관리자(Apache Mesos나 Hadoop YARN 등)를 설치하거나 설정할 필요 없이, Spark 패키지만으로도 마스터 노드와 워커 노드를 구성하여 클러스터를 구동할 수 있다.

이 모드의 구성은 간단하다. 하나의 머신을 마스터 노드로 지정하고, 다른 머신들을 워커 노드로 등록하면 된다. 마스터 노드는 start-master.sh 스크립트로, 워커 노드는 start-worker.sh 스크립트를 사용하여 시작한다. 워커 노드는 마스터 노드의 URL을 인자로 받아 연결을 설정한다. 클러스터의 상태는 마스터 노드의 웹 UI(기본 포트 8080)를 통해 모니터링할 수 있다.

스탠드얼론 모드는 학습, 테스트, 또는 소규모 프로덕션 환경에 적합하다. 외부 의존성이 적어 초기 설정이 쉽고, Spark의 모든 기능을 빠르게 시험해 볼 수 있다는 장점이 있다. 그러나 고가용성(HA)을 위한 추가 설정이 필요하며, Hadoop YARN이나 Kubernetes와 같은 전문 클러스터 관리자에 비해 다중 테넌시 지원이나 다른 프레임워크와의 자원 공유 측면에서 기능이 제한적이다.

5.2. Apache Mesos

Apache Mesos는 클러스터 자원을 추상화하고 효율적으로 관리하는 오픈 소스 클러스터 관리자이다. Apache Spark는 Mesos를 클러스터 관리자로 사용하여 CPU, 메모리, 기타 자원을 동적으로 할당받고 실행할 수 있다. 이 방식은 스탠드얼론 모드보다 더 유연한 자원 공유가 가능하며, Hadoop YARN과 유사한 중앙 집중식 관리의 이점을 제공한다.

Spark 애플리케이션을 Mesos에서 실행할 때는 두 가지 모드[5]를 선택할 수 있다. 세분화 모드(fine-grained)에서는 각 Spark 작업이 개별 Mesos 작업으로 실행되어 매우 세밀한 자원 공유가 가능하지만, 스케줄링 오버헤드가 증가할 수 있다. 반면, 거친 모드(coarse-grained)에서는 전체 Spark 실행기가 하나의 Mesos 작업으로 장기 실행되어 시작 지연 시간을 줄이고 처리량을 높인다.

모드	설명	장점	단점
Fine-grained	각 Spark 작업이 개별 Mesos 작업으로 실행됨	매우 세밀한 자원 공유, 높은 클러스터 활용도	작업 시작 오버헤드가 큼
Coarse-grained	Spark 실행기가 하나의 Mesos 작업으로 장기 실행됨	시작 지연 시간 단축, 높은 처리량	실행 중 자원 조정이 덜 유연함

Mesos는 마스터-에이전트 아키텍처를 기반으로 한다. Spark는 Mesos 마스터에 연결하여 자원 제안을 받고, 해당 자원을 사용하여 드라이버와 실행기 프로세스를 시작한다. 이를 통해 Mesos 클러스터에서 실행 중인 다른 프레임워크(예: Apache Marathon, Chronos)와 자원을 효율적으로 공유하며 동작할 수 있다. 그러나 이후 Kubernetes의 부상과 함께 Mesos의 인기는 상대적으로 감소하는 추세를 보인다.

5.3. Hadoop YARN

Apache Hadoop YARN은 Hadoop 2.0부터 도입된 클러스터 자원 관리 및 작업 스케줄링 프레임워크이다. Apache Spark는 YARN을 클러스터 관리자로 사용하여 Hadoop 클러스터 상에서 실행될 수 있다. 이 모드에서는 YARN이 클러스터의 CPU, 메모리 등 자원을 중앙에서 관리하고, Spark 애플리케이션은 YARN에게 자원을 요청하여 실행한다. 이를 통해 기존 HDFS와 YARN 인프라를 그대로 활용하면서 Spark의 고성능 처리 엔진을 도입할 수 있다.

YARN 상에서 Spark 애플리케이션은 두 가지 모드로 실행된다. 클라이언트 모드에서는 Spark 드라이버가 클라이언트 머신(예: 사용자의 로컬 컴퓨터)에서 실행된다. 클러스터 모드에서는 드라이버가 YARN ApplicationMaster 내부에서 실행되어, 클러스터 노드 중 하나에서 작동한다. 클러스터 모드는 장시간 실행되는 작업이나 사용자 클라이언트의 연결이 끊겨도 지속되어야 하는 작업에 더 적합하다.

YARN을 사용할 때의 주요 장점은 다음과 같다.

장점	설명
자원 공유	동일한 클러스터에서 MapReduce, Apache Hive, Apache HBase 등 다른 YARN 애플리케이션과 자원을 효율적으로 공유할 수 있다.
보안 통합	Kerberos 인증, HDFS 권한 등 기존 Hadoop 보안 체계를 그대로 활용할 수 있다.
운영 효율성	별도의 Spark 전용 클러스터를 구축하지 않고 기존 Hadoop 인프라를 최대한 활용할 수 있어 운영 부담이 줄어든다.

반면, YARN은 Apache Mesos나 Kubernetes에 비해 동적 자원 할당 기능이 제한적일 수 있으며, 주로 Hadoop 에코시스템에 최적화되어 있다는 특징이 있다. 따라서 이미 안정적인 Hadoop 클러스터를 보유하고 있는 조직에서는 YARN이 Spark 실행을 위한 실용적이고 강력한 선택지가 된다.

5.4. Kubernetes

Apache Spark는 Kubernetes를 공식 지원하는 클러스터 관리자 중 하나로 활용할 수 있다. 이 모드에서는 Spark 애플리케이션의 드라이버와 익스큐터가 Kubernetes 파드(Pod)로 실행된다. 사용자는 spark-submit 명령을 통해 애플리케이션을 직접 Kubernetes 클러스터에 제출할 수 있으며, Spark는 내부적으로 Kubernetes API와 상호작용하여 필요한 파드들을 생성하고 관리한다.

이 실행 모드의 주요 장점은 통합된 컨테이너 오케스트레이션 환경을 활용할 수 있다는 점이다. 기존 Hadoop YARN이나 Apache Mesos에 비해 Docker 컨테이너 기반의 배포와 관리를 표준화할 수 있으며, 특히 클라우드 네이티브 환경에서 다른 마이크로서비스와 동일한 플랫폼 상에서 Spark 작업을 운영할 수 있어 관리 효율성이 높다. 또한, Kubernetes의 자동 스케일링 기능을 활용하여 리소스를 탄력적으로 조절할 수 있다.

특징	설명
실행 방식	드라이버와 익스큐터가 각각 독립적인 Kubernetes 파드로 실행됨
리소스 관리	Kubernetes의 네임스페이스, 리소스 쿼터, 요청/제한(Requests/Limits)을 통해 리소스 격리 및 관리
이미지 빌드	사용자 정의 Docker 이미지를 생성하여 애플리케이션 종속성을 패키징해야 함
클러스터 접근	`kubectl` 또는 Kubernetes 대시보드를 통해 Spark 파드의 상태를 모니터링할 수 있음

초기 버전에서는 몇 가지 제약 사항이 있었으나, 지속적인 개발을 통해 안정성과 기능이 개선되고 있다. Kubernetes 모드는 Spark 애플리케이션을 컨테이너화된 워크로드로 통합하려는 현대적인 데이터 처리 아키텍처에서 점차 중요한 옵션이 되고 있다.

6. 성능 최적화 기법

성능 최적화는 SPARK 애플리케이션의 처리 속도를 향상시키고 리소스 사용 효율을 높이는 핵심 과정이다. 주요 기법은 메모리 관리, 데이터 분산 전략, 실행 계획 튜닝에 집중된다.

메모리 관리와 캐싱은 가장 기본적이면서 효과적인 최적화 수단이다. Spark는 RDD나 DataFrame을 메모리에 지속적으로 저장하는 persist() 또는 cache() 메서드를 제공한다. 이때 저장 수준(Storage Level)을 지정하여 메모리와 디스크 사용 비율, 직렬화 방식을 제어할 수 있다. 예를 들어, MEMORY_ONLY는 성능이 가장 빠르지만 메모리 부족 시 오류를 발생시킬 수 있으며, MEMORY_AND_DISK는 메모리가 가득 차면 일부 데이터를 디스크에 저장하여 안정성을 높인다. 적절한 캐싱은 반복적으로 사용되는 중간 데이터를 디스립 I/O 없이 재사용하게 함으로써 처리 시간을 획기적으로 단축시킨다.

파티셔닝과 셔플 최적화는 데이터 분산 처리 효율을 결정한다. 파티션 수가 너무 적으면 병렬성 부족으로 성능이 저하되고, 너무 많으면 태스크 오버헤드가 커진다. repartition()이나 coalesce()를 사용하여 파티션 수를 조정하거나, 자주 조인(join)이나 집계(aggregation)에 사용되는 키를 기준으로 partitionBy()를 미리 적용할 수 있다. 이는 이후 발생하는 셔플(Shuffle) 과정에서 네트워크를 통한 데이터 이동량을 줄여준다. 또한 broadcast()를 사용하여 작은 데이터셋을 모든 워커 노드에 복사하는 브로드캐스트 조인은 대규모 셔플을 방지하는 데 효과적이다.

실행 계획 분석은 최적화의 근거를 제공한다. DataFrame이나 Dataset 연산에서 explain() 메서드를 실행하면 Spark Catalyst 최적화 엔진이 생성한 논리적 및 물리적 실행 계획을 확인할 수 있다. 이를 통해 불필요한 단계, 비효율적인 조인 방식, 파티션 수 등을 파악하고 코드를 수정하거나 힌트를 추가할 수 있다. 주요 최적화 규칙에는 조건자 밀어내기(Predicate Pushdown), 컬럼 프루닝(Column Pruning), 공통 하위 표현식 제거 등이 포함된다.

6.1. 메모리 관리와 캐싱

SPARK는 인메모리 컴퓨팅을 핵심으로 하여 Hadoop MapReduce에 비해 월등한 성능을 제공한다. 이 성능 향상의 근간에는 효율적인 메모리 관리와 데이터 캐싱 전략이 자리 잡고 있다. SPARK는 실행 중인 애플리케이션(Spark 애플리케이션)에게 할당된 JVM 힙 메모리를 여러 목적을 위해 논리적으로 구분하여 관리한다.

메모리는 크게 저장(Storage) 영역과 실행(Execution) 영역으로 나뉜다. 저장 영역은 주로 RDD의 캐시된 파티션을 저장하는 데 사용되며, 실행 영역은 셔플, 조인, 정렬 등의 연산을 수행할 때 발생하는 중간 데이터를 위한 공간이다. 두 영역 사이의 경계는 고정되지 않고 애플리케이션의 필요에 따라 동적으로 변경된다. 한 영역의 메모리가 부족하면 다른 영역의 여유 공간을 사용할 수 있으며, 두 영역 모두 가득 차면 디스크로 데이터를 내보내(스풀링) 작업을 계속한다. 이 유연한 메모리 관리 모델은 Unified Memory Manager에 의해 구현된다.

데이터 캐싱은 SPARK의 가장 강력한 기능 중 하나이다. 사용자는 자주 재사용되는 RDD, DataFrame, 또는 Dataset에 persist() 또는 cache() 메서드를 호출하여 메모리나 디스크에 지속시킬 수 있다. 캐싱 수준(Storage Level)을 지정함으로써 성능과 안정성, 메모리 사용량 사이의 트레이드오프를 제어할 수 있다. 주요 저장 수준은 다음과 같다.

저장 수준	설명
`MEMORY_ONLY`	RDD를 직렬화 없이 JVM 객체 형태로 메모리에만 저장한다. 가장 빠르지만 메모리 공간을 많이 차지한다.
`MEMORY_AND_DISK`	메모리에 저장하되, 메모리가 부족한 파티션은 디스크에 저장한다.
`MEMORY_ONLY_SER`	RDD를 직렬화된 바이트 배열 형태로 메모리에 저장한다. 객체 형태보다 공간 효율이 높지만, 사용 시 역직렬화 비용이 발생한다.
`MEMORY_AND_DISK_SER`	직렬화된 형태로 메모리에 저장하고, 필요 시 디스크에도 저장한다.
`DISK_ONLY`	데이터를 디스크에만 저장한다.

적절한 캐싱 전략은 작업의 반복성과 데이터 크기, 클러스터 자원에 따라 결정된다. 예를 들어, 작은 데이터셋을 여러 번 재사용한다면 MEMORY_ONLY가 이상적이지만, 메모리보다 큰 데이터셋을 다룰 때는 MEMORY_AND_DISK_SER가 더 실용적인 선택이 될 수 있다. SPARK는 LRU 알고리즘을 기반으로 캐시된 데이터를 관리하여 메모리 공간이 부족할 때 가장 오래전에 사용된 파티션을 제거한다.

6.2. 파티셔닝과 셔플 최적화

파티셔닝은 RDD나 DataFrame의 데이터를 클러스터 내 여러 노드에 분산시키는 논리적 단위를 정의하는 작업이다. 적절한 파티셔닝은 데이터의 지역성을 높이고 불필요한 네트워크 통신을 줄여 성능을 크게 향상시킨다. Spark는 기본적으로 해시 파티셔닝과 범위 파티셔닝을 제공하며, 사용자는 repartition()이나 coalesce() 변환 연산을 통해 파티션 수를 조정하거나, partitionBy()를 사용해 사용자 정의 파티셔너를 적용할 수 있다. 특히 조인이나 그룹화 연산 전에 자주 사용되는 키로 데이터를 미리 파티셔닝해 두면 셔플 비용을 줄일 수 있다.

셔플은 파티션 간 데이터 재분배가 필요한 연산(예: join, groupByKey, reduceByKey)에서 발생하는 과정이다. 이 과정은 네트워크를 통해 대량의 데이터를 이동시켜야 하므로 비용이 매우 크다. 셔플 최적화의 핵심은 이동해야 할 데이터의 양을 최소화하고, 셔플 쓰기 및 읽기 단계의 효율성을 높이는 것이다. reduceByKey나 aggregateByKey는 groupByKey보다 선호되는데, 이는 맵 사이드에서 콤바이너를 실행하여 셔플 전에 데이터를 부분적으로 집계하기 때문이다.

최적화 기법	설명	주요 API 예시
파티션 수 조정	너무 많은 파티션은 태스크 오버헤드를, 너무 적은 파티션은 자원 활용도를 낮춤.	`repartition()`, `coalesce()`
파티셔닝 보존	변환 연산 후 원본 파티셔닝을 유지하면 불필요한 셔플 방지.	`mapValues()`, `flatMapValues()`
브로드캐스트 조인	한쪽 데이터셋이 작을 경우, 모든 워커 노드에 복사하여 셔플을 제거.	`broadcast()`
셔플 파일 압축	네트워크 전송 및 디스크 I/O 양을 줄임.	`spark.shuffle.compress` 설정

또한, spark.sql.shuffle.partitions 구성은 Spark SQL 작업의 기본 셔플 파티션 수를 제어하며, 데이터 크기와 클러스터 리소스에 맞게 조정해야 한다. 적절한 파티션 크기는 보통 100MB에서 200MB 사이를 목표로 한다. 실행 계획을 분석하여 셔플이 예상보다 많이 발생하는 지점을 찾고, 데이터 스큐가 심한 키에 대한 처리는 솔트 기법을 적용하는 것도 고려할 수 있다.

6.3. 실행 계획 분석 (Explain)

실행 계획 분석은 Spark SQL 또는 DataFrame API를 사용할 때 쿼리 최적화 과정을 이해하고 성능 병목 현상을 진단하는 핵심 도구이다. 개발자는 explain() 메서드를 호출하여 Spark가 쿼리를 실행하기 위해 생성한 논리적 및 물리적 실행 계획을 확인할 수 있다. 이 계획은 쿼리가 어떤 단계로 변환되고, 어떤 연산자가 사용되며, 데이터가 어떻게 이동하는지를 상세히 보여준다.

실행 계획은 일반적으로 여러 단계로 출력된다. 먼저 논리적 계획은 사용자가 작성한 코드를 카탈리스트 옵티마이저가 분석하여 최적화하기 전의 초기 관계형 연산 트리를 보여준다. 다음으로 최적화된 논리적 계획은 카탈리스트 옵티마이저가 조건식 푸시다운, 불필요한 열 제거, 조인 재정렬 등의 규칙 기반 최적화를 적용한 결과를 표시한다. 마지막으로 물리적 계획은 최적화된 논리적 계획을 클러스터에서 실제로 실행 가능한 단위인 RDD 변환 연산으로 매핑한 것이다. 물리적 계획 단계에서는 브로드캐스트 조인 사용 여부나 특정 집계 연산 방식과 같은 비용 기반 최적화의 선택 사항도 확인할 수 있다.

explain() 메서드에는 여러 모드가 존재하여 상세도를 조절할 수 있다. 기본 모드는 물리적 계획만 간략히 보여주지만, explain("extended")를 사용하면 논리적 계획부터 최적화된 논리적 계획, 물리적 계획까지 모두 확인할 수 있다. 실행 계획을 분석할 때는 주로 비용이 높은 셔플 연산이나 전체 데이터 스캔이 발생하는 지점, 예상치 못한 조인 방식, 필터 조건이 적절히 적용되지 않는 부분 등을 집중적으로 검토한다. 이를 통해 데이터 파티셔닝 전략을 조정하거나 임시 캐싱을 적용하는 등 최적화 방향을 결정할 수 있다.

7. 주요 사용 사례

SPARK는 다양한 데이터 처리 패러다임을 통합하는 범용 엔진으로, 여러 주요 사용 사례를 포괄한다. 그 핵심은 RDD와 구조화된 데이터프레임/Dataset API를 기반으로 한 고성능 인메모리 처리 능력에 있다.

대규모 데이터 배치 처리는 SPARK의 가장 기본적인 사용 사례이다. 전통적인 Hadoop MapReduce 작업보다 훨씬 빠른 속도를 제공하며, 복잡한 ETL(추출, 변환, 적재) 파이프라인, 로그 분석, 데이터 웨어하우징 작업에 적합하다. HDFS나 클라우드 객체 저장소에 저장된 테라바이트 이상의 데이터를 처리하는 데 효과적이다. 실시간 스트림 처리 역시 Spark Streaming (구조화된 스트리밍)을 통해 가능하다. 이는 마이크로 배치(micro-batch) 방식을 사용하여 실시간으로 유입되는 데이터 스트림을 작은 배치로 나누어 처리하며, 배치 처리와 동일한 API를 사용하여 일괄 및 스트림 처리를 통합하는 프로그래밍 모델을 제공한다.

머신러닝 파이프라인 구축에는 MLlib 라이브러리가 활용된다. 이 라이브러리는 분류, 회귀, 클러스터링, 협업 필터링 등 다양한 알고리즘과 피처 변환, 파이프라인 구축 도구를 제공한다. SPARK의 분산 처리 능력 덕분에 대용량 데이터에 대한 반복적인 머신러닝 알고리즘 실행이 가능해진다. 그래프 분석은 GraphX 컴포넌트를 통해 수행된다. 소셜 네트워크 분석, 추천 시스템, 지리 공간 분석, 네트워크 패턴 탐지 등 정점(vertex)과 간선(edge)으로 표현되는 데이터 구조를 처리하는 데 특화되어 있다.

사용 사례	주요 SPARK 컴포넌트	처리 대상 예시
대규모 데이터 배치 처리	Spark Core, Spark SQL	ETL, 로그 집계, 오프라인 분석
실시간 스트림 처리	Spark Streaming (구조화된 스트리밍)	실시간 대시보드, 이상 감지, 이벤트 처리
머신러닝 파이프라인	MLlib	예측 모델 학습, 사용자 세그먼테이션, 추천
그래프 분석	GraphX	소셜 관계 분석, 페이지랭크 계산, 네트워크 경로 탐색

이러한 사례들은 별도의 시스템을 구축할 필요 없이 하나의 통합된 프레임워크 내에서 처리될 수 있다는 점이 SPARK의 주요 강점이다.

7.1. 대규모 데이터 배치 처리

SPARK는 분산 컴퓨팅 프레임워크로서, 대규모 데이터를 효율적으로 처리하는 데 특화되어 있다. 초기 버전부터 핵심 강점으로 여겨진 배치 처리 능력은 RDD 모델과 메모리 내 연산을 통해 기존 MapReduce 기반 시스템보다 수십 배 빠른 성능을 제공한다. 이는 반복적인 알고리즘(예: 머신러닝 학습)이나 복잡한 다단계 ETL 작업에 특히 효과적이다.

배치 처리 작업은 일반적으로 HDFS, Amazon S3, Apache HBase와 같은 분산 저장 시스템에 저장된 정적 데이터를 대상으로 한다. SPARK는 이러한 데이터를 읽어 여러 노드에 분산시킨 후, 맵(map), 필터(filter), 리듀스(reduce)와 같은 고수준 변환 연산을 적용하여 결과를 생성한다. 메모리에 데이터를 유지하면서 연산을 수행할 수 있어, 중간 결과를 디스크에 반복적으로 쓰는 방식보다 훨씬 빠르다.

주요 사용 사례로는 웹 로그 분석, 금융 거래 내역 집계, 과학 시뮬레이션 데이터 처리, 대용량 텍스트 마이닝 등이 있다. SPARK SQL과 DataFrame API의 등장으로 SQL 쿼리 실행과 구조화된 데이터 처리가 더욱 용이해졌으며, 이는 복잡한 배치 작업을 선언적이고 간결하게 작성할 수 있게 한다.

처리 유형	주요 특징	대표적 사용 예시
ETL 및 데이터 준비	다양한 데이터 소스 통합, 정제, 변환	로그 데이터 정규화, 다중 소스 데이터 조인
분석적 쿼리 실행	대화형 쿼리 및 집계 연산	일일/월별 리포트 생성, 사용자 행동 분석
반복적 알고리즘 실행	메모리 내 캐싱을 통한 고속 반복 처리	머신러닝 모델 학습, 그래프 알고리즘 실행

이러한 배치 처리 능력은 SPARK를 데이터 웨어하우스 구축, 데이터 레이크 분석, 배치 파이프라인 구동을 위한 핵심 인프라로 자리매김하게 했다.

7.2. 실시간 스트림 처리

SPARK의 실시간 스트림 처리는 Spark Streaming 컴포넌트를 통해 이루어진다. 이는 마이크로 배치(micro-batch) 아키텍처를 기반으로, 들어오는 실시간 데이터 스트림을 짧은 시간 간격(예: 1초, 2초)의 연속적인 RDD로 나누어 처리한다. 이 방식은 일괄 처리용으로 작성된 동일한 Spark Core 엔진과 API를 재사용할 수 있어 개발과 유지보수가 간편하다는 장점이 있다. 결과적으로, 사용자는 배치 처리 애플리케이션과 거의 동일한 코드로 스트림 처리 로직을 작성할 수 있다.

처리 과정은 크게 수신, 변환, 출력 단계로 나눌 수 있다. 먼저 Kafka, Flume, Kinesis 또는 TCP 소켓과 같은 소스로부터 데이터를 수신한다. 수신된 데이터 스트림은 DStream(Discretized Stream)이라는 고수준 추상화 객체로 표현되며, 이는 일련의 RDD로 구성된다. 이후 map, reduce, join, window 등의 연산을 적용하여 데이터를 변환하고, 최종 결과는 파일 시스템, 데이터베이스 또는 실시간 대시보드로 출력된다.

처리 단계	설명	주요 구성 요소/연산 예시
수신	외부 소스로부터 실시간 데이터 흐름을 가져옴	`KafkaUtils`, `FlumeUtils`, `socketTextStream`
변환	마이크로 배치 RDD에 대해 변환 연산 적용	`map`, `reduceByKey`, `window`, `transform`
출력	처리된 결과를 외부 시스템에 저장하거나 표시	`saveAsTextFiles`, `foreachRDD`, `print`

보다 낮은 지연 시간이 요구되는 사용 사례를 위해, Apache Spark 2.3 버전부터는 Structured Streaming API가 정식으로 도입되었다. 이는 Spark SQL 엔진 위에 구축되어 무한한 테이블에 대한 증분 쿼리로 스트림 처리를 모델링한다. Structured Streaming은 이벤트 시간 기반 처리, 윈도우 집계, 스트림-스트림 조인을 더욱 정교하게 지원하며, 마이크로 배치와 연속 처리(continuous processing) 모드를 모두 제공하여 밀리초 단위의 지연 시간도 달성할 수 있다[6].

7.3. 머신러닝 파이프라인

SPARK의 MLlib는 종단간 머신러닝 파이프라인을 구축하기 위한 고수준 API를 제공한다. 이 파이프라인 API는 데이터 전처리, 특징 추출, 모델 학습, 평가, 튜닝, 배포까지의 전체 워크플로우를 일관된 추상화로 표현할 수 있게 한다. 파이프라인은 여러 단계(Stage)로 구성되며, 각 단계는 Transformer 또는 Estimator 중 하나의 역할을 수행한다. Transformer는 데이터를 변환하는 로직을 포함하는 반면(예: 특징 벡터화), Estimator는 데이터를 기반으로 모델을 학습시키는 알고리즘이다.

파이프라인 구축은 일반적으로 데이터 준비, 특징 공학, 모델 학습, 하이퍼파라미터 튜닝의 단계를 따른다. 사용자는 StringIndexer, VectorAssembler, StandardScaler 같은 내장 Transformer를 사용해 데이터를 변환하고, 로지스틱 회귀나 랜덤 포레스트 같은 Estimator를 파이프라인에 추가하여 모델을 학습시킨다. 학습이 완료된 Estimator는 학습된 모델을 포함하는 Transformer로 변환되어 새로운 데이터에 대한 예측을 수행한다.

파이프라인 API의 주요 장점은 모듈성과 재현성이다. 각 단계는 독립적으로 구성되고 검증될 수 있으며, 전체 파이프라인 객체는 학습과 예측을 위한 일관된 인터페이스를 제공한다. 또한 교차 검증과 격자 탐색을 위한 CrossValidator와 TrainValidationSplit 같은 도구를 통해 하이퍼파라미터 튜닝을 파이프라인에 통합할 수 있다. 이를 통해 최적의 모델 구성을 자동화된 방식으로 찾을 수 있다.

머신러닝 파이프라인은 대규모 분산 데이터셋에 대한 반복적인 연산을 효율적으로 처리하도록 설계되었다. SPARK의 인메모리 연산과 RDD 기반의 분산 처리 덕분에, 전통적인 단일 머신 도구로는 처리하기 어려운 빅데이터 환경에서도 머신러닝 모델 개발과 실험을 가능하게 한다. 이는 추천 시스템, 사기 탐지, 텍스트 분류 등 다양한 실무 응용 분야에 활용된다.

7.4. 그래프 분석

그래프 분석은 정점과 간선으로 구성된 그래프 구조 데이터를 처리하고 분석하는 작업을 말한다. 소셜 네트워크 분석, 추천 시스템, 웹 그래프 분석, 사기 탐지, 생물정보학 등 다양한 분야에서 활용된다. SPARK는 GraphX라는 전용 라이브러리를 제공하여 대규모 분산 그래프 처리를 지원한다.

GraphX는 RDD 기반의 속성 그래프 모델을 사용한다. 각 정점과 간선은 사용자 정의 속성을 가질 수 있으며, Pregel API를 구현하여 정점 중심의 반복적 메시지 전달 프로그래밍 모델을 제공한다. 이를 통해 페이지랭크, 커뮤니티 탐지, 최단 경로 탐색, 연결 요소 분석과 같은 고전적인 그래프 알고리즘을 대규모로 실행할 수 있다. GraphX의 연산은 크게 변환 연산, 구조 연산, 집계 연산, 조인 연산으로 분류된다.

GraphX를 활용한 일반적인 분석 파이프라인은 다음과 같은 단계로 구성된다.

1. 원본 데이터(정점 및 간선 목록)를 로드하여 속성 그래프를 생성한다.

2. subgraph, mapVertices, mapEdges 등의 변환 연산으로 그래프를 필터링하거나 속성을 변환한다.

3. aggregateMessages 연산을 사용하여 이웃 정점들로부터 정보를 집계하거나, Pregel 연산자를 사용하여 반복적인 알고리즘을 실행한다.

4. 분석 결과를 정점 RDD나 간선 RDD 형태로 추출하거나, 다른 Spark SQL 데이터프레임과 조인하여 추가 분석에 사용한다.

GraphX는 SPARK의 통합 스택의 일부로 동작하기 때문에, 그래프 분석의 결과를 MLlib을 이용한 머신러닝이나 Spark SQL을 이용한 구조화된 쿼리 처리와 쉽게 결합할 수 있는 장점이 있다. 그러나 매우 대규모이거나 특수한 그래프 처리에는 Apache Giraph나 Neo4j와 같은 전용 시스템이 더 적합할 수 있다[7].

8. Hadoop 에코시스템과의 관계

SPARK는 Hadoop 에코시스템 내에서 진화한 차세대 분산 처리 프레임워크이다. 초기 Hadoop MapReduce의 한계를 극복하기 위해 설계되었으며, 특히 HDFS와의 긴밀한 통합을 통해 기존 데이터 인프라를 계승하면서도 성능을 획기적으로 향상시켰다. 따라서 SPARK는 Hadoop을 대체하는 것이 아니라, 그 핵심 저장소와 클러스터 관리 자원을 활용하면서 더 빠른 처리 엔진을 제공하는 상위 계층으로 자리 잡았다.

MapReduce 대비 SPARK의 가장 큰 장점은 메모리 내 처리와 풍부한 고수준 API이다. MapReduce는 각 단계마다 디스크에 중간 결과를 기록해야 하므로 반복적인 알고리즘이나 대화형 쿼리에 비효율적이었다. 반면 SPARK의 RDD는 데이터를 메모리에 유지하며 변환 연산을 효율적으로 수행할 수 있어, 반복 작업이 많은 머신러닝이나 그래프 알고리즘에서 수십 배에서 수백 배 빠른 성능을 보인다. 또한 MapReduce의 복잡한 맵리듀스 프로그래밍 모델 대신 변환(transformation)과 액션(action)의 간결한 API, 그리고 이후 등장한 DataFrame과 Dataset API를 제공하여 개발 생산성을 크게 높였다.

SPARK는 Hadoop의 핵심 구성 요소와 원활하게 연동된다. 기본 저장소로 HDFS나 Apache HBase를 직접 사용할 수 있으며, Apache Hive와의 통합을 통해 기존 Hive 메타스토어의 테이블 정의를 읽어오거나 HiveQL 쿼리를 실행할 수 있다. 이는 기존 Hadoop 기반 데이터 웨어하우스 환경을 SPARK로 마이그레이션하는 과정을 크게 단순화한다. 클러스터 리소스 관리 측면에서는 Hadoop YARN 위에서 실행되는 것이 일반적인 모드 중 하나이며, 이를 통해 Hadoop 클러스터의 자원을 SPARK 애플리케이션과 다른 워크로드(예: MapReduce 작업)가 공유할 수 있다.

비교 항목	Hadoop MapReduce	Apache Spark
처리 패러다임	디스크 기반 배치 처리	메모리 우선 배치/스트림 처리
데이터 추상화	키-값 쌍 (Map과 Reduce 단계)	RDD, DataFrame, Dataset
실행 엔진	맵 단계와 리듀스 단계로 고정된 2단계 모델	비순환 데이터 흐름 그래프(DAG) 기반 유연한 실행
반복 작업 성능	매 반복마다 디스크 I/O 발생으로 느림	메모리 캐싱을 통한 극적인 성능 향상
실시간 처리	지원하지 않음 (배치 전용)	Spark Streaming을 통한 마이크로 배치 방식 지원
HDFS 연동	네이티브 지원	네이티브 지원
Hive 연동	필요 시 Hive 자체 실행	Spark SQL을 통해 Hive 메타스토어 직접 쿼리 가능

결론적으로, SPARK는 Hadoop 에코시스템이 가진 강력한 분산 저장 및 리소스 관리 체계를 그대로 유지하면서, 데이터 처리의 속도와 프로그래밍의 편의성이라는 두 가지 주요 문제를 해결했다. 이로 인해 대규모 데이터 배치 처리 영역에서 사실상의 표준으로 자리매김하였으며, Hadoop 중심의 데이터 인프라를 현대화하는 핵심 동력이 되었다.

8.1. MapReduce 대비 장점

SPARK는 Hadoop MapReduce의 후속 및 대체 기술로 자리 잡으며, 특히 대규모 데이터 처리 성능에서 몇 가지 결정적인 장점을 보여준다. 가장 큰 차이는 처리 방식에 있다. MapReduce는 디스크 기반의 처리 모델을 사용하여 각 맵(Map)과 리듀스(Reduce) 단계 후 중간 결과를 HDFS에 저장한다. 이로 인해 반복적인 계산이 많은 작업(예: 머신러닝 알고리즘, 그래프 처리)에서 디스크 I/O 오버헤드가 크게 발생하여 성능이 저하된다. 반면, SPARK는 RDD를 기반으로 한 인메모리(in-memory) 연산을 지원한다. 데이터를 가능한 한 메모리에 유지함으로써 반복 작업과 여러 단계로 이루어진 처리 파이프라인의 속도를 MapReduce에 비해 수십 배에서 수백 배까지 향상시킬 수 있다.

두 번째 장점은 프로그래밍 모델의 표현력과 사용 편의성에 있다. MapReduce는 맵과 리듀스라는 두 가지 고정된 연산으로 모든 로직을 표현해야 하므로 복잡한 작업을 작성하기가 번거롭고 코드가 길어지는 경향이 있다. SPARK는 변환(Transformation)과 액션(Action)으로 구성된 풍부한 고수준 연산 API(예: map, filter, join, groupBy)를 제공한다. 이를 통해 개발자는 간결하고 선언적인 코드로 복잡한 데이터 처리 흐름을 쉽게 표현할 수 있으며, 특히 SPARK SQL과 데이터프레임(DataFrame) API를 통해 SQL과 유사한 쿼리 작성도 가능하다.

또한, SPARK는 통합 스택(unified stack)이라는 철학을 지닌다. MapReduce는 주로 배치 처리에 특화되어 있어 실시간 스트림 처리, 머신러닝, 그래프 분석 등 다른 유형의 작업을 위해서는 Apache Storm, Apache Mahout 등 별도의 시스템을 도입해야 했다. SPARK는 하나의 프레임워크 내에서 SPARK Core, SPARK Streaming, MLlib, GraphX 같은 라이브러리를 통해 배치 처리, 스트림 처리, 머신러닝, 그래프 처리까지 포괄적으로 지원한다. 이로 인해 다양한 워크로드를 위한 별도의 클러스터나 시스템을 유지 관리할 필요가 줄어들고, 서로 다른 처리 패러다임 간에 코드와 데이터를 공유하기가 훨씬 용이해진다.

비교 항목	MapReduce	SPARK
처리 엔진	디스크 기반 처리	인메모리 우선 처리 (디스크 폴백 가능)
프로그래밍 모델	맵과 리듀스 위주의 제한적 API	풍부한 고수준 변환/액션 연산 API
실행 모델	각 단계 후 디스크 I/O 발생	DAG 스케줄러를 통한 작업 최적화 및 지연 실행
워크로드 지원	주로 배치 처리에 특화	배치, 스트림, 머신러닝, 그래프 처리를 하나의 스택으로 통합
반복 작업 성능	매 반복마다 디스크 I/O로 인해 느림	데이터를 메모리에 캐싱하여 반복 작업이 매우 빠름

마지막으로, SPARK의 DAG 스케줄러는 작업 실행을 최적화하는 데 기여한다. MapReduce는 작업의 각 단계를 독립적으로 실행하고 관리자에게 의존하는 반면, SPARK는 작업 전체의 연산 그래프(DAG)를 파악하여 불필요한 셔플(Shuffle)이나 중간 저장을 최소화하고, 가능한 연산들을 파이프라이닝하여 효율적으로 실행한다. 이러한 지연 실행(lazy evaluation)과 최적화는 개발자가 작성한 코드의 실제 실행 효율을 높여준다.

8.2. HDFS 및 Hive와의 연동

SPARK는 Hadoop 에코시스템의 핵심 저장소인 HDFS와 밀접하게 연동되어 작동한다. SPARK 애플리케이션은 HDFS에 저장된 데이터를 직접 읽고 쓸 수 있으며, 이를 통해 MapReduce와 같은 기존 Hadoop 도구들과 동일한 데이터 소스를 공유한다. 데이터 로컬리티를 최대화하기 위해 SPARK는 클러스터 관리자와 협력하여 데이터가 저장된 노드에서 연산을 실행하려고 시도한다[8]. 또한 SPARK는 HBase나 Amazon S3와 같은 다른 Hadoop 호환 저장 시스템과도 연동이 가능하다.

Apache Hive와의 연동은 Spark SQL 모듈을 통해 이루어진다. SPARK는 Hive의 메타스토어에 직접 연결하여 기존에 정의된 Hive 테이블의 스키마와 데이터 위치 정보를 읽어올 수 있다. 이를 통해 사용자는 기존 Hive 웨어하우스의 데이터에 대해 SPARK의 고성능 엔진을 사용한 쿼리 및 분석을 즉시 수행할 수 있다. 반대로, SPARK를 사용하여 처리한 결과 데이터를 다시 새로운 Hive 테이블로 저장하는 것도 일반적인 작업 흐름이다.

두 시스템의 통합은 다음과 같은 주요 포인트를 제공한다.

통합 영역	설명
데이터 접근	`spark.read.table("hive_table_name")`과 같은 코드로 Hive 테이블을 DataFrame으로 직접 로드 가능
메타데이터 공유	SPARK 세션에서 Hive 메타스토어를 사용하도록 설정하면, 테이블 생성/조회 시 자동으로 메타스토어와 동기화
형식 지원	Hive가 지원하는 텍스트, ORC, Parquet 등의 파일 형식을 SPARK에서도 자유롭게 읽고 쓸 수 있음
실행 엔진 대체	기존 Hive 쿼리를 수정 없이 SPARK 엔진으로 실행하여 성능을 획기적으로 향상시킬 수 있음 (Hive on Spark)

이러한 긴밀한 연동 덕분에 조직은 기축 투자를 보호하면서도 SPARK의 빠른 인메모리 처리 성능을 활용할 수 있다. 결과적으로 SPARK는 Hadoop의 강력한 저장 기반과 Hive의 편리한 데이터 관리 체계 위에 고속 처리 계층으로 자리 잡았다.

9. 여담

SPARK는 2009년 UC 버클리의 AMPLab에서 시작된 연구 프로젝트였으며, 초기 목표는 머신러닝과 데이터 마이닝 알고리즘을 위한 빠른 범용 클러스터 컴퓨팅 엔진을 만드는 것이었다. 이 프로젝트는 2010년 논문 "Spark: Cluster Computing with Working Sets"를 통해 처음 세상에 공개되었다. 2013년에 아파치 소프트웨어 재단에 기증되어 아파치 탑 레벨 프로젝트가 되었고, 이는 생태계의 급속한 성장과 산업계의 광범위한 채택으로 이어졌다.

프로젝트 이름 'Spark'는 '시작하다' 또는 '불꽃'을 의미하는 영어 단어에서 유래했으며, 빅데이터 처리의 새로운 시대를 열겠다는 의지를 담고 있다. 흥미롭게도, 초기 버전의 로고는 불꽃 모양을 강조했으나, 시간이 지나며 현재와 같이 추상화된 형태로 진화했다. SPARK의 성공은 단순히 기술적 우수성뿐만 아니라 활발한 오픈 소스 커뮤니티에 힘입은 바가 크다. 이 커뮤니티는 정기적인 'Spark Summit' 컨퍼런스를 개최하며 개발자와 사용자 간의 교류를 촉진한다.

SPARK는 종종 Hadoop의 후속 기술로 언급되지만, 실제로는 상호 보완적인 관계에 가깝다. SPARK는 HDFS나 HBase와 같은 Hadoop의 스토리지 계층과 원활하게 연동되어 작동한다. 또한, SPARK의 DataFrame API는 R과 파이썬의 판다스(Pandas) 라이브러리에서 영감을 받아 개발되었으며, 이는 데이터 과학자들의 친숙한 인터페이스를 제공하기 위한 의도적인 설계 선택이었다.

SPARK

이름	SPARK
분류	프로그래밍 언어
개발자	UC 버클리 AMPLab
최초 출시	2014년
주요 목적	대규모 데이터 처리
주요 특징	인메모리 컴퓨팅, 분산 처리
라이선스	Apache 라이선스 2.0
주요 사용 언어	Scala, Java, Python, R
상세 정보
공식 웹사이트	https://spark.apache.org
핵심 구성 요소	Spark Core, Spark SQL, Spark Streaming, MLlib, GraphX
실행 엔진	Apache Mesos, Hadoop YARN, Kubernetes, 독립 실행 모드
데이터 처리 모델	Resilient Distributed Dataset (RDD), DataFrame, Dataset
주요 활용 분야	빅데이터 분석, 머신러닝, 실시간 스트리밍 처리, 그래프 처리
대체 기술	Apache Hadoop MapReduce
통합 환경	Apache Zeppelin, Jupyter Notebook
주요 기업 사용처	Netflix, Uber, eBay, AliExpress
관련 프로젝트	Apache Hadoop, Apache Kafka, Apache Flink
주요 성과	인메모리 처리로 Hadoop MapReduce보다 최대 100배 빠른 성능