실시간 스트림 처리 (r1)

1. 개요

실시간 스트림 처리는 연속적으로 생성되는 데이터 스트림을 지속적으로, 낮은 지연 시간으로 처리하는 데이터 처리 패러다임이다. 이는 과거의 배치 처리 방식과 대비되는 개념으로, 데이터가 생성되는 즉시 또는 매우 짧은 시간 내에 분석 및 변환 작업을 수행하여 실시간 인사이트를 제공하는 것을 목표로 한다.

이 방식은 이벤트 스트림을 기본 처리 단위로 삼는다. 데이터는 센서, 로그 파일, 금융 거래, 소셜 미디어 피드 등 다양한 소스에서 끊임없이 흘러나오며, 이러한 무한한 데이터 흐름을 처리 엔진이 실시간으로 소비하고 계산을 적용한다. 핵심은 데이터의 이동과 처리 사이에 존재하는 지연을 극도로 줄이는 것이다.

실시간 스트림 처리의 적용 분야는 매우 다양하다. 주요 사용 사례로는 실시간 대시보드 및 모니터링, 사기 탐지, 주식 시장 분석, 추천 시스템, 사물인터넷 센서 데이터 처리 등이 있다. 이러한 분야에서는 몇 초, 심지어 밀리초 단위의 응답이 비즈니스적 가치나 시스템 안정성에 결정적인 영향을 미친다.

이를 구현하기 위해 Apache Flink, Apache Kafka Streams, Apache Spark Streaming과 같은 전용 프레임워크가 개발되었다. 이러한 도구들은 윈도우 연산, 상태 관리, 장애 허용성 같은 복잡한 문제를 추상화하여 개발자가 비즈니스 로직에 집중할 수 있도록 지원한다.

2. 핵심 개념

실시간 스트림 처리의 핵심 개념은 연속적인 데이터 흐름을 처리하는 데 필요한 기본적인 요소와 원리를 구성한다. 이 개념들은 배치 처리와 구별되는 스트림 처리의 본질적 특성을 정의한다.

가장 기본적인 개념은 이벤트 스트림이다. 이는 시간 순서로 생성되는 개별적인 데이터 레코드의 무한한 시퀀스를 의미한다. 각 이벤트는 발생 시간을 포함하며, 센서 판독값, 사용자 클릭 로그, 금융 거래 기록 등 다양한 형태를 가질 수 있다. 스트림 처리 시스템은 이러한 이벤트가 도착하는 대로 지속적으로 처리한다. 처리 모델은 크게 이벤트 발생 시점에 즉시 처리하는 이벤트 시간 처리와 시스템이 데이터를 받은 시점을 기준으로 하는 처리 시간 처리로 나뉜다. 정확한 분석을 위해서는 이벤트 시간을 기준으로 한 처리가 중요하다.

상태 관리는 스트림 처리에서 필수적인 요소이다. 단순한 필터링이나 변환과 달리 윈도우 연산이나 집계 연산을 수행하려면 과거 이벤트 정보를 유지해야 한다. 이렇게 유지되는 정보를 상태라고 한다. 예를 들어, 지난 1시간 동안의 거래 횟수를 세는 작업은 지속적으로 카운트 값을 상태로 저장하고 업데이트해야 한다. 상태는 메모리, 로컬 디스크 또는 외부 키-값 저장소에 보관될 수 있으며, 시스템의 장애 허용성을 보장하기 위해 안전하게 보호되어야 한다.

개념	설명	주요 고려 사항
이벤트 스트림	시간 순서의 무한한 데이터 레코드 시퀀스	순서 보장, 지연 도착 데이터 처리
처리 모델	이벤트를 처리하는 시간 기준	이벤트 시간 vs 처리 시간
상태 관리	연산을 위해 필요한 과거 정보의 유지	저장 위치, 일관성, 장애 복구

이 세 가지 개념은 상호 연관되어 있다. 이벤트 스트림을 특정 처리 모델에 따라 분석하려면 효과적인 상태 관리가 뒷받침되어야 한다. 이러한 핵심 개념을 이해하는 것은 람다 아키텍처나 카파 아키텍처와 같은 구체적인 아키텍처 패턴을 설계하고 적용하는 기초가 된다.

2.1. 이벤트 스트림

이벤트 스트림은 실시간 스트림 처리 시스템의 핵심 입력 소스이다. 이는 시간 순서대로 발생하는 연속적인 데이터 레코드의 흐름을 의미한다. 각 레코드는 일반적으로 이벤트라고 불리며, 특정 시점에 시스템에서 발생한 사건을 나타낸다. 예를 들어, 웹사이트 클릭, 금융 거래, 센서 판독값, 소셜 미디어 업데이트 등이 이벤트가 될 수 있다.

이벤트 스트림은 몇 가지 중요한 특성을 가진다. 첫째, 스트림은 본질적으로 무한하며, 명확한 시작이나 끝이 없다. 둘째, 데이터는 실시간에 가깝게 도착하며, 처리 시스템은 낮은 지연 시간으로 이 데이터를 소비해야 한다. 셋째, 스트림 내의 이벤트 순서는 의미가 있을 수 있지만, 네트워크 지연 등의 이유로 도착 순서가 뒤바뀔 수도 있다.

특성	설명
무한성	스트림은 이론적으로 끝없이 계속되는 데이터 흐름이다.
실시간성	이벤트는 생성 후 짧은 시간 내에 처리 시스템에 도착한다.
순서성	이벤트는 타임스탬프를 가지며, 순서가 중요한 의미를 가질 수 있다.
내구성	스트림은 Apache Kafka나 Amazon Kinesis 같은 메시지 큐에 지속되어 소실되지 않는다.

이러한 스트림은 데이터 스트리밍 플랫폼을 통해 생산, 저장, 전달된다. 처리 애플리케이션은 이 스트림을 구독하여 이벤트를 읽고, 변환하며, 다른 스트림이나 외부 시스템으로 결과를 출력한다. 이벤트 스트림의 개념은 일괄 처리의 유한한 데이터셋과 대비되며, 지속적이고 동적인 데이터 처리를 가능하게 하는 기반이 된다.

2.2. 처리 모델

처리 모델은 실시간 스트림 처리 시스템이 데이터를 처리하는 기본적인 방식을 정의한다. 주요 모델로는 이벤트 스트림을 도착하는 대로 즉시 처리하는 이벤트 중심 처리와, 데이터를 작은 배치 단위로 묶어 처리하는 마이크로 배치 처리가 있다. 이벤트 중심 처리는 매우 낮은 지연 시간을 제공하지만 상태 관리와 장애 복구가 복잡한 반면, 마이크로 배치 처리는 처리량이 높고 구현이 상대적으로 단순하다는 특징이 있다.

또 다른 중요한 분류는 처리의 시점과 관련된 시간 개념이다. 이벤트 시간은 데이터가 실제 발생한 시간을 의미하며, 처리 시간은 시스템이 데이터를 처리하는 시점의 시간을 의미한다. 네트워크 지연이나 재처리로 인해 두 시간 사이에 차이가 발생할 수 있으며, 워터마크 메커니즘은 이벤트 시간 기반의 처리에서 지연된 데이터를 다루기 위한 방법으로 사용된다.

처리 모델	설명	주요 특징
이벤트 중심 처리	각 이벤트를 도착 즉시 개별적으로 처리	지연 시간이 매우 낮음, 상태 관리 복잡
마이크로 배치 처리	짧은 간격으로 도착한 이벤트를 작은 배치로 묶어 처리	처리량이 높음, 구현이 비교적 단순
이벤트 시간 처리	데이터 발생 시점을 기준으로 처리	정확한 시간 기반 분석 가능, 지연 데이터 처리 필요
처리 시간 처리	시스템이 데이터를 받는 시점을 기준으로 처리	구현이 단순하지만, 시간 정확도가 낮을 수 있음

이러한 처리 모델의 선택은 애플리케이션의 요구사항, 즉 허용 가능한 지연 시간, 데이터 정확도, 시스템 복잡도, 처리량 등을 종합적으로 고려하여 결정된다.

2.3. 상태 관리

상태 관리는 실시간 스트림 처리 시스템이 이벤트 스트림을 처리하는 동안 변경 가능한 정보를 유지하고 업데이트하는 기능을 말한다. 배치 처리와 달리 스트림 처리는 끝없이 들어오는 데이터를 다루므로, 집계 연산이나 윈도우 연산과 같은 작업을 수행하려면 중간 결과나 컨텍스트를 저장할 수 있는 상태가 필요하다. 예를 들어, 지난 1시간 동안의 거래 금액 합계를 계산하려면 각 거래 이벤트를 처리할 때마다 누적 합계를 상태에 저장하고 업데이트해야 한다.

상태는 일반적으로 키-값 쌍, 리스트, 맵 등의 형태로 관리되며, Apache Flink나 Apache Kafka Streams와 같은 프레임워크는 내부 상태 저장소를 제공한다. 상태는 크게 두 가지 유형으로 구분된다. 키드 상태는 데이터 스트림의 키별로 분리되어 관리되는 상태로, 특정 사용자나 장치에 대한 정보를 추적하는 데 적합하다. 오퍼레이터 상태는 연산자 인스턴스 전반에 걸쳐 공유되는 상태로, 모든 입력 데이터에 영향을 미치는 글로벌 설정이나 카운터에 사용된다.

효율적인 상태 관리는 장애 허용성과 직결된다. 시스템 장애가 발생했을 때 상태를 복구할 수 있어야 정확한 처리를 보장할 수 있다. 이를 위해 대부분의 프레임워크는 정기적으로 상태의 스냅샷을 체크포인팅하여 외부 저장소 시스템에 저장한다. 또한 상태의 크기가 무한정 커지는 것을 방지하기 위해 TTL 정책을 설정해 오래된 항목을 자동으로 삭제하거나, 상태 백엔드를 로컬 메모리에서 분산 파일 시스템으로 변경하는 등의 최적화 기법이 사용된다.

3. 아키텍처 패턴

실시간 스트림 처리 시스템을 설계하기 위한 대표적인 아키텍처 패턴으로는 람다 아키텍처와 카파 아키텍처가 있다. 이 두 패턴은 배치 처리와 스트림 처리의 조합 방식, 그리고 데이터 정합성과 복잡성 관리에 대한 서로 다른 접근법을 제시한다.

람다 아키텍처는 배치 처리 계층과 속도 계층이라는 이중 구조를 사용한다. 배치 계층은 모든 원본 데이터를 주기적으로(예: 매일) 처리하여 정확한 '배치 뷰'를 생성한다. 동시에 속도 계층은 최근에 도착한 데이터만을 실시간으로 처리하여 '실시간 뷰'를 생성한다. 최종 사용자에게 제공되는 질의 결과는 이 두 뷰를 병합하여 생성된다. 이 패턴의 장점은 배치 계층을 통해 높은 정확성과 내결함성을 보장하면서도, 속도 계층을 통해 낮은 지연 시간을 실현할 수 있다는 점이다. 그러나 단점으로는 동일한 처리 로직을 배치와 스트림 두 파이프라인에 각각 구현해야 하므로 유지보수 비용이 높고 시스템 복잡성이 증가한다는 점이 지적된다.

카파 아키텍처는 랰다 아키텍처의 복잡성을 해결하기 위해 제안된 단일 계층 패턴이다. 이 패턴의 핵심은 모든 데이터를 불변의 로그(이벤트 스트림)로 취급하고, 이를 단일 스트림 처리 파이프라인을 통해 처리한다는 것이다. 과거 데이터를 재처리해야 할 필요가 생기면, 단순히 처리 애플리케이션을 다시 실행하여 로그의 처음부터(또는 특정 시점부터) 데이터를 다시 처리한다. 이 접근법은 코드베이스를 하나로 단일화하여 시스템 복잡성을 크게 낮춘다. 카파 아키텍처의 구현은 Apache Kafka와 같은 분산 로그 시스템과 이를 기반으로 한 스트림 처리 프레임워크에 크게 의존한다. 단, 대규모 역사 데이터를 재처리할 때 발생할 수 있는 계산 비용과 시간이 주요 고려 사항이다.

패턴	핵심 아이디어	장점	단점
람다 아키텍처	배치 계층(정확성) + 속도 계층(저지연)의 이중 구조	정확성과 저지연을 동시에 보장, 검증된 배치 처리 기술 활용	시스템 복잡성 높음, 로직 중복, 운영 부담 큼
카파 아키텍처	단일 스트림 처리 계층과 재처리를 통한 일관성 유지	시스템 단순화, 유지보수 용이, 단일 코드베이스	대규모 재처리 시 리소스 소모 및 시간 지연 가능성

3.1. 람다 아키텍처

람다 아키텍처는 배치 처리와 실시간 처리의 장점을 결합하여 대규모 데이터 시스템을 구축하기 위한 설계 패턴이다. 이 아키텍처는 내결함성과 낮은 지연 시간을 동시에 달성하기 위해 제안되었다. 핵심 아이디어는 모든 데이터를 배치 계층과 속도 계층이라는 두 개의 독립적인 경로로 처리하고, 그 결과를 서빙 계층에서 질의에 맞게 통합하여 제공하는 것이다.

이 아키텍처는 세 가지 주요 계층으로 구성된다.

계층	목적	처리 특성	예시 기술
배치 계층	전체 데이터셋에 대한 정확하고 포괄적인 결과 생성	높은 지연 시간(몇 시간~하루), 정확성 우선	Apache Hadoop, Apache Spark
속도 계층	최신 데이터에 대한 실시간 결과 생성	낮은 지연 시간(수초~수분), 근사치 결과	Apache Storm, Apache Flink, Apache Kafka Streams
서빙 계층	배치 계층과 속도 계층의 결과를 저장하고 통합하여 응답	낮은 지연 시간의 질의 응답	Apache HBase, Cassandra, Druid

데이터는 이벤트 스트림 형태로 시스템에 유입되며, 동일한 데이터가 배치 계층과 속도 계층에 동시에 전송된다. 배치 계층은 주기적으로(예: 매일) 전체 데이터를 재처리하여 정확한 '배치 뷰'를 생성한다. 속도 계층은 배치 처리 주기 사이에 들어온 최신 데이터만을 실시간으로 처리하여 '실시간 뷰'를 생성한다. 서빙 계층은 최종 사용자의 질의에 대해 배치 뷰와 실시간 뷰를 병합하여 응답한다. 이 방식은 배치 처리의 정확성과 실시간 처리의 신속성을 모두 확보하지만, 동일한 로직을 두 개의 서로 다른 시스템에 구현해야 하는 복잡성과 운영 부담이 주요 단점으로 지적된다.

3.2. 카파 아키텍처

람다 아키텍처의 복잡성을 해결하기 위해 제안된 대안적 패턴이다. 카파 아키텍처는 배치 처리 계층을 제거하고 모든 데이터 처리를 단일의 실시간 스트림 처리 계층을 통해 수행하는 단순화된 설계 철학을 지닌다. 이는 하나의 코드베이스와 하나의 처리 엔진으로 일관된 모델을 제공하여 시스템의 복잡성을 크게 낮춘다.

핵심 아이디어는 이벤트 스트림을 시스템의 유일한 진실의 원천으로 삼고, 모든 데이터를 스트림으로 취급하는 것이다. 역사적 데이터는 이벤트 로그에 순차적으로 저장되며, 필요 시 특정 시점부터 재생하여 새로운 애플리케이션 상태를 계산할 수 있다. 이 접근 방식은 배치와 스트림 처리를 위한 별도의 코드 경로를 유지 관리해야 하는 람다 아키텍처의 이중성 문제를 제거한다.

카파 아키텍처의 구현은 일반적으로 Apache Kafka와 같은 지속적이고 재생 가능한 로그 서비스를 중심으로 구성된다. 처리 계층은 이 로그에서 데이터를 읽어 실시간으로 계산을 수행하고 결과를 새로운 파생 스트림이나 상태 저장소에 기록한다. 장점은 설계의 단순성과 운영 부담 감소에 있지만, 매우 대규모의 역사적 데이터 재처리가 필요한 경우에는 성능상의 도전 과제가 발생할 수 있다[1].

특성	설명
핵심 원칙	단일 스트림 처리 계층, 재생 가능한 이벤트 로그
주요 구성 요소	이벤트 로그(예: Apache Kafka), 스트림 처리기, 서빙 계층
장점	아키텍처 단순화, 운영 복잡도 감소, 지연 시간 낮음
단점	대규모 역사적 데이터 재처리 시 성능 고려 필요
대표적 사용 사례	실시간 대시보드, 사기 탐지, 사용자 활동 추적

4. 주요 프레임워크

실시간 스트림 처리를 구현하기 위한 주요 오픈소스 프레임워크로는 Apache Flink, Apache Kafka Streams, Apache Spark Streaming이 널리 사용된다. 각 프레임워크는 설계 철학과 적용 영역에 차이를 보인다.

Apache Flink는 진정한 스트림 처리 엔진으로 설계되었다. 마이크로 배치가 아닌 레코드 단위의 스트림 처리를 기본으로 하여 매우 낮은 지연 시간을 제공한다. 분산 스냅샷 기반의 체크포인팅을 통해 강력한 장애 허용성을 보장하며, 정확히 한 번 의미론을 지원한다. Flink는 복잡한 이벤트 처리, 상태 저장 연산, 이벤트 시간 기반의 윈도우 연산에 특히 강점을 가진다.

Apache Kafka Streams는 Apache Kafka와 긴밀하게 통합된 클라이언트 라이브러리이다. 별도의 클러스터 관리가 필요 없이 애플리케이션 코드에 포함되어 실행된다는 점이 특징이다. Kafka의 토픽을 입력과 출력으로 직접 사용하며, Kafka의 내구성과 복제 메커니즘을 활용하여 장애 허용성을 달성한다. 비교적 가볍고 시작하기 쉬워 카프카 중심의 간단한 스트림 처리 파이프라인 구축에 적합하다.

Apache Spark Streaming은 Apache Spark의 확장 모듈로, 마이크로 배치 방식을 채택한다. 연속적인 데이터 스트림을 작은 고정 크기의 배치로 나누어 처리한다. 이 방식은 배치 처리와 스트림 처리를 동일한 코드베이스(Spark의 RDD/DataFrame API)로 통합할 수 있는 장점을 제공하지만, 배치 간격에 의존하기 때문에 Flink나 Kafka Streams에 비해 지연 시간이 높은 편이다. 기존 스파크 배치 애플리케이션을 스트리밍으로 확장하는 경우에 유리하다.

프레임워크	처리 모델	주요 특징	적합한 사용 사례
Apache Flink	진정한 스트림 처리(레코드 단위)	낮은 지연, 강력한 상태 관리, 이벤트 시간 처리	복잡한 실시간 분석, 이벤트 기반 애플리케이션
Apache Kafka Streams	진정한 스트림 처리(레코드 단위)	카프카와의 긴밀한 통합, 경량 라이브러리	카프카 토픽의 실시간 변환 및 집계
Apache Spark Streaming	마이크로 배치	스파크 생태계와의 통합, 배치/스트림 통합	기존 스파크 배치 워크로드의 스트리밍 확장

4.1. Apache Flink

Apache Flink는 분산형, 고성능, 항상 가용성이 보장되는 오픈 소스 스트림 처리 프레임워크이다. 핵심 설계 철학은 유한 데이터의 배치 처리와 무한 데이터의 스트림 처리를 통합된 엔진으로 처리하는 것이다. 이를 위해 데이터를 유한/무한에 관계없이 일련의 이벤트 스트림으로 간주하고, 동일한 런타임 위에서 실행한다. Flink는 기본적으로 스트림 처리를 기반으로 하여, 배치 처리를 특수한 형태의 유한 스트림으로 취급한다.

주요 특징으로는 낮은 지연 시간과 높은 처리량을 동시에 달성하는 것, 정확한 상태 관리를 통한 강력한 상태 저장 연산 지원, 그리고 이벤트 발생 시간에 기반한 정확한 윈도우 연산이 있다. 특히 체크포인팅과 저장소 상태 백엔드를 활용한 장애 복구 메커니즘을 통해 정확히 한 번 의미론을 보장한다. Flink의 런타임은 자체적인 클러스터 관리자 위에서 실행되거나, YARN, Apache Mesos, 쿠버네티스, 또는 단독 모드로도 배포될 수 있다.

Flink의 API는 여러 추상화 수준을 제공한다. 가장 낮은 수준의 DataStream API (Java/Scala)와 DataSet API (배치용)부터, 선언형 Table API (SQL-like), 그리고 완전한 SQL 인터페이스까지 포함한다. 이를 통해 사용자는 다양한 편의성과 제어 수준을 선택할 수 있다. 일반적인 처리 파이프라인은 소스(예: Apache Kafka, 파일 시스템), 변환 연산(맵, 필터, 조인, 집계), 싱크(예: 데이터베이스, 메시지 큐, 파일 시스템)로 구성된다.

구성 요소	설명
JobManager	애플리케이션 실행을 조정하고 체크포인트를 관리하는 마스터 프로세스이다.
TaskManager	데이터 스트림의 작업을 실행하고 버퍼를 관리하는 워커 프로세스이다.
클라이언트	애플리케이션을 제출하고 실행을 트리거하는 역할을 한다.
저장소 상태 백엔드	작업 상태를 유지하는 저장소(예: 메모리, 파일 시스템, RocksDB)이다.

4.2. Apache Kafka Streams

Apache Kafka Streams는 Apache Kafka 위에서 동작하는 클라이언트 라이브러리로, 마이크로서비스나 Java, Scala 애플리케이션에 내장되어 사용된다. 이 프레임워크는 Kafka의 토픽을 입력 소스와 출력 대상으로 삼아, 상태 저장 또는 상태 비저장 스트림 처리 애플리케이션을 구축하는 데 사용된다. 핵심 설계 목표는 단순성, 경량화, 그리고 Kafka의 서버 측 통합을 통한 강력한 장애 허용성을 제공하는 것이다.

주요 특징으로는 Kafka의 내장된 저장소를 상태 관리의 백엔드로 활용하는 상태 저장 처리를 들 수 있다. 이를 통해 로컬 상태 저장소(RocksDB)를 사용하면서도 상태 변경 로그를 Kafka 토픽에 지속적으로 기록하여 장애 복구와 애플리케이션 인스턴스 간 상태 이관을 가능하게 한다. 또한, 정확히 한 번 의미론을 기본적으로 지원하여 메시지 중복 처리나 손실 없이 신뢰성 있는 처리를 보장한다. 개발자는 고수준의 DSL(도메인 특화 언어) 또는 저수준의 Processor API를 선택하여 유연하게 애플리케이션을 개발할 수 있다.

다른 주요 프레임워크와 비교했을 때, Apache Kafka Streams는 독립적인 클러스터 관리자가 필요 없는 라이브러리 방식이라는 점이 두드러진다. 애플리케이션의 확장은 단순히 동일한 애플리케이션 인스턴스를 추가함으로써 이루어지며, Kafka 자체의 파티션 메커니즘이 작업 분산을 담당한다. 이 아키텍처는 운영 복잡성을 줄이지만, 클라이언트 라이브러리이므로 애플리케이션 배포와 모니터링은 사용자의 책임이다.

특징	설명
아키텍처	클라이언트 라이브러리 (별도 클러스터 불필요)
상태 관리	내장된 Kafka 토픽을 변경 로그로 활용
장애 허용성	기본 제공되는 정확히 한 번 의미론
처리 보장	적어도 한 번, 정확히 한 번
주요 사용 사례	실시간 ETL, 이벤트 기반 마이크로서비스, 실시간 모니터링

4.3. Apache Spark Streaming

Apache Spark Streaming은 Apache Spark 코어 엔진을 기반으로 하는 확장 가능한 고처리량의 실시간 스트림 처리 라이브러리이다. 이 프레임워크는 마이크로 배치(Micro-batch)라는 처리 모델을 채택하여, 연속적인 데이터 스트림을 작은 고정 크기의 시간 간격(예: 1초, 2초)으로 나눈 배치로 처리한다. 각 시간 간격 동안 수집된 데이터는 RDD로 변환되어 Spark 코어 엔진에 의해 처리되며, 결과는 다시 일괄적으로 출력된다. 이 방식은 배치 처리와 스트림 처리를 통합된 API로 프로그래밍할 수 있게 해주는 장점이 있다.

Spark Streaming의 주요 구성 요소는 DStream(Discretized Stream)이다. DStream은 연속적인 RDD 시퀀스로 표현되며, 사용자는 map, reduce, join, window 등의 고수준 연산을 DStream에 적용할 수 있다. 이러한 연산은 내부적으로 각 배치 RDD에 적용되어 결과 DStream을 생성한다. 또한 Structured Streaming이라는 진화된 API를 제공하여, 배치 처리용 DataFrame 및 Dataset API와 동일한 프로그래밍 모델을 스트리밍 작업에 적용할 수 있게 한다. Structured Streaming은 이벤트 시간 기반 처리, 윈도우 연산, 정확히 한 번 의미론을 더욱 명확하게 지원한다.

Spark Streaming은 다양한 데이터 소스와 싱크를 지원하며, 장애 허용성을 보장한다. 주요 특징은 다음과 같다.

특징	설명
처리 모델	마이크로 배치 (Structured Streaming은 연속 처리 모드도 지원[2])
API 수준	DStream(저수준 RDD 기반), Structured Streaming(고수준 DataFrame 기반)
통합성	Spark SQL, MLlib, GraphX와의 긴밀한 통합으로 배치, 대화형, 머신러닝 작업을 하나의 애플리케이션으로 결합 가능
장애 복구	RDD 계보(Lineage) 정보와 체크포인팅을 통해 데이터 손실 없이 복구 지원
주요 데이터 소스	[[Apache Kafka

이 프레임워크는 초당 수십만 개의 레코드를 처리할 수 있는 높은 처리량을 가지지만, 마이크로 배치 모델의 특성상 지연 시간이 일반적으로 다른 순수 스트리밍 프레임워크보다 높은 편이다. 따라서 초저지연 처리가 필수적인 사용 사례보다는, 준실시간(near-real-time) 분석, 로그 집계, 상태 모니터링 등에 널리 사용된다.

5. 처리 연산

처리 연산은 실시간 스트림 처리 시스템이 이벤트 스트림에 적용하는 핵심 변환 로직을 의미한다. 이 연산들은 연속적인 데이터 흐름을 변환, 필터링, 결합 또는 집계하여 의미 있는 정보를 추출한다. 주요 연산은 크게 윈도우 연산, 조인 연산, 집계 연산으로 구분된다.

윈도우 연산은 무한한 스트림을 유한한 크기의 청크로 나누어 처리하기 위한 핵심 메커니즘이다. 시간 또는 데이터 개수를 기준으로 윈도우를 정의하며, 각 윈도우 내의 데이터에 대해 계산을 수행한다. 주요 윈도우 유형은 다음과 같다.

윈도우 유형	설명	예시
고정 윈도우	미리 정의된 고정된 시간 간격(틱)으로 윈도우를 생성한다.	5분마다 집계
슬라이딩 윈도우	고정된 크기의 윈도우가 일정한 간격으로 슬라이딩되며, 이벤트가 여러 윈도우에 속할 수 있다.	지난 10분 동안의 데이터를 1분마다 계산
세션 윈도우	사용자 활동의 비활성 기간을 기준으로 동적으로 윈도우를 생성한다.	웹사이트 사용자 세션 분석

조인 연산은 두 개 이상의 스트림이나 하나의 스트림과 정적 데이터셋(예: 참조 데이터)을 결합한다. 스트림 조인은 시간적 제약이 존재하며, 일반적으로 이벤트 시간을 기반으로 수행된다. 스트림-스트림 조인은 양쪽 스트림에서 도착하는 이벤트를 일치시키고, 스트림-테이블 조인은 스트림의 각 레코드에 대해 외부 테이블의 현재 상태를 조회하여 정보를 보강한다.

집계 연산은 윈도우 내 또는 키별로 데이터를 요약하는 연산이다. 합계, 평균, 최솟값, 최댓값, 카운트와 같은 통계적 계산이 여기에 속한다. 집계는 상태를 유지해야 하므로 효율적인 상태 관리가 중요하다. 이러한 연산들은 Apache Flink나 Apache Kafka Streams와 같은 프레임워크에서 선언적 API를 통해 제공되며, 개발자는 복잡한 분산 처리 로직보다는 비즈니스 로직에 집중할 수 있다.

5.1. 윈도우 연산

윈도우 연산은 무한한 이벤트 스트림을 유한한 단위로 나누어 처리하기 위한 핵심 기법이다. 이 연산을 통해 시간 경과에 따른 데이터의 추세, 패턴, 또는 집계 값을 계산할 수 있다. 윈도우는 일반적으로 시간(예: 5분) 또는 데이터의 개수(예: 100개)를 기준으로 정의된다.

주요 윈도우 유형은 다음과 같다.

윈도우 유형	설명	특징
틀린 윈도우 (Tumbling Window)	고정된 크기의 겹치지 않고 연속적인 윈도우	예: 매 정시부터 1시간 동안의 데이터 집계
슬라이딩 윈도우 (Sliding Window)	고정된 크기와 간격으로 이동하는 윈도우. 윈도우 간에 중복이 발생할 수 있음	예: 지난 10분 동안의 데이터를 1분마다 계산
세션 윈도우 (Session Window)	사용자 활동의 비활성 기간(갭)을 기준으로 동적으로 생성되는 윈도우	사용자 세션 분석에 적합하며, 윈도우 크기가 가변적임

윈도우 연산의 구현은 워터마크와 타임스탬프 추출과 밀접한 관련이 있다. 워터마크는 스트림 내에서 시간의 진행을 추적하고, "지연 데이터"의 처리를 결정하는 메커니즘을 제공한다. 이를 통해 시스템은 윈도우의 종료 시점을 판단하고 결과를 산출할 수 있다. 윈도우 연산은 실시간 분석, 모니터링, 사기 탐지 등 다양한 사용 사례에서 데이터의 시간적 의미를 활용하는 데 필수적이다.

5.2. 조인 연산

실시간 스트림 처리에서 조인 연산은 두 개 이상의 이벤트 스트림 또는 하나의 스트림과 정적 데이터셋을 결합하는 작업을 의미한다. 배치 처리의 조인과 개념적으로 유사하지만, 데이터가 무한하고 연속적으로 도착한다는 점에서 훨씬 복잡한 도전 과제를 제시한다. 스트림 조인의 핵심은 시간의 개념을 명시적으로 고려하여, 관련 이벤트가 서로 다른 시간에 도착하더라도 올바르게 매칭하는 것이다.

스트림 조인은 주로 조인 대상과 시간 범위에 따라 분류된다. 주요 유형은 다음과 같다.

조인 유형	설명	일반적인 사용 사례
스트림-스트림 조인	두 개의 무한한 이벭트 스트림을 실시간으로 결합한다. 양쪽 스트림의 이벤트가 도착하는 시간 차이를 처리하기 위해 윈도우 연산이 필수적으로 사용된다.	사용자 클릭 스트림과 구매 스트림을 결합하여 클릭-구매 전환율을 실시간 계산.
스트림-테이블 조인	하나의 이벤트 스트림과 키-값 저장소 같은 정적 데이터셋 또는 느리게 변화하는 차원 테이블을 조인한다. 스트림의 각 이벤트는 조인 시점의 테이블 스냅샷을 기준으로 조회된다.	실시간 거래 스트림을 고객 프로필 정보가 담긴 데이터베이스와 조인.
테이블-테이블 조인	두 개의 동적 테이블을 조인한다. 여기서 동적 테이블은 스트림의 [[상태 관리	상태]]를 테이블 형태로 유지한 것으로, 상태 변경 로그 스트림을 기반으로 조인이 이루어진다.

스트림-스트림 조인을 구현할 때는 이벤트 시간과 처리 시간의 차이, 지연 도착 데이터 처리, 그리고 상태 저장에 대한 부담이 주요 고려 사항이다. 이를 위해 슬라이딩 윈도우나 세션 윈도우와 같은 윈도우를 정의하여 조인을 수행할 시간적 범위를 제한한다. 또한, 장애 허용성을 보장하기 위해 조인에 사용된 상태는 체크포인팅 메커니즘을 통해 안정적으로 유지되어야 한다.

5.3. 집계 연산

집계 연산은 스트림 처리에서 연속적인 데이터 스트림을 요약된 형태로 변환하는 핵심 연산이다. 이 연산은 개별 이벤트를 그룹화하여 합계, 평균, 최댓값, 최솟값, 카운트 등의 통계적 결과를 실시간으로 생성한다. 집계는 일반적으로 윈도우 연산과 결합되어 특정 시간 또는 개수 기반의 범위 내에서 데이터를 그룹화하고 요약한다.

집계 연산의 주요 유형은 다음과 같다.

연산 유형	설명	예시
카운트(Count)	지정된 조건 내의 이벤트 수를 센다.	1분당 거래 건수
합계(Sum)	숫자형 필드의 값을 모두 더한다.	10초간 총 매출액
평균(Average)	숫자형 필드 값의 평균을 계산한다.	시간당 평균 센서 온도
최댓값/최솟값(Max/Min)	그룹 내 최대 또는 최소 값을 찾는다.	일일 최고 주가

집계 연산의 결과는 종종 상태 관리가 필요한 상태 저장(stateful) 연산이다. 예를 들어, 이동 평균을 계산하려면 이전 윈도우의 결과나 개별 값들을 유지해야 한다. 이러한 상태는 메모리나 외부 저장소에 보관되며, 장애 허용성을 보장하기 위해 체크포인팅 메커니즘을 통해 주기적으로 저장된다. 집계는 실시간 분석 대시보드, 이상 징후 탐지, IoT 데이터 처리에서의 요약 지표 생성 등 다양한 사용 사례의 기초를 이룬다.

6. 장애 허용성

장애 허용성은 실시간 스트림 처리 시스템이 구성 요소의 장애가 발생하더라도 정상적으로 작동을 계속하고 데이터 손실이나 중복 처리를 방지하는 능력을 의미한다. 지속적으로 흐르는 데이터를 처리하는 환경에서는 서버 장애, 네트워크 문제, 소프트웨어 결함 등이 빈번하게 발생할 수 있으므로, 이를 견디고 복구할 수 있는 메커니즘은 시스템의 신뢰성을 보장하는 핵심 요소이다.

주요 장애 허용 메커니즘으로는 체크포인팅이 널리 사용된다. 이는 처리 중인 애플리케이션의 상태(예: 윈도우 연산의 중간 결과, 조인 연산을 위한 내부 테이블)를 주기적으로 안정적인 저장소(예: 분산 파일 시스템)에 스냅샷으로 저장하는 기술이다. 시스템에 장애가 발생하면 가장 최근의 체크포인트로부터 상태를 복원하고 해당 지점부터 처리를 재개함으로써, 장애 발생 시점 이후의 데이터만 재처리하면 된다. 이를 통해 처음부터 모든 데이터를 다시 처리하는 비효율성을 피할 수 있다.

장애 허용성의 중요한 목표는 데이터 처리의 의미론을 보장하는 것이다. 주요 의미론은 다음과 같다.

의미론	설명	보장 수준
최대 한 번	장애 시 데이터가 손실될 수 있음. 처리 속도는 빠르지만 신뢰성 낮음.	낮음
적어도 한 번	장애 시 데이터가 중복 처리될 수 있음. 대부분의 시스템의 기본 보장.	중간
정확히 한 번	장애 시에도 각 데이터가 정확히 한 번만 처리됨을 보장. 가장 엄격한 의미론.	높음

정확히 한 번 의미론을 구현하기 위해서는 체크포인팅과 함께 분산 트랜잭션 로그를 이용한 이디엠포턴트 연산 설계, 또는 투페이즈 커밋 프로토콜과 같은 기법이 종합적으로 사용된다. 예를 들어, Apache Flink는 체크포인트와 상태 백엔드를 결합하여 정확히 한 번 처리를 제공하는 반면, Apache Kafka Streams는 트랜잭션 프로듀서와 컨슈머 오프셋 관리를 통해 이를 달성한다.

6.1. 체크포인팅

체크포인팅은 실시간 스트림 처리 시스템이 장애 발생 시 상태를 복구하고 데이터 처리를 중단 지점부터 재개할 수 있도록, 주기적으로 애플리케이션 상태의 일관된 스냅샷을 안정적인 저장소에 저장하는 메커니즘이다. 이는 시스템이 장애 허용성을 갖추는 데 필수적인 요소이다. 스트림 처리 작업은 종종 시간에 따른 집계 연산이나 윈도우 연산을 수행하며 내부 상태를 유지하는데, 체크포인트 없이 프로세스가 실패하면 이 상태 정보가 손실되어 데이터 처리가 부정확해지거나 처음부터 다시 시작해야 할 수 있다.

체크포인트 생성 과정은 일반적으로 분산 스냅샷 알고리즘을 기반으로 한다. Apache Flink 같은 프레임워크에서는 Chandy-Lamport 알고리즘의 변형을 사용한다. 이 과정은 데이터 소스에 특수한 체크포인트 장벽 마커를 주입하는 것으로 시작한다. 이 장벽은 일반 데이터 레코드와 함께 처리 파이프라인을 따라 흐르며, 각 연산자가 장벽을 수신하면 자신의 현재 상태(예: 키별 누적값, 열린 윈도우 버퍼)를 분산 파일 시스템이나 다른 안정적인 저장소에 기록한다. 모든 연산자가 자신의 상태를 성공적으로 저장하면 체크포인트가 완료된 것으로 표시된다.

체크포인트의 구성 요소와 저장 정보는 다음과 같다.

구성 요소	저장 내용
연산자 상태	사용자 정의 상태(예: 집계값), 시스템 상태(예: 윈도우 버퍼, 타임스탬프)
데이터 소스 오프셋	Apache Kafka 토픽의 읽기 위치나 파일의 읽은 바이트 위치
메타데이터	체크포인트 ID, 생성 시간, 저장 경로

장애 발생 시, 시스템은 가장 최근에 성공적으로 완료된 체크포인트를 로드한다. 모든 연산자는 저장된 상태로 복원되고, 데이터 소스는 기록된 오프셋 위치부터 레코드를 다시 읽기 시작한다. 이를 통해 체크포인트 생성 시점의 애플리케이션 상태로 정확히 롤백하여, 그 이후의 데이터부터 처리를 재개할 수 있다. 이 메커니즘은 정확히 한 번 의미론을 보장하는 기반이 된다.

체크포인트 간격은 성능과 복구 시간 사이의 트레이드오프를 결정한다. 짧은 간격은 장애 시 재처리해야 할 데이터 양을 줄여 복구 시간을 단축시키지만, 상태를 자주 저장하는 오버헤드로 인해 시스템의 전체 처리량에 영향을 줄 수 있다. 따라서 애플리케이션의 지연 시간 요구사항과 데이터 중요도에 따라 적절한 간격을 설정해야 한다.

6.2. 정확히 한 번 의미론

정확히 한 번 의미론은 스트림 처리 시스템이 각 이벤트를 중복 없이 정확히 한 번만 처리함을 보장하는 데이터 처리의 신뢰성 수준을 의미한다. 이는 데이터 손실이나 중복 처리가 발생할 경우 심각한 문제를 초래할 수 있는 금융 거래, 주문 처리, 정산 시스템과 같은 애플리케이션에서 필수적이다. 이를 달성하기 위해서는 소스에서의 데이터 수집, 처리 엔진 내부의 상태 관리, 싱크로의 결과 출력 전 과정에 걸쳐 일관성을 유지하는 메커니즘이 필요하다.

이를 구현하는 주요 방법은 체크포인팅과 저널링을 결합하는 것이다. 처리 엔진은 주기적으로 연산 상태의 스냅샷을 내결함성 저장소에 저장한다. 장애 발생 시, 시스템은 마지막으로 일관성이 보장된 체크포인트로부터 상태를 복원하고, 소스로부터 해당 지점 이후의 데이터를 재처리한다. 이때, 멱등성 연산을 적용하거나 트랜잭션 로그를 이용해 출력 결과의 중복 생성을 방지한다.

의미론	설명	장단점
최대 한 번	이벤트가 손실될 수는 있지만, 중복 처리는 절대 발생하지 않음.	구현이 단순하고 처리 속도가 빠르지만, 데이터 신뢰성이 낮음.
적어도 한 번	이벤트가 한 번 이상 처리될 수 있어 중복이 발생할 수 있지만, 손실은 보장되지 않음.	데이터 손실은 없으나, 결과의 정확성을 위해 애플리케이션 수준에서 중복 제거가 필요할 수 있음.
정확히 한 번	각 이벤트가 중복 없이 정확히 한 번만 처리됨을 보장함.	구현이 복잡하고 성능 오버헤드가 있지만, 가장 높은 수준의 데이터 정확성을 제공함.

Apache Flink와 Apache Kafka는 트랜잭션 기반의 출력과 분산 스냅샷 메커니즘을 통해 정확히 한 번 의미론을 네이티브로 지원하는 대표적인 시스템이다. 반면, Apache Spark Streaming과 같은 마이크로 배치 기반 모델은 추가적인 구성이나 애플리케이션 로직을 통해 유사한 수준의 보장을 달성할 수 있다.

7. 성능 최적화

성능 최적화는 실시간 스트림 처리 시스템의 핵심 목표 중 하나로, 낮은 지연 시간과 높은 처리량을 동시에 달성하는 것을 목표로 한다. 이러한 최적화는 하드웨어 리소스 활용, 소프트웨어 아키텍처, 그리고 데이터 처리 로직 전반에 걸쳐 이루어진다. 시스템의 효율성은 최종 사용자에게 제공되는 데이터의 신선도와 시스템의 확장성에 직접적인 영향을 미친다.

지연 시간 최소화를 위해서는 데이터가 소스에서 생성된 후 처리 파이프라인을 거쳐 목적지에 도달하기까지 걸리는 시간을 줄이는 전략이 필요하다. 이를 위해 이벤트 스트림의 배치 처리 대신 레코드 단위 또는 마이크로 배치 방식의 처리를 채택할 수 있다. 또한, 네트워크 홉을 줄이고 병목 현상을 방지하기 위해 처리 노드들을 물리적으로 가까이 배치하거나, Apache Kafka와 같은 메시지 큐의 파티션 수와 컨슈머 그룹 구성을 최적화한다. 메모리 내 상태 관리와 효율적인 윈도우 연산 알고리즘도 지연 시간 감소에 기여한다.

처리량 향상을 위해서는 시스템이 단위 시간당 처리할 수 있는 이벤트 수를 극대화해야 한다. 주요 기법으로는 병렬화가 있다. 스트림을 여러 파티션으로 분할하고 각 파티션을 독립적인 태스크에서 병렬 처리하면 처리량을 선형적으로 증가시킬 수 있다. 상태 백엔드의 선택도 중요하며, Apache Flink의 경우 메모리, 파일 시스템, 혹은 전문적인 외부 데이터베이스를 상태 저장소로 활용할 수 있다. 적절한 체크포인팅 간격 설정은 장애 복구 오버헤드를 줄여 처리량 저하를 방지한다.

최적화 목표	주요 전략	관련 기술/개념
지연 시간 최소화	마이크로 배치 처리, 네트워크 최적화, 메모리 내 처리	이벤트 타임, 처리 타임, Apache Kafka Streams
처리량 향상	파티셔닝과 병렬 처리, 효율적인 상태 백엔드 사용, 체크포인트 간격 조정	수평 확장, 키 기반 그룹화, Apache Spark Streaming의 배치 간격

성능 튜닝은 특정 사용 사례와 데이터 패턴에 크게 의존한다. 예를 들어, IoT 데이터 처리처럼 초당 수백만 개의 작은 이벤트를 처리하는 경우와 실시간 분석처럼 복잡한 집계를 수행하는 경우의 최적화 포인트는 다르다. 따라서 시스템 모니터링 지표(처리 지연, 백프레셔, CPU/메모리 사용률)를 지속적으로 관찰하고 구성 파라미터를 실험적으로 조정하는 것이 일반적이다.

7.1. 지연 시간 최소화

지연 시간 최소화는 실시간 스트림 처리 시스템의 핵심 성능 목표 중 하나로, 데이터가 발생한 시점부터 처리되어 결과가 도출되기까지 걸리는 시간을 최대한 줄이는 것을 의미한다. 낮은 지연 시간은 금융 거래 모니터링, 사기 탐지, 실시간 추천 시스템과 같이 즉각적인 대응이 요구되는 사용 사례에서 필수적이다.

지연 시간을 줄이기 위한 주요 접근법은 처리 파이프라인의 각 단계를 최적화하는 것이다. 이는 이벤트 스트림의 수집, 처리, 출력 단계에서 발생하는 대기 시간을 줄이는 것을 포함한다. 예를 들어, Apache Kafka와 같은 고성능 메시지 큐를 사용하여 데이터 수집 지연을 최소화하거나, Apache Flink와 같은 프레임워크에서 마이크로 배치 대신 진정한 스트리밍 모델을 채택하여 처리 지연을 줄일 수 있다.

또한, 시스템 설계 시 고려해야 할 요소는 다음과 같다.

최적화 요소	설명	예시 기법
데이터 국소성	연산을 수행하는 노드와 데이터가 위치한 노드 간의 거리를 최소화한다.	태스크를 데이터 파티션과 동일한 물리적 노드에 배치[3].
비동기 처리	I/O 작업 시 블로킹을 피하고 비동기 방식을 사용한다.	네트워크 호출이나 디스크 쓰기를 비동기 논블로킹 방식으로 처리.
자원 관리	병목 현상을 일으키는 컴포넌트에 충분한 컴퓨팅 자원을 할당한다.	CPU, 메모리, 네트워크 대역폭 모니터링 및 동적 할당.
백프레셔 처리	빠른 생산자와 느린 소비자 문제로 인한 지연을 방지한다.	시스템이 과부하 상태일 때 데이터 유입 속도를 제어하는 백프레셔 메커니즘 적용.

최종적으로, 지연 시간과 처리량은 상충 관계에 있는 경우가 많으므로, 애플리케이션의 요구사항에 따라 적절한 트레이드오프를 찾는 것이 중요하다. 지연 시간을 극단적으로 낮추려면 일부 데이터 정확성을 희생하거나 처리량을 제한해야 할 수 있으며, 반대로 높은 처리량을 위해 일정 수준의 지연을 허용할 수도 있다.

7.2. 처리량 향상

처리량 향상은 실시간 스트림 처리 시스템이 단위 시간당 더 많은 이벤트 스트림을 처리할 수 있도록 하는 최적화 활동이다. 높은 처리량은 대규모 데이터 소스를 다루는 현대 애플리케이션에서 필수적이다. 이를 달성하기 위한 주요 기법으로는 병렬화, 파티셔닝, 효율적인 상태 관리, 그리고 적절한 자원 할당이 있다.

병렬 처리는 처리량 향상의 핵심이다. Apache Flink나 Apache Spark Streaming과 같은 프레임워크는 스트림을 여러 파티션으로 분할하고, 각 파티션을 독립적인 작업자 노드에서 병렬로 처리한다. 데이터 소스인 Apache Kafka의 토픽 파티션 수와 처리 애플리케이션의 병렬도를 적절히 조정하는 것이 중요하다. 또한, 연산 체인을 최적화하여 불필요한 네트워크 셔플링을 줄이고, 연산자 체이닝을 통해 데이터를 가능한 한 같은 작업자 내에서 처리하도록 구성한다.

효율적인 상태 백엔드 선택과 압축도 처리량에 영향을 미친다. 메모리 기반 상태 백엔드는 빠르지만 제한적이며, 체크포인팅 시 오버헤드가 발생할 수 있다. 대규모 상태를 다룰 때는 로컬 디스크나 분산 키-값 저장소를 활용하는 것이 안정적인 처리량을 유지하는 데 도움이 된다. 상태 데이터에 압축을 적용하면 네트워크 전송 및 디스크 I/O 부하를 줄일 수 있다. 배치 처리와 마이크로 배치 처리의 균형을 맞추는 것도 중요하다. 너무 작은 배치 크기는 스케줄링 오버헤드를 증가시키고, 너무 큰 배치 크기는 지연 시간을 증가시킬 수 있다.

최적화 기법	설명	처리량 영향
수평적 확장	작업자 노드를 추가하여 병렬 처리 용량 증가	직접적, 선형적 증가 기대
파티셔닝 전략	키 기반 파티셔닝으로 데이터 스큐 방지 및 부하 분산	균일한 처리 보장
상태 압축	상태 정보를 압축하여 I/O 및 네트워크 부하 감소	간접적, 자원 효율성 향상
배치 크기 조정	마이크로 배치의 크기를 처리량과 지연 시간 사이에서 최적화	오버헤드와 효율성의 균형

시스템 모니터링을 통해 병목 현상을 지속적으로 식별하고 튜닝하는 작업이 필요하다. CPU 사용률, 가비지 컬렉션 빈도, 네트워크 대역폭, 그리고 백프레셔 신호는 처리량 제한의 주요 원인을 파악하는 데 도움이 되는 지표이다.

8. 사용 사례

실시간 스트림 처리는 데이터 스트림이 생성되는 즉시 분석하고 처리하여 빠른 의사 결정을 가능하게 한다. 이 기술은 다양한 산업 분야에서 실시간 인사이트와 자동화된 응답이 요구되는 핵심적인 사용 사례에 적용된다.

주요 사용 사례는 다음과 같다.

사용 사례	설명	예시
실시간 분석	로그 데이터, 클릭스트림, 애플리케이션 성능 관리 데이터를 실시간으로 집계하고 시각화한다.	대시보드에 실시간 사용자 활동 수, 시스템 오류율, 트래픽 지표를 표시한다.
사기 탐지	금융 거래, 로그인 시도 등의 스트림에서 비정상적인 패턴을 즉시 식별하여 차단한다.	신용카드의 비정상적인 지리적 위치에서의 연속 결제를 실시간으로 탐지한다.
IoT 데이터 처리	센서와 연결된 장치에서 발생하는 대량의 시계열 데이터를 처리하고 모니터링한다.	공장 장비의 진동 데이터를 분석하여 예측 정비를 수행하거나, 스마트 그리드에서 에너지 소비를 최적화한다.

이 외에도 추천 시스템에서 사용자 상호작용을 기반으로 실시간 추천을 갱신하거나, 네트워크 모니터링에서 이상 트래픽을 탐지하는 데 활용된다. 규정 준수와 보안 정보 및 이벤트 관리 분야에서는 시스템 로그를 지속적으로 분석하여 위반 사항이나 침해 사고를 신속하게 발견한다. 이러한 사례들은 데이터의 가치가 시간에 따라 급격히 떨어지는 환경에서, 실시간 스트림 처리가 비즈니스 민첩성과 운영 효율성을 높이는 핵심 인프라로 자리 잡았음을 보여준다.

8.1. 실시간 분석

실시간 분석은 실시간 스트림 처리 기술의 대표적인 적용 분야로, 데이터가 생성되는 즉시 분석하여 통찰력을 도출하는 것을 목표로 한다. 이는 기존의 배치 처리 방식과 근본적으로 다르며, 데이터의 신선도와 분석 결과의 즉시 활용 가능성에 중점을 둔다. 실시간 분석은 운영 의사결정, 이상 감지, 사용자 행동 추적 등 시간에 민감한 다양한 비즈니스 요구를 충족시킨다.

실시간 분석의 핵심은 스트리밍 데이터에 대한 연속적인 쿼리와 집계를 수행하는 것이다. 일반적인 처리 파이프라인은 데이터 수집, 실시간 처리, 결과 저장 및 시각화 단계로 구성된다. 예를 들어, 웹사이트나 모바일 애플리케이션에서 발생하는 사용자 클릭스트림을 실시간으로 수집하여, 현재 활성 사용자 수(Active Users), 인기 상품, 지역별 트래픽 패턴 등을 초 단위로 계산하고 대시보드에 표시할 수 있다. 이를 위해 윈도우 연산은 특정 시간 간격(예: 1분 슬라이딩 윈도우) 내의 데이터를 집계하는 데 필수적이다.

주요 사용 사례로는 실시간 대시보드, 알림 시스템, A/B 테스트 모니터링 등이 있다. 금융 분야에서는 주가 변동이나 거래 데이터를 실시간으로 분석하여 이상 거래를 탐지한다. e-커머스에서는 사용자의 탐색 및 구매 패턴을 실시간으로 분석해 개인화된 추천을 즉시 제공한다. 또한, 로그 분석을 통해 IT 인프라의 상태를 모니터링하고 장애 징후를 조기에 발견하는 데에도 널리 사용된다.

실시간 분석을 구현할 때는 지연 시간과 처리량 사이의 트레이드오프를 고려해야 한다. 매우 낮은 지연 시간을 요구하는 분석은 이벤트 시간 처리와 워터마크 메커니즘을 정확히 구성해야 하며, 높은 처리량을 위해선 시스템의 병렬 처리 능력이 중요하다. Apache Flink, Apache Kafka Streams 같은 스트림 처리 프레임워크는 이러한 요구사항을 지원하는 내장 연산자와 상태 관리 기능을 제공한다.

8.2. 사기 탐지

사기 탐지는 실시간 스트림 처리 기술의 대표적인 응용 분야이다. 신용카드 결제, 온라인 뱅킹 거래, 보험 청구와 같은 이벤트 스트림을 지속적으로 모니터링하여 비정상적이고 의심스러운 패턴을 즉시 식별하고 차단하는 것을 목표로 한다. 배치 처리 방식은 사후 분석에 그치기 때문에 실제 피해가 발생한 후에야 탐지가 가능한 반면, 스트림 처리는 수 초 내에 의심 거래를 판단하여 실시간으로 경고를 발생시키거나 거래를 중단할 수 있다.

이를 위해 시스템은 윈도우 연산을 활용해 짧은 시간 동안의 거래 빈도, 지리적 위치 이동의 비정상성, 평소와 다른 구매 패턴 등을 분석한다. 예를 들어, 동일한 카드로 짧은 시간 내에 지리적으로 멀리 떨어진 지역에서 연속 결제가 발생하거나, 평소보다 훨씬 큰 금액의 거래가 감지되면 사기 가능성으로 플래그가 지정된다. 이러한 판단은 사전 정의된 규칙 기반 시스템이나 머신 러닝 모델을 스트림 처리 파이프라인에 통합하여 수행된다.

스트림 기반 사기 탐지 시스템의 효과성은 낮은 지연 시간과 높은 정확도에 달려 있다. 따라서 Apache Flink나 Apache Kafka Streams와 같은 프레임워크는 정확히 한 번 의미론을 보장하여 거래 이벤트가 중복 처리되거나 누락되지 않도록 하며, 상태 관리를 통해 사용자별 과거 행동 프로필을 실시간으로 유지하고 업데이트한다. 이는 단일 거래의 이상 여부뿐만 아니라, 시간에 따른 행동 변화를 추적하는 데 필수적이다.

탐지 유형	설명	사용되는 스트림 연산 예시
속도 기반 탐지	단시간 내 비정상적으로 높은 거래 빈도 탐지	슬라이딩 윈도우를 이용한 카운트 집계
이상치 탐지	평소 소비 패턴에서 벗어난 금액 또는 상품 카테고리 탐지	사용자 프로필 상태와의 실시간 비교
시퀀스 패턴 탐지	의심스러운 거래 시퀀스(예: 소액 테스트 후 대액 거래) 탐지	복잡한 이벤트 처리(CEP)

이러한 시스템은 금융 기관의 손실을 방지할 뿐만 아니라, 합법적인 고객의 거래 경험을 보호하는 데도 기여한다. 잘못된 차단(False Positive)을 최소화하면서도 진짜 위협을 빠르게 잡아내기 위해 처리 로직과 모델은 지속적으로 개선되고 있다.

8.3. IoT 데이터 처리

사물인터넷 섹서, 스마트 장치, 산업 장비 등에서 생성되는 대규모 이벤트 스트림을 처리하는 데 실시간 스트림 처리는 핵심 기술로 활용된다. IoT 환경은 데이터의 양, 속도, 다양성이 매우 높은 특징을 가지며, 이러한 데이터를 지연 없이 분석하여 즉각적인 통찰이나 자동화된 조치를 가능하게 한다.

주요 처리 패턴으로는 장애 감지, 예측 유지보수, 실시간 모니터링 등이 있다. 예를 들어, 공장의 센서 데이터를 스트림 처리하여 이상 진동이나 온도 상승을 감지하면 장비 고장 전에 조치를 취할 수 있다. 또한, 스마트 시티에서는 교통 흐름, 에너지 소비, 환경 데이터를 실시간으로 집계하여 신호 제어나 자원 배분을 최적화한다.

처리 대상	분석 목적	일반적인 응답 조치
센서 원시 데이터(온도, 압력 등)	이상치 탐지, 임계값 초과 판단	경고 알림 생성, 장비 정지
장치 위치 및 상태 데이터	자산 추적, 활용도 분석	대시보드 업데이트, 보고서 생성
시계열 이벤트 스트림	패턴 인식, 추세 예측	유지보수 일정 자동 조정

이러한 처리를 구현하기 위해 Apache Flink나 Apache Kafka Streams 같은 프레임워크가 널리 사용된다. 이들은 분산 환경에서 장애 허용성과 낮은 지연 시간을 보장하며, 윈도우 연산을 통해 특정 시간 간격별로 데이터를 집계하거나 조인 연산을 통해 여러 데이터 소스를 결합하는 작업을 수행한다. 결과는 실시간 대시보드, 알림 시스템, 또는 다른 애플리케이션으로 전달되어 폐쇄 루프 제어 시스템을 완성한다.

실시간 스트림 처리

정의	데이터가 생성되는 즉시 또는 매우 짧은 지연 시간 내에 연속적인 데이터 스트림을 처리하는 컴퓨팅 패러다임
목적	실시간 인사이트 도출, 이상 감지, 즉각적인 의사결정 지원
대표 처리 모델	람다 아키텍처, 카파 아키텍처
주요 처리 방식	이벤트 단위 처리, 마이크로 배치 처리
핵심 특성	저지연, 고가용성, 확장성, 정확성
주요 응용 분야	사기 탐지, 주식 거래, IoT 모니터링, 실시간 추천
기술 상세 정보
배치 처리와의 차이점	지연 시간(스트림: 밀리초~초 / 배치: 분~시간), 데이터 범위(스트림: 무한 / 배치: 유한), 트리거(스트림: 이벤트 도착 / 배치: 스케줄)
주요 기술적 과제	무한 데이터 처리, 상태 관리, 장애 복구, 정확한 시간 처리, 정확히 한 번 처리 보장
대표 프레임워크/플랫폼	Apache Flink, Apache Kafka Streams, Apache Spark Streaming, Apache Storm, Amazon Kinesis
핵심 연산	필터링, 변환, 집계(슬라이딩 윈도우, 튜블링 윈도우, 세션 윈도우), 조인
시간 개념	이벤트 시간, 처리 시간, 수집 시간
아키텍처 패턴	스트림-테이블 듀얼리티, CDC, 이벤트 소싱
데이터 소스	로그 파일, 센서 데이터, 클릭스트림, 메시지 큐, 데이터베이스 변경 로그
데이터 싱크	데이터 웨어하우스, OLAP 시스템, 대시보드, 알림 시스템, 다른 스트림
장점	실시간성, 빠른 피드백 루프, 리소스 효율성(증분 처리)
단점/한계	복잡한 구현과 운영, 상태 관리의 어려움, 정확도와 지연 시간 간의 트레이드오프