Azure Data Factory (r1)

1. 개요

마이크로소프트가 제공하는 마이크로소프트 애저 플랫폼의 핵심 클라우드 데이터 통합 서비스이다. ETL 및 ELT 워크플로를 구축, 예약, 오케스트레이션하기 위한 서버리스 데이터 파이프라인을 생성하는 데 사용된다. 주된 용도는 다양한 소스와 대상 간의 데이터 이동, 복잡한 데이터 변환 처리, 그리고 종합적인 데이터 오케스트레이션을 자동화하는 것이다.

이 서비스는 코드를 거의 또는 전혀 작성하지 않고도 시각적으로 데이터 파이프라인을 설계할 수 있도록 하여, 데이터 엔지니어링 작업을 단순화한다. 사용자는 그래픽 인터페이스를 통해 파이프라인을 구성하고, 광범위한 내장 커넥터를 활용해 온프레미스와 클라우드 데이터 저장소를 연결하며, 데이터 처리 작업을 예약 및 모니터링할 수 있다. 이는 빅데이터 프로젝트와 현대적인 데이터 플랫폼 구축에 필수적인 도구로 자리 잡았다.

Azure Data Factory는 완전 관리형 서비스로서, 사용자가 인프라를 프로비저닝하거나 관리할 필요 없이 데이터 통합 솔루션에 집중할 수 있게 한다. 서비스의 확장성과 유연성은 소규모 데이터 전송부터 대규모 엔터프라이즈급 데이터 웨어하우스 구축에 이르기까지 다양한 시나리오에 적용 가능하게 한다.

2. 주요 구성 요소

2.1. 파이프라인

파이프라인은 Azure Data Factory에서 작업의 논리적 그룹핑을 정의하는 기본 단위이다. 하나의 파이프라인은 여러 개의 활동을 포함할 수 있으며, 이러한 활동들은 순차적 또는 병렬적으로 실행되도록 구성되어 하나의 작업 단위를 형성한다. 파이프라인은 데이터 이동, 데이터 변환, 제어 흐름을 오케스트레이션하는 컨테이너 역할을 한다.

파이프라인 내부의 활동 실행 순서는 의존성 체인과 제어 흐름 활동을 통해 정의된다. 예를 들어, 한 활동의 성공적인 완료가 다음 활동 실행의 조건이 되도록 설정하거나, 반복 실행이 필요한 작업에 대해 ForEach 활동을 사용할 수 있다. 이를 통해 복잡한 ETL 또는 ELT 프로세스를 단일 파이프라인으로 설계하고 관리할 수 있다.

파이프라인은 트리거에 의해 실행되도록 스케줄링될 수 있으며, 수동으로 실행할 수도 있다. 실행 시 각 활동의 상태와 세부 정보는 Azure Data Factory의 모니터링 허브를 통해 실시간으로 추적 가능하다. 파이프라인과 그 내부 활동은 JSON 형식의 스크립트로 정의되며, Azure Portal의 시각적 작성 도구 또는 코드 기반 편집기를 통해 작성 및 관리된다.

파이프라인을 사용함으로써 데이터 엔지니어는 데이터 웨어하우스, 데이터 레이크, 다양한 SaaS 애플리케이션 간의 데이터 흐름을 자동화된 워크플로로 구성할 수 있다. 이는 빅데이터 처리, 보고서 자동 생성, 기계 학습 모델 재학습 파이프라인 구동 등 다양한 데이터 오케스트레이션 시나리오의 핵심이 된다.

2.2. 활동

활동은 파이프라인 내에서 수행되는 개별 처리 단위이다. 이는 데이터를 이동하거나 변환하는 작업의 기본 구성 요소로, 복사 활동이나 데이터 흐름 실행과 같은 단일 작업을 나타낸다. 하나의 파이프라인은 순차적, 병렬적 또는 조건부로 실행될 수 있는 여러 활동을 포함할 수 있으며, 이를 통해 복잡한 데이터 오케스트레이션 워크플로를 구축한다.

활동은 크게 데이터 이동, 데이터 변환, 제어 활동의 세 가지 주요 범주로 구분된다. 데이터 이동 활동에는 복사 활동이 대표적이며, 다양한 온프레미스 및 클라우드 데이터 저장소 간에 데이터를 복사하는 역할을 한다. 데이터 변환 활동에는 코드 없는 ETL 환경을 제공하는 데이터 흐름 실행, 애저 데이터브릭스 또는 애저 HD인사이트 클러스터에서 작업을 실행하는 활동 등이 포함된다.

제어 활동은 파이프라인의 실행 흐름을 관리하는 데 사용된다. 여기에는 다른 활동의 실행을 반복하는 ForEach 활동, 조건에 따라 다른 활동 분기를 실행하는 If 조건 활동, 다른 파이프라인을 실행하는 파이프라인 실행 활동, 일정 시간 동안 실행을 지연시키는 대기 활동 등이 있다. 이러한 활동들을 조합하여 비즈니스 로직에 맞는 유연한 워크플로를 설계할 수 있다.

각 활동은 고유한 구성 속성 집합을 가지며, 데이터 세트와 연결된 서비스를 참조하여 실행에 필요한 데이터 소스 및 대상을 지정한다. 활동의 실행은 트리거에 의해 시작되거나 수동으로 실행될 수 있으며, 실행 결과와 성능 메트릭은 애저 데이터 팩토리의 모니터링 도구를 통해 추적 및 관리된다.

2.3. 데이터 세트

데이터 세트는 Azure Data Factory에서 처리하는 데이터의 구조와 위치를 정의하는 명명된 뷰이다. 이는 데이터가 저장된 원본과 대상의 데이터 구조를 가리키는 포인터 역할을 하며, 데이터 자체를 저장하지는 않는다. 데이터 세트는 데이터의 형태, 형식, 위치, 스키마 등의 속성을 정의하여 파이프라인의 활동이 데이터를 올바르게 읽고 쓸 수 있도록 한다. 예를 들어, Azure Blob Storage의 특정 컨테이너와 폴더를 가리키는 데이터 세트를 생성하여 복사 활동의 원본이나 대상으로 사용할 수 있다.

데이터 세트는 다양한 형식과 저장소를 지원한다. 지원되는 데이터 저장소에는 관계형 데이터베이스인 Azure SQL Database, SQL Server, Oracle Database부터 Amazon S3와 같은 클라우드 객체 스토리지, Apache Hive를 사용하는 Hadoop 분산 파일 시스템, 그리고 JSON이나 Parquet 같은 파일 형식이 포함된다. 각 데이터 세트는 연결된 서비스와 연결되어 특정 데이터 저장소에 대한 연결 정보를 참조한다.

데이터 세트 정의에는 스키마, 구조, 속성 등의 메타데이터가 포함된다. 구조는 열 이름, 데이터 타입 등을 정의하며, Azure Data Factory는 많은 데이터 원본에서 이 스키마를 자동으로 유추할 수 있다. 또한 데이터 세트는 동적 경로와 파일 이름을 지원하기 위해 파이프라인 매개변수 및 시스템 변수와 함께 사용될 수 있어, 시간 분할 데이터나 증분 데이터 로드와 같은 시나리오를 구현하는 데 유용하다.

2.4. 연결된 서비스

연결된 서비스는 Azure Data Factory에서 외부 데이터 원본 또는 컴퓨팅 리소스에 대한 연결 정보를 정의하는 구성 요소이다. 이는 파이프라인 내의 활동이 외부 서비스에 접근하기 위해 필요한 인증 자격 증명과 연결 문자열을 캡슐화한다. 연결된 서비스는 데이터 저장소, 서버리스 컴퓨팅 서비스, SaaS 애플리케이션 등 다양한 대상과의 연결을 추상화하여 재사용성을 높인다.

주요 데이터 저장소 연결 대상으로는 Azure Blob Storage, Azure Data Lake Storage Gen2, Azure SQL Database, Azure Synapse Analytics, Amazon S3 등이 포함된다. 또한 Azure HDInsight, Azure Databricks, Azure Machine Learning과 같은 컴퓨팅 서비스에 대한 연결을 정의하여 데이터 변환 작업을 오케스트레이션할 수 있다. 각 연결된 서비스는 해당 서비스의 특성에 맞는 인증 방식을 지원하며, 대표적으로 계정 키, 서비스 주체, 관리 ID, 공유 액세스 서명 등을 사용한다.

연결된 서비스는 데이터 세트와 함께 작동하여 데이터의 구조와 위치를 정의한다. 데이터 세트가 데이터의 구조를 가리킨다면, 연결된 서비스는 데이터가 상주하는 실제 서비스 인스턴스에 대한 연결 경로를 제공한다. 이 분리는 동일한 Azure SQL Database 인스턴스에 연결하지만 서로 다른 테이블을 참조하는 여러 데이터 세트가 하나의 연결된 서비스를 공유할 수 있게 하여 관리 효율성을 높인다.

2.5. 통합 런타임

통합 런타임은 Azure Data Factory 및 Azure Synapse Analytics에서 데이터 통합 기능을 실행하기 위한 컴퓨팅 인프라를 제공하는 핵심 구성 요소이다. 이 런타임은 데이터 이동, 변환 활동, 파이프라인 오케스트레이션을 수행하는 데 필요한 계산 환경을 추상화하고 관리한다. 통합 런타임은 다양한 네트워킹 요구사항과 데이터 접근 정책을 수용할 수 있도록 여러 유형으로 구분된다.

주요 유형으로는 Azure 통합 런타임, 자체 호스팅 통합 런타임, Azure-SSIS 통합 런타임이 있다. Azure 통합 런타임은 완전 관리형 서비스로, 클라우드 데이터 저장소 간의 데이터 이동과 퍼블릭 네트워크를 통해 접근 가능한 컴퓨팅 서비스에 대한 작업 디스패치에 사용된다. 자체 호스팅 통합 런타임은 온프레미스 네트워크 또는 가상 네트워크 내부에 설치되어, 방화벽 뒤의 데이터 원본이나 제한된 네트워크 환경의 리소스에 접근할 수 있게 한다. Azure-SSIS 통합 런타임은 애저에서 완전 관리형 SQL Server Integration Services 엔진을 호스팅하여 기존 SSIS 패키지를 리프트 앤 시프트 방식으로 실행할 수 있는 플랫폼을 제공한다.

통합 런타임의 선택은 데이터 원본과 대상의 위치, 네트워크 보안 요구사항, 수행할 작업의 성격에 따라 결정된다. 예를 들어, 온프레미스 데이터베이스와 애저 Blob 스토리지 간 데이터 복사는 자체 호스팅 통합 런타임을 통해 이루어질 수 있다. 각 통합 런타임은 확장성과 고가용성을 지원하며, Azure Portal을 통해 중앙에서 쉽게 구성하고 모니터링할 수 있다.

2.6. 트리거

Azure Data Factory에서 파이프라인 실행을 자동화하기 위해 사용되는 구성 요소이다. 파이프라인을 특정 일정에 따라 또는 특정 이벤트가 발생했을 때 자동으로 시작하도록 예약할 수 있다. 이를 통해 데이터 통합 작업을 완전히 자동화된 방식으로 운영할 수 있으며, 데이터 엔지니어링 프로세스에서 수동 개입을 최소화하는 데 핵심적인 역할을 한다.

주요 트리거 유형으로는 일정 트리거와 이벤트 기반 트리거가 있다. 일정 트리거는 크론 표현식과 유사한 방식으로 분, 시, 일, 주, 월 단위의 반복 실행을 설정하는 데 사용된다. 이벤트 기반 트리거에는 저장소 이벤트 트리거가 대표적이며, Azure Blob Storage나 Azure Data Lake Storage 같은 연결된 서비스의 컨테이너에 파일이 생성되거나 삭제되는 이벤트를 감지하여 파이프라인을 실행한다.

트리거는 활성화되면 파이프라인 실행을 생성하며, 각 실행은 고유한 실행 ID를 가진다. 트리거의 상태(활성/비활성)를 관리하고, 실행 기록을 확인하며, 필요에 따라 트리거를 일시 중지할 수 있다. 또한, Azure Monitor와의 통합을 통해 트리거 실행 성공 또는 실패에 대한 알림을 설정하고 모니터링 대시보드를 구성할 수 있다.

3. 데이터 이동 및 변환

3.1. 복사 활동

복사 활동은 Azure Data Factory 파이프라인 내에서 가장 기본적이고 핵심적인 활동 중 하나이다. 이 활동의 주요 목적은 다양한 소스 데이터 저장소에서 싱크 데이터 저장소로 데이터를 복사하는 것이다. 복사 활동은 ETL 또는 ELT 프로세스에서 '추출'과 '적재' 단계를 담당하며, 데이터 이동 작업의 근간을 이룬다.

복사 활동은 매우 광범위한 커넥터를 지원하여 온-프레미스 데이터베이스, 클라우드 기반 스토리지, SaaS 애플리케이션 등 90개 이상의 데이터 저장소 간에 데이터를 이동시킬 수 있다. 지원되는 소스와 싱크에는 Azure Blob Storage, Azure Data Lake Storage, Azure SQL Database, Amazon S3, 오라클, MySQL, Salesforce 등이 포함된다. 이를 통해 하이브리드 및 다중 클라우드 환경의 데이터 통합을 가능하게 한다.

이 활동은 데이터를 이동하는 동안 기본적인 변환 작업도 수행할 수 있다. 예를 들어, 열 매핑을 통해 소스와 대상의 스키마 차이를 조정하거나, 파일 형식을 변환하며, 압축 및 압축 해제를 지원한다. 그러나 복잡한 데이터 변환 처리는 주로 데이터 흐름 활동을 통해 이루어진다. 복사 활동의 성능은 통합 런타임, 특히 자체 호스팅 통합 런타임이나 Azure Integration Runtime의 성능 및 구성에 크게 영향을 받는다.

복사 활동의 구성은 주로 소스 데이터셋, 싱크 데이터셋, 그리고 두 저장소를 연결하는 연결된 서비스를 정의하는 것으로 이루어진다. 사용자는 데이터 필터링, 병렬 복사 설정, 오류 처리 정책 등을 추가로 구성하여 데이터 이동 작업의 효율성과 견고성을 높일 수 있다.

3.2. 데이터 흐름

데이터 흐름은 Azure Data Factory에서 코드 없는 방식으로 데이터 변환 로직을 설계하고 실행하기 위한 기능이다. 이는 시각적 디자이너를 통해 ETL 또는 ELT 프로세스를 구축할 수 있게 해주며, 사용자는 드래그 앤 드롭 방식으로 복잡한 데이터 변환을 구성할 수 있다. 데이터 흐름은 파이프라인 내의 하나의 활동으로 실행되며, 내부적으로 Apache Spark 클러스터를 활용하여 대규모 데이터 처리 작업을 분산 처리한다.

데이터 흐름은 주로 스키마 드리프트를 자동으로 처리하고, 조인, 집계, 피벗, 데이터 정렬 등 다양한 변환 작업을 지원한다. 사용자는 SQL과 유사한 스크립팅 언어나 시각적 인터페이스를 통해 데이터 매핑 규칙을 정의할 수 있어, 전통적인 코딩 없이도 데이터 품질 관리 및 데이터 웨어하우스 구축 작업을 수행할 수 있다. 이는 빅데이터 환경에서 반복적이고 복잡한 데이터 변환 작업을 자동화하는 데 적합하다.

데이터 흐름 활동은 파이프라인에 통합되어 실행되며, 다양한 Azure 데이터 저장소(예: Azure Data Lake Storage, Azure Synapse Analytics) 및 온-프레미스 데이터 소스와 연결하여 데이터를 읽고 쓸 수 있다. 실행은 통합 런타임, 특히 Azure Integration Runtime을 통해 관리되며, 필요에 따라 컴퓨팅 리소스의 크기와 수를 동적으로 조정할 수 있다.

3.3. 외부 활동 실행

Azure Data Factory의 파이프라인은 복사 활동이나 데이터 흐름 외에도 외부 컴퓨팅 서비스에서 실행되는 작업을 오케스트레이션할 수 있다. 이를 위해 주로 저장 프로시저 활동, 사용자 지정 활동, 그리고 웹 활동이 활용된다. 이러한 활동들은 파이프라인 내에서 데이터 처리의 일부 단계를 외부 리소스에 위임함으로써 확장성을 제공한다.

저장 프로시저 활동은 Azure SQL Database나 Azure Synapse Analytics와 같은 서비스에서 미리 정의된 SQL 저장 프로시저를 실행하는 데 사용된다. 이는 데이터 변환 로직이 데이터베이스 내에 있을 때, 또는 특정 데이터베이스 작업을 트리거해야 할 때 유용하다. 웹 활동은 Azure Functions, Azure Logic Apps, 또는 공개적으로 접근 가능한 REST 엔드포인트를 호출하여 사용자 지정 코드나 외부 프로세스를 실행할 수 있다.

보다 복잡한 사용자 지정 처리를 위해서는 사용자 지정 활동을 사용할 수 있다. 이 활동은 사용자가 작성한 코드를 Azure Batch 서비스의 컴퓨팅 풀에서 실행한다. 이를 통해 머신 러닝 모델 채점, 이미지 처리, 또는 특정 프로그래밍 언어로 작성된 강력한 데이터 변환 작업과 같은 작업을 수행할 수 있다. 모든 외부 활동의 실행 상태, 성공 또는 실패는 Azure Data Factory의 모니터링 인터페이스를 통해 중앙에서 추적 및 관리된다.

이러한 외부 활동 실행 기능은 Azure Data Factory를 단순한 데이터 이동 도구를 넘어서, 다양한 클라우드 서비스와 사용자 정의 코드를 통합하는 포괄적인 데이터 오케스트레이션 플랫폼으로 만드는 핵심 요소이다.

4. 모니터링 및 관리

4.1. Azure Monitor 통합

Azure Data Factory는 Azure Monitor와의 긴밀한 통합을 통해 파이프라인 실행의 상태, 성능, 상태를 포괄적으로 모니터링하고 관리할 수 있다. 이 통합은 데이터 통합 작업의 가시성을 높이고 문제를 신속하게 진단하며 운영 효율성을 개선하는 데 핵심적인 역할을 한다.

Azure Data Factory는 파이프라인 및 활동 실행의 성공, 실패, 지연 시간과 같은 메트릭과 로그를 Azure Monitor로 자동으로 내보낸다. 이를 통해 사용자는 Azure Monitor의 통합 대시보드를 활용하여 모든 데이터 팩토리의 상태를 한눈에 확인할 수 있으며, 중요한 이벤트에 대한 경고를 설정하여 사전에 대응할 수 있다. 예를 들어, 파이프라인 실패 횟수가 임계값을 초과하거나 실행 시간이 비정상적으로 길어지는 경우 팀에 즉시 알림을 전송할 수 있다.

이러한 모니터링 데이터는 Azure Monitor의 핵심 기능인 로그 분석과 Application Insights를 통해 심층적으로 분석될 수 있다. 사용자는 Kusto 쿼리 언어를 사용하여 복잡한 쿼리를 작성하여 특정 시간대의 오류 패턴을 조사하거나, 다양한 활동 유형 간의 성능을 비교하는 등 맞춤형 인사이트를 도출할 수 있다. 또한, 수집된 로그와 메트릭을 기반으로 대시보드를 구축하여 주요 비즈니스 인텔리전스 지표를 시각적으로 추적하는 것도 가능하다.

Azure Monitor 통합은 Azure Data Factory의 운영을 안정화하고 서비스 수준 계약을 준수하는 데 필수적이다. 이를 통해 데이터 엔지니어는 단순한 작업 모니터링을 넘어 데이터 파이프라인의 전반적인 건강 상태를 지속적으로 관리하고, 데이터 품질과 배치 처리의 신뢰성을 보장할 수 있다.

4.2. ADF 모니터링 허브

Azure Data Factory의 모니터링 허브는 파이프라인 실행의 상태, 성능 및 문제를 중앙에서 확인하고 관리할 수 있는 통합된 포털 인터페이스다. 이 허브는 데이터 통합 작업의 전반적인 건강 상태를 실시간으로 가시화하며, 사용자가 생성한 모든 파이프라인, 활동, 트리거의 실행 기록과 세부 로그를 한눈에 탐색할 수 있도록 설계되었다. 주요 기능으로는 실행 목록 필터링, 실패한 활동의 빠른 진단, 실행 기간 및 대기 시간과 같은 성능 메트릭 확인 등이 포함된다.

모니터링 허브에서는 다양한 관점에서 데이터를 분석할 수 있다. '파이프라인 실행' 보기를 통해 특정 파이프라인의 모든 실행 이력을 시간순으로 조회하고, '활동 실행' 보기에서는 개별 활동의 입력/출력 데이터와 오류 메시지를 상세히 검토할 수 있다. 또한 '트리거 실행' 보기를 통해 예약된 트리거나 이벤트 기반 트리거가 정상적으로 발동했는지 추적한다. 이러한 보기들은 서로 연결되어 있어, 파이프라인 실행 실패 시 관련된 활동과 트리거를 신속하게 드릴다운하여 근본 원인을 찾는 데 도움을 준다.

사용자는 그래픽 인터페이스를 통해 직관적으로 모니터링할 뿐만 아니라, REST API를 활용하여 모니터링 데이터를 자동으로 수집하고 Azure Monitor나 타사 모니터링 도구와 통합할 수 있다. 이를 통해 기업의 중앙화된 IT 운영 대시보드에 Azure Data Factory의 운영 상태를 통합하거나, 사용자 지정 알림 및 자동화 워크플로를 구축하는 것이 가능하다. 모니터링 허브는 복잡한 데이터 오케스트레이션 환경에서 필수적인 투명성과 제어 기능을 제공한다.

5. 보안 및 네트워킹

5.1. 관리 ID

Azure Data Factory는 데이터 파이프라인에서 다른 Azure 리소스에 안전하게 접근하기 위해 관리 ID를 활용한다. 관리 ID는 Azure Active Directory에서 자동으로 관리되는 ID로, 개발자가 코드나 구성 파일에 자격 증명을 저장할 필요 없이 Azure Key Vault, Azure SQL Database, Azure Blob Storage와 같은 서비스에 인증할 수 있게 해준다. 이는 보안을 강화하고 비밀 관리의 운영 부담을 줄이는 데 핵심적이다.

Azure Data Factory에는 시스템 할당 관리 ID와 사용자 할당 관리 ID라는 두 가지 유형의 관리 ID가 있다. 시스템 할당 관리 ID는 데이터 팩터리 리소스와 직접 연결되어 있으며, 팩터리가 삭제되면 함께 삭제된다. 반면 사용자 할당 관리 ID는 독립적인 Azure 리소스로 생성되어 하나 이상의 데이터 팩터리 인스턴스에 할당할 수 있어 더 유연한 관리가 가능하다. 이 관리 ID는 연결된 서비스 구성 시 인증 방법으로 선택되어 사용된다.

주요 사용 사례로는 Azure 리소스에 대한 인증이 있다. 예를 들어, 관리 ID를 사용하여 Azure Blob Storage 컨테이너나 Azure Data Lake Storage Gen2의 데이터에 접근하거나, Azure SQL Database에 쿼리를 실행할 수 있다. 또한 관리 ID는 Azure Key Vault에 저장된 비밀, 키, 인증서를 안전하게 검색하는 데 사용되어, 파이프라인 활동에서 필요한 민감한 연결 문자열이나 암호를 노출시키지 않고 가져올 수 있다.

이러한 방식으로 관리 ID는 Azure Data Factory 파이프라인의 보안 모델을 근본적으로 단순화한다. 자격 증명을 하드코딩하거나 수동으로 순환할 필요가 없어지므로, 보안 위험을 줄이고 규정 준수 요구 사항을 충족하는 데 도움이 된다.

5.2. 프라이빗 엔드포인트

Azure Data Factory에서 프라이빗 엔드포인트는 가상 네트워크 내의 서브넷에 할당된 사설 IP 주소를 통해 서비스에 안전하게 연결할 수 있게 해주는 네트워킹 구성 요소이다. 이를 통해 퍼블릭 인터넷을 통한 데이터 트래픽을 제거하고, 마이크로소프트 애저 백본 네트워크 내의 프라이빗 연결을 통해 데이터 통합 작업의 보안을 강화한다. 프라이빗 엔드포인트를 사용하면 데이터 팩토리와 연결된 서비스가 지원되는 데이터 저장소 간의 통신이 노출되지 않도록 할 수 있다.

프라이빗 엔드포인트를 구성하면 특정 데이터 팩토리 인스턴스에 대한 DNS 확인이 공용 IP 주소 대신 사설 IP 주소로 변환된다. 이는 복사 활동이 Azure Blob Storage나 Azure SQL Database 같은 원본 또는 싱크 데이터 저장소에 접근할 때, 그리고 자체 호스팅 통합 런타임이 클라우드 서비스에 연결할 때 적용된다. 결과적으로 데이터 이동과 파이프라인 실행 트래픽이 완전히 격리된 네트워크 경로를 통해 이루어지게 되어, 데이터 유출 위험을 줄이고 기업의 네트워크 보안 정책을 준수하는 데 도움이 된다.

이 기능은 특히 금융, 의료, 정부와 같이 높은 수준의 데이터 프라이버시와 규제 준수가 요구되는 산업의 사용 사례에 적합하다. 프라이빗 엔드포인트는 가상 네트워크 서비스 엔드포인트와 함께 또는 대체하여 사용될 수 있으며, 두 방식 모두 퍼블릭 엔드포인트에 대한 액세스를 제한하는 데 기여한다. 관리자는 Azure Portal, Azure PowerShell, Azure CLI 또는 Azure Resource Manager 템플릿을 통해 프라이빗 엔드포인트를 생성하고 데이터 팩토리와 연결할 수 있다.

5.3. 가상 네트워크 서비스 엔드포인트

Azure Data Factory는 데이터 통합 작업의 보안을 강화하기 위해 가상 네트워크 서비스 엔드포인트를 지원한다. 서비스 엔드포인트는 가상 네트워크의 프라이빗 주소 공간과 마이크로소프트 애저 백본 네트워크를 통해 서비스에 대한 직접 연결을 제공함으로써, 데이터 이동 및 처리 시 발생할 수 있는 공용 인터넷 노출을 제한한다. 이를 통해 데이터 유출 위험을 줄이고 네트워크 보안 정책을 더욱 효과적으로 관리할 수 있다.

특히 Azure Data Factory의 통합 런타임이 Azure SQL Database나 Azure Storage와 같은 특정 애저 서비스와 통신할 때, 서비스 엔드포인트를 구성하면 해당 트래픽이 공용 인터넷을 경유하지 않고 애저의 백본 네트워크 내에서 안전하게 라우팅된다. 이는 규정 준수 요구사항이 엄격한 금융이나 의료 분야의 데이터 파이프라인 구축 시 중요한 보안 계층으로 작용한다.

서비스 엔드포인트 사용 시 고려해야 할 점은, 이 기능이 특정 애저 서비스 및 지역에서만 지원된다는 것이다. 또한 서비스 엔드포인트는 네트워크 격리를 제공하지만, 프라이빗 엔드포인트와 달리 서비스에 대한 완전한 프라이빗 IP 주소를 제공하지는 않는다. 따라서 데이터 소스와 싱크의 위치, 그리고 필요한 보안 수준에 따라 서비스 엔드포인트와 프라이빗 엔드포인트 중 적절한 방식을 선택해 구성해야 한다.

6. 통합 및 확장성

6.1. Azure 서비스 통합

Azure Data Factory는 마이크로소프트 애저 생태계 내 다양한 서비스들과 긴밀하게 통합되어 데이터 파이프라인을 구축하고 운영하는 데 필요한 기능을 제공한다. 이 통합은 데이터 수집, 처리, 분석, 저장의 전 과정을 효율적으로 연결하는 핵심 요소이다.

주요 통합 서비스로는 Azure Blob Storage, Azure Data Lake Storage Gen2와 같은 대용량 데이터 저장소, Azure Synapse Analytics, Azure SQL Database와 같은 데이터 웨어하우스 및 관계형 데이터베이스, 그리고 Azure Databricks, Azure HDInsight와 같은 빅데이터 처리 및 분석 서비스가 있다. 또한 Azure Functions나 Azure Batch를 통해 사용자 정의 코드를 실행하거나, Azure Logic Apps와 연동하여 비즈니스 프로세스를 자동화하는 것도 가능하다.

이러한 통합은 연결된 서비스와 데이터 세트를 통해 구성된다. 사용자는 각 애저 서비스에 대한 인증 정보를 연결된 서비스에 설정하고, 해당 서비스 내의 특정 데이터 구조(예: 테이블, 파일, 컨테이너)를 데이터 세트로 정의함으로써, 파이프라인 내의 활동들이 이들 서비스를 원본 또는 대상으로 자유롭게 활용할 수 있게 한다. 예를 들어, 복사 활동을 사용해 Azure SQL Database의 데이터를 Azure Synapse Analytics로 이동하거나, 데이터 흐름 활동에서 Azure Data Lake Storage의 파일을 변환 처리할 수 있다.

통합의 편의성은 Azure Portal 내의 통합된 관리 환경과 Azure Monitor를 통한 중앙 집중식 모니터링에서도 드러난다. 데이터 팩토리에서 실행되는 모든 파이프라인 작업은 애저의 통합 모니터링 도구를 통해 로그와 메트릭을 확인할 수 있으며, 이는 애저 기반의 데이터 플랫폼 운영을 단순화한다.

6.2. 사용자 지정 활동

사용자 지정 활동은 Azure Data Factory의 파이프라인 내에서 기본 제공 활동으로 처리할 수 없는 복잡한 변환 로직이나 외부 시스템의 특수한 작업을 실행하기 위한 확장 메커니즘이다. 사용자는 C#이나 .NET 프레임워크를 사용하여 자체적인 비즈니스 로직을 구현한 코드를 작성하고, 이를 Azure Batch 서비스의 컴퓨팅 풀에서 실행하도록 구성할 수 있다. 이는 데이터 변환 작업이 매우 특화되어 있거나, 기존 라이브러리나 SDK를 활용해야 하는 경우에 유용하다.

사용자 지정 활동을 구성하려면 먼저 사용자 코드를 Azure Blob Storage와 같은 저장소에 업로드해야 한다. 이후 파이프라인에서 이 활동을 정의할 때는 실행할 어셈블리 정보, 명령줄 인자, 그리고 연결된 Azure Batch 연결된 서비스를 지정한다. 작업이 실행되면 Azure Data Factory는 통합 런타임을 통해 Azure Batch에 작업을 제출하며, Azure Batch는 할당된 가상 머신 노드에서 사용자 코드를 다운로드하고 실행한 후 결과를 반환한다.

이 방식을 통해 Azure Data Factory는 R이나 Python 스크립트 실행, 복잡한 머신러닝 모델 추론, 또는 레거시 시스템과의 맞춤형 상호작용과 같은 광범위한 사용 사례를 지원할 수 있다. 따라서 사용자 지정 활동은 서비스의 강력한 기본 기능을 보완하며, 클라우드 환경에서 완전한 유연성을 갖춘 데이터 오케스트레이션 솔루션을 구축하는 데 핵심적인 역할을 한다.

7. 가격 모델

Azure Data Factory의 가격 모델은 사용한 만큼 지불하는 종량제 방식을 따르며, 크게 데이터 이동과 데이터 흐름 실행, 파이프라인 오케스트레이션 활동 실행에 대한 비용으로 구성된다. 데이터 이동 비용은 복사 활동을 통해 처리된 데이터의 양과 이동 방향(예: 애저 내부, 애저에서 온프레미스 등)에 따라 결정된다. 데이터 흐름 실행 비용은 변환 작업을 수행하는 데 사용된 vCore 시간과 메모리 최적화 코어 시간을 기준으로 청구된다.

파이프라인 오케스트레이션 비용은 파이프라인 내에서 데이터 이동이나 변환 외의 작업을 조정하는 활동의 실행 횟수에 따라 발생한다. 여기에는 웹 활동, 조회 활동, 메타데이터 활동 등의 실행이 포함된다. 또한 외부 컴퓨팅 서비스(예: Azure HDInsight, Azure Databricks, Azure Machine Learning)에서 실행되는 외부 활동에 대해서는 해당 서비스의 별도 요금이 적용된다.

Azure Data Factory는 무료 평가판을 제공하여 제한된 용량 내에서 서비스를 체험해 볼 수 있다. 정확한 요금은 마이크로소프트 애저 공식 웹사이트에 게시된 최신 가격표를 참조해야 하며, 애저 가격 계산기를 사용하여 예상 비용을 산출할 수 있다.

8. 사용 사례

Azure Data Factory는 다양한 산업과 시나리오에서 데이터 통합 작업을 자동화하고 오케스트레이션하는 데 널리 사용된다. 일반적인 사용 사례로는 데이터 웨어하우스 구축, 클라우드 마이그레이션 과정에서의 데이터 이전, 그리고 비즈니스 인텔리전스 및 보고서 생성을 위한 데이터 준비 파이프라인 구축이 있다. 또한 머신러닝 모델 학습을 위한 대규모 데이터 처리나 애플리케이션 간 데이터 동기화와 같은 복잡한 워크플로를 구성하는 데에도 적합하다.

특히 하이브리드 클라우드 환경에서 온프레미스 데이터 저장소와 클라우드 서비스를 연결하여 데이터를 이동 및 변환할 때 유용하다. 예를 들어, 회사 내부 SQL 서버에 저장된 거래 데이터를 정기적으로 추출하여 애저 SQL 데이터베이스로 복사하고, 애저 데이터 레이크 스토리지에 저장된 로그 파일과 결합한 후, 애저 시너피스 애널리틱스에서 분석할 수 있는 형태로 변환하는 종단간 파이프라인을 구축할 수 있다.

다른 주요 사용 사례는 실시간 분석을 지원하는 것이다. 이벤트 허브나 IoT 허브와 같은 스트리밍 소스에서 들어오는 데이터를 복사 활동으로 캡처하고, 매핑 데이터 흐름을 사용해 실시간에 가깝게 변환 및 정리한 후, 애저 코스모스 DB나 애저 SQL 데이터베이스와 같은 분석 저장소에 적재할 수 있다. 이를 통해 대시보드 업데이트나 실시간 의사결정 시스템에 필요한 최신 데이터를 제공한다.

또한, SAP, Oracle, Salesforce와 같은 기업 시스템과의 데이터 통합에도 활용된다. 표준 커넥터를 통해 이러한 시스템의 데이터를 안전하게 추출하여 애저 생태계의 다른 서비스로 전달할 수 있어, 기업 데이터의 통합된 뷰를 만들거나 디지털 전환 프로젝트를 지원하는 데 기여한다.

Azure Data Factory

개발사	마이크로소프트
분류	클라우드 데이터 통합 서비스 ETL(추출, 변환, 적재) ELT(추출, 적재, 변환)
주요 용도	데이터 이동 데이터 변환 데이터 오케스트레이션
플랫폼	마이크로소프트 애저
관련 분야	데이터 엔지니어링 데이터 파이프라인 빅데이터
상세 정보
핵심 구성 요소	파이프라인 액티비티 데이터셋 연결된 서비스 트리거 통합 런타임
지원 데이터 저장소	Azure SQL Database Azure Blob Storage Azure Data Lake Storage 온-프레미스 SQL Server 다양한 SaaS 애플리케이션 및 파일 형식
변환 활동	데이터 흐름 Hive Pig MapReduce Spark Stored Procedure
코드 없는/코드 우선 개발	시각적 도구를 통한 파이프라인 작성 SDK(예: .NET, Python)를 통한 프로그래밍 방식 작성 REST API를 통한 작성
모니터링 및 관리	Azure Portal Azure Monitor PowerShell REST API