공분산 행렬
1. 개요
1. 개요
공분산 행렬은 여러 확률 변수 간의 선형 관계를 나타내는 행렬이다. 통계학, 확률론, 선형대수학 등 여러 분야에서 중요한 도구로 사용된다. 이 행렬은 각 확률 변수의 분산과 변수 쌍 사이의 공분산을 체계적으로 정리한 것으로, 데이터의 구조와 변동성을 요약하는 역할을 한다.
주요 용도로는 확률 변수 간의 상관 관계 분석, 주성분 분석, 포트폴리오 이론, 가우시안 과정 등이 있다. 특히 주성분 분석에서는 데이터의 주요 변동 방향을 찾는 데 핵심적인 역할을 하며, 금융 분야의 포트폴리오 이론에서는 자산 간의 위험 관계를 정량화하는 데 활용된다.
공분산 행렬은 일반적으로 대문자 시그마(Σ)나 Cov(X, Y)와 같이 표기한다. 이는 분산-공분산 행렬이라고도 불리며, 밀접하게 관련된 개념으로 상관계수 행렬이 있다. 공분산 행렬의 대각선 요소는 각 확률 변수의 분산을, 비대각선 요소는 변수 쌍 간의 공분산을 나타낸다.
이 행렬은 다변량 정규 분포를 정의하는 핵심 매개변수이며, 머신러닝과 데이터 과학에서 공분산 추정과 모델링의 기초가 된다. 행렬의 성질, 특히 대칭성과 양의 준정부호성은 다양한 수학적 분석과 응용의 토대를 이룬다.
2. 정의
2. 정의
공분산 행렬은 여러 확률 변수 간의 선형적 관계를 요약하여 나타내는 정방행렬이다. 통계학과 확률론, 그리고 선형대수학에서 중요한 도구로 사용되며, 특히 다변량 데이터를 분석할 때 핵심적인 역할을 한다. 이 행렬은 각 확률 변수의 분산과 변수 쌍 사이의 공분산을 체계적으로 배열한 것이다.
구체적으로, p개의 확률 변수로 구성된 확률 벡터가 있을 때, 공분산 행렬은 p x p 크기를 가지며, 주대각선 요소들은 각 변수의 분산을, 비대각선 요소들은 서로 다른 두 변수 간의 공분산을 담고 있다. 공분산은 두 변수가 함께 어떻게 변하는지를 측정하는 지표로, 양의 값은 같은 방향으로 움직이는 경향을, 음의 값은 반대 방향으로 움직이는 경향을 나타낸다. 이 행렬은 일반적으로 그리스 문자 대문자 시그마(Σ)나 Cov(X)와 같이 표기한다.
공분산 행렬은 다변량 정규 분포를 정의하는 데 필수적인 매개변수이며, 주성분 분석 같은 차원 축소 기법의 기초가 된다. 또한 금융 분야의 포트폴리오 이론에서는 다양한 자산 수익률 간의 위험을 공분산 행렬을 통해 정량화한다. 머신러닝에서는 가우시안 과정 같은 모델에서 커널 함수를 구성하는 데 활용되기도 한다.
공분산 행렬과 밀접하게 관련된 개념으로는 각 변수의 표준편차로 정규화하여 범위를 [-1, 1]로 조정한 상관계수 행렬이 있다. 또한 단일 변수의 변동성을 측정하는 분산은 공분산 행렬에서 주대각선을 구성하는 특수한 경우로 볼 수 있다.
3. 계산 방법
3. 계산 방법
3.1. 표본 공분산 행렬
3.1. 표본 공분산 행렬
표본 공분산 행렬은 관측된 데이터로부터 계산된 공분산 행렬이다. 모집단의 공분산 행렬을 알 수 없는 경우, 표본 데이터를 사용하여 추정한다. 표본 공분산 행렬은 표본 공분산 값들을 모아 행렬 형태로 구성하며, 데이터의 각 변수 쌍 간의 선형 관계 방향과 강도를 요약한다. 이는 다변량 통계 분석의 기초가 되는 중요한 도구이다.
표본 공분산 행렬의 각 원소는 표본 공분산 공식으로 계산된다. 확률 변수 X와 Y에 대한 n개의 관측치가 있을 때, 표본 공분산은 각 변수의 표본 평균으로부터의 편차를 곱한 값들의 평균으로 구한다. 이때, 모집단의 불편 추정량을 얻기 위해 분모로 (n-1)을 사용하는 것이 일반적이다. 이렇게 계산된 값들을 행렬의 대각선과 비대각선에 배치하여 표본 공분산 행렬을 완성한다.
표본 공분산 행렬은 주성분 분석의 핵심 입력값으로 사용된다. 주성분 분석에서는 이 행렬의 고유값과 고유벡터를 계산하여 데이터의 주요 변동 방향을 찾아낸다. 또한, 금융공학에서 포트폴리오의 리스크를 평가하거나, 기계 학습에서 가우시안 과정과 같은 모델을 구축할 때도 표본 공분산 행렬이 활용된다.
3.2. 모 공분산 행렬
3.2. 모 공분산 행렬
모 공분산 행렬은 확률 변수의 확률 분포 자체에 의해 정의되는 이론적인 공분산 행렬이다. 이는 모집단 전체의 확률적 특성을 나타내는 행렬로, 실제 관측 데이터에서 계산되는 표본 공분산 행렬과 구분된다. 모 공분산 행렬은 일반적으로 그리스 대문자 시그마(Σ)로 표기하며, 확률 변수 벡터 X = (X1, X2, ..., Xp)에 대해 정의된다.
모 공분산 행렬 Σ의 각 (i, j)번째 원소 σ_ij는 두 확률 변수 Xi와 Xj 간의 모 공분산이다. 이 값은 각 변수의 기댓값을 사용하여 σ_ij = E[(Xi - μ_i)(Xj - μ_j)]로 계산된다. 여기서 μ_i와 μ_j는 각각 Xi와 Xj의 모평균이다. 행렬의 대각선 원소 σ_ii는 각 확률 변수 Xi 자체의 분산을 나타낸다.
이론적인 모수로서, 모 공분산 행렬은 실제로는 알 수 없는 경우가 많다. 따라서 통계 분석에서는 표본 데이터를 통해 표본 공분산 행렬을 계산하여 모 공분산 행렬 Σ를 추정한다. 모 공분산 행렬의 성질, 특히 대칭 행렬성과 양의 준정부호 행렬성은 다변량 통계 분석의 여러 기법들, 예를 들어 다변량 정규분포의 정의나 가설 검정의 기초가 된다.
4. 성질
4. 성질
4.1. 대칭성
4.1. 대칭성
공분산 행렬은 대칭 행렬이다. 이는 행렬의 주대각선을 기준으로 대칭되는 위치의 원소들이 서로 같다는 성질을 의미한다. 즉, i번째 확률 변수와 j번째 확률 변수 간의 공분산 Cov(X_i, X_j)는 j번째 확률 변수와 i번째 확률 변수 간의 공분산 Cov(X_j, X_i)와 항상 동일하다. 공분산의 정의 자체가 두 확률 변수의 편차 곱의 기댓값으로, 두 변수의 순서를 바꾸어도 그 값은 변하지 않기 때문이다.
이 대칭성은 공분산 행렬을 다루는 데 있어 중요한 수학적 단순화를 제공한다. 예를 들어, 행렬의 고유값 분해나 역행렬 계산과 같은 많은 선형대수학적 연산은 대칭 행렬일 때 더 효율적이고 안정적으로 수행될 수 있다. 또한, 주성분 분석이나 다변량 정규분포의 확률 밀도 함수를 모델링할 때, 이 대칭성을 전제로 하는 공식이 널리 사용된다.
대칭성은 공분산 행렬의 또 다른 핵심적인 성질인 양의 준정부호성과도 깊이 연관되어 있다. 대칭 행렬이기 때문에 그 고유값은 모두 실수이며, 이는 행렬이 양의 준정부호성을 검증하는 데 필수적인 조건이 된다. 이러한 성질들은 포트폴리오 이론에서 위험을 정량화하거나 가우시안 과정을 정의하는 데 기초가 된다.
4.2. 양의 준정부호성
4.2. 양의 준정부호성
공분산 행렬은 양의 준정부호 행렬의 중요한 예시이다. 이는 임의의 영벡터가 아닌 실수 열벡터를 곱했을 때 그 결과가 항상 0 이상의 값을 가진다는 성질을 의미한다. 수학적으로, 확률 벡터 $\mathbf{X}$의 공분산 행렬 $\Sigma$에 대해, 임의의 실수 벡터 $\mathbf{a}$에 대해 $\mathbf{a}^T \Sigma \mathbf{a} \ge 0$이 성립한다.
이 성질은 공분산 행렬이 분산의 다변량 확장이라는 개념에서 자연스럽게 유도된다. 벡터 $\mathbf{a}$와 확률 벡터 $\mathbf{X}$의 선형 결합 $\mathbf{a}^T \mathbf{X}$는 하나의 새로운 확률 변수를 만든다. 이 새로운 확률 변수의 분산은 $\mathbf{a}^T \Sigma \mathbf{a}$로 계산되며, 분산의 정의상 그 값은 항상 0 이상이어야 한다. 따라서 공분산 행렬은 양의 준정부호성을 만족한다.
양의 준정부호성은 공분산 행렬을 활용한 여러 통계적 방법론의 수학적 기초가 된다. 예를 들어, 주성분 분석에서는 공분산 행렬의 고유값과 고유벡터를 구하는데, 양의 준정부호성은 모든 고유값이 0 이상임을 보장한다. 또한 다변량 정규분포의 확률 밀도 함수를 정의할 때 공분산 행렬의 역행렬이 필요하며, 양의 준정부호성은 이 행렬이 가역행렬이 될 가능성을 높이는 조건이 된다.
5. 응용
5. 응용
5.1. 주성분 분석(PCA)
5.1. 주성분 분석(PCA)
주성분 분석(PCA)은 공분산 행렬의 고유값 분해를 기반으로 하는 차원 축소 기법이다. PCA의 핵심 목표는 데이터의 분산이 가장 큰 방향, 즉 주성분을 찾아내는 것이다. 이 과정에서 공분산 행렬은 데이터의 구조와 변수 간의 관계를 요약하는 핵심 정보를 제공한다.
PCA는 먼저 데이터의 공분산 행렬을 계산한다. 이후 이 행렬의 고유값과 고유벡터를 구한다. 고유값은 각 주성분 방향의 데이터 분산 크기를 나타내며, 고유벡터는 그 방향 자체를 결정한다. 가장 큰 고유값에 대응하는 고유벡터가 제1주성분이 되며, 이는 데이터가 가장 넓게 퍼져 있는 축을 의미한다.
이 기법은 기계 학습과 데이터 과학에서 널리 활용된다. 고차원 데이터의 시각화, 노이즈 제거, 특징 추출 등에 사용되며, 이미지 처리와 유전체학 같은 다양한 분야에서 복잡한 데이터를 이해하는 데 도움을 준다. PCA를 통해 원본 데이터의 정보를 최대한 보존하면서도 더 적은 수의 변수로 효율적으로 표현할 수 있다.
5.2. 다변량 정규분포
5.2. 다변량 정규분포
다변량 정규분포는 여러 개의 확률 변수로 구성된 확률 벡터가 따르는 분포로, 일변량 정규분포를 다차원으로 일반화한 것이다. 이 분포의 형태는 평균 벡터와 공분산 행렬에 의해 완전히 결정된다. 평균 벡터는 각 변수의 기댓값을, 공분산 행렬은 변수들 간의 선형적 상관 관계와 각 변수의 분산을 함께 담고 있어 분포의 모양과 방향을 규정하는 핵심 매개변수이다.
다변량 정규분포의 확률 밀도 함수는 공분산 행렬의 역행렬과 행렬식이 포함된 형태로 표현된다. 공분산 행렬이 대각 행렬인 경우, 이는 모든 변수 쌍의 공분산이 0임을 의미하며, 이때 각 변수는 서로 독립이다. 따라서 다변량 정규분포에서 변수들의 독립성은 공분산이 0인 것과 동치이다. 공분산 행렬이 양의 정부호 행렬이어야만 유효한 확률 분포를 정의할 수 있다.
이 분포는 회귀 분석, 기계 학습, 금융공학 등 다양한 분야에서 널리 응용된다. 특히 가우시안 프로세스나 칼만 필터와 같은 모델은 다변량 정규분포의 성질을 바탕으로 한다. 또한, 중심 극한 정리의 다변량 버전에 따르면, 독립적인 확률 벡터들의 합은 다변량 정규분포에 근사하게 된다.
5.3. 포트폴리오 이론
5.3. 포트폴리오 이론
포트폴리오 이론에서 공분산 행렬은 투자 위험을 정량화하고 분산 투자를 통한 위험 감소 효과를 분석하는 핵심 도구이다. 현대 포트폴리오 이론의 기초를 제공하는 해리 마코위츠의 평균-분산 모형은, 포트폴리오의 전체 위험을 단순히 개별 자산 분산의 합이 아닌 자산 간의 공분산을 고려하여 계산한다. 이때 각 자산의 분산과 모든 자산 쌍 간의 공분산을 체계적으로 정리한 것이 바로 공분산 행렬이다.
공분산 행렬을 사용하면 포트폴리오 전체의 분산(위험)을 정확히 계산할 수 있다. 예를 들어, 두 자산 A와 B로 구성된 포트폴리오의 위험은 각 자산의 투자 비중, 각 자산의 분산, 그리고 두 자산 간의 공분산으로 결정된다. 공분산 행렬은 이러한 정보를 모두 포함하며, 이를 통해 투자자들은 서로 다른 수익률 패턴을 보이는 자산(즉, 낮은 또는 음의 상관계수)을 조합함으로써 동일한 기대수익률 하에서 더 낮은 위험의 포트폴리오를 구성할 수 있다. 이 과정을 포트폴리오 최적화라고 한다.
개념 | 설명 | 공분산 행렬의 역할 |
|---|---|---|
포트폴리오 분산 | 포트폴리오 전체의 수익률 변동성(위험) | 계산의 핵심 입력값 제공 |
분산 투자 효과 | 상관관계가 낮은 자산을 섞어 위험을 줄이는 원리 | 자산 간 상관관계(공분산)를 수치화하여 효과를 정량 분석 |
효율적 프론티어 | 주어진 위험 수준에서 최대 기대수익률을 내는 포트폴리오 집합 | 최적화 알고리즘의 필수 구성 요소 |
따라서 금융 공학 및 위험 관리 분야에서 공분산 행렬의 정확한 추정은 매우 중요하다. 역사적 수익률 데이터를 바탕으로 표본 공분산 행렬을 계산하여 사용하지만, 데이터의 한계나 추정 오차를 보완하기 위해 다양한 정규화 기법이나 베이즈 추정 방법 등이 활용되기도 한다. 결국, 공분산 행렬은 금융 시장에서 '모든 위험은 홀로 존재하지 않는다'는 사실을 수학적으로 보여주는 근간이 된다.
6. 관련 개념
6. 관련 개념
6.1. 분산-공분산 행렬
6.1. 분산-공분산 행렬
분산-공분산 행렬은 여러 확률 변수 간의 선형적 관계를 요약하는 정방행렬이다. 이 행렬은 각 확률 변수의 분산을 대각선 요소에, 서로 다른 두 확률 변수 간의 공분산을 비대각선 요소에 배치하여 구성한다. 따라서 행렬의 대각선은 각 변수의 변동성을, 비대각선은 변수들 간의 공동 변동성을 나타낸다. 이 행렬은 다변량 통계 분석의 핵심 도구로, 변수들의 전체적인 상관 구조를 한눈에 파악할 수 있게 해준다.
분산-공분산 행렬의 표기로는 주로 대문자 그리스 문자 시그마(Σ)를 사용하며, 확률 변수 벡터 X에 대한 공분산 행렬은 Cov(X) 또는 Var(X)로 표기하기도 한다. 행렬의 각 요소 Σ_ij는 i번째 변수와 j번째 변수 사이의 공분산에 해당한다. 이 행렬은 대칭 행렬이며, 양의 준정부호 행렬이라는 중요한 수학적 성질을 가진다. 이러한 성질은 포트폴리오 이론에서 위험을 계산하거나 가우시안 과정을 정의하는 데 필수적인 조건이 된다.
분산-공분산 행렬은 주성분 분석의 기초가 된다. 주성분 분석은 데이터의 분산이 가장 큰 방향, 즉 공분산 행렬의 고유벡터를 찾아 차원을 축소하는 기법이다. 또한, 다변량 정규 분포를 완전히 정의하는 두 개의 매개변수는 평균 벡터와 바로 이 분산-공분산 행렬이다. 이는 다변량 데이터의 확률 분포를 모델링하는 데 있어 공분산 행렬이 중심 역할을 함을 보여준다.
분산-공분산 행렬과 밀접하게 관련된 개념으로 상관 행렬이 있다. 상관 행렬은 각 변수의 표준편차로 공분산을 표준화하여 계산한다. 따라서 상관 행렬의 대각선 요소는 모두 1이며, 비대각선 요소는 -1과 1 사이의 상관계수 값을 가진다. 분산-공분산 행렬은 원본 데이터의 스케일에 의존하는 반면, 상관 행렬은 스케일이 조정된 상대적 관계를 보여준다는 차이가 있다.
6.2. 상관계수 행렬
6.2. 상관계수 행렬
상관계수 행렬은 여러 확률 변수 간의 선형적 관계의 강도와 방향을 표준화된 형태로 나타내는 정방 행렬이다. 각 확률 변수의 분산이 서로 다를 경우, 공분산의 절대적 크기만으로는 관계의 강도를 직접 비교하기 어렵다. 상관계수 행렬은 각 변수를 표준편차로 나누어 표준화함으로써, 공분산의 크기 차이에서 기인하는 왜곡을 제거하고 순수한 선형 관계의 정도(-1에서 1 사이의 값)를 제공한다.
행렬의 각 요소는 피어슨 상관계수이며, 주대각선 요소는 각 변수 자신과의 상관계수이므로 항상 1의 값을 가진다. 주대각선을 제외한 비대각원소는 두 변수 간의 표본 상관계수 또는 모상관계수로 채워진다. 이 행렬은 대칭 행렬이며, 양의 준정부호 행렬의 성질을 가진다.
주성분 분석(PCA)에서는 데이터의 공분산 행렬 또는 상관계수 행렬의 고유값과 고유벡터를 계산하여 차원을 축소한다. 포트폴리오 이론에서는 여러 자산 수익률 간의 상관계수 행렬이 위험 분산 효과를 계산하는 데 핵심적인 입력값으로 사용된다. 또한, 다변량 정규분포를 정의할 때는 공분산 행렬 대신 상관계수 행렬과 각 변수의 표준편차를 함께 사용하기도 한다.
상관계수 행렬은 공분산 행렬과 밀접한 관계가 있다. 공분산 행렬을 각 변수의 표준편차로 구성된 대각 행렬로 나누어 변환하면 상관계수 행렬을 얻을 수 있다. 이 변환 과정을 통해, 서로 다른 단위나 스케일을 가진 변수들 간의 관계를 공정하게 비교 분석할 수 있는 기반이 마련된다.
6.3. 공분산과 상관계수의 관계
6.3. 공분산과 상관계수의 관계
공분산과 상관계수는 모두 두 확률 변수 간의 선형적 관계의 강도와 방향을 측정하는 지표이다. 공분산은 두 변수의 편차 곱의 평균으로 계산되며, 그 값의 범위는 마이너스 무한대에서 플러스 무한대까지이다. 반면, 상관계수는 공분산을 각 변수의 표준편차의 곱으로 나누어 표준화한 값으로, 그 범위는 -1부터 1 사이로 제한된다. 이 표준화 과정을 통해 상관계수는 척도에 의존하지 않는 순수한 관계의 강도를 제공한다.
두 개념의 핵심적인 관계는 상관계수가 공분산의 정규화된 버전이라는 점이다. 피어슨 상관 계수는 공분산을 두 변수의 표준편차의 곱으로 나눈 값으로 정의된다. 따라서 공분산의 부호는 상관계수의 부호와 항상 일치하며, 이는 관계의 방향(정적 또는 부적)을 나타낸다. 공분산의 절대값 크기는 변수들의 측정 단위(예: 미터, 킬로그램)에 크게 영향을 받지만, 상관계수는 단위에 무관한 무차원 수치이므로 서로 다른 데이터셋 간의 관계 강도를 직접 비교하는 데 유용하다.
실제 응용에서는 공분산 행렬과 상관 행렬이 함께 사용된다. 공분산 행렬은 변수들의 분산과 공분산을 포함하여 데이터의 전체적인 산포를 보여주는 반면, 상관 행렬은 모든 변수 쌍의 상관계수를 담고 있어 관계의 패턴을 해석하기 더 용이하다. 많은 다변량 통계 분석 기법에서는 데이터의 스케일을 맞추기 위해 공분산 행렬 대신 상관 행렬을 사용하기도 한다. 요약하면, 공분산은 관계의 원시적인 측정치이고, 상관계수는 이를 표준화하여 비교 가능하게 만든 지표라고 볼 수 있다.
7. 여담
7. 여담
공분산 행렬은 통계학과 선형대수학의 경계에 있는 중요한 개념으로, 다변량 분석의 핵심 도구이다. 이 행렬은 단순히 분산과 공분산을 모아놓은 것을 넘어, 데이터의 구조와 방향성을 행렬이라는 대수적 객체로 압축하여 표현한다는 점에서 의미가 깊다. 특히 주성분 분석에서는 데이터의 분산이 가장 큰 방향, 즉 주요 변동 축을 찾기 위해 공분산 행렬의 고유값과 고유벡터를 계산하는데, 이는 차원 축소와 패턴 인식의 기초가 된다.
공분산 행렬의 성질 중 대칭 행렬과 양의 준정부호 행렬이라는 특징은 수학적으로나 계산적으로 여러 이점을 제공한다. 대칭성 덕분에 고유값이 항상 실수이며, 고유벡터가 서로 직교한다는 성질을 활용할 수 있다. 또한 양의 준정부호성은 이 행렬로부터 정의되는 마할라노비스 거리가 항상 음이 아닌 값을 가짐을 보장하여, 군집 분석이나 이상치 탐지에 안정적으로 사용될 수 있게 한다.
실제 응용에서는 표본으로부터 계산된 표본 공분산 행렬이 모집단의 진짜 공분산 행렬을 얼마나 잘 추정하는지가 중요한 문제가 된다. 특히 변수의 수(차원)가 관측치의 수에 비해 많을 때, 즉 고차원 데이터에서는 추정의 정확도가 급격히 떨어지는 차원의 저주 현상이 발생할 수 있다. 이를 해결하기 위해 희소성을 가정하거나 정규화를 적용한 다양한 추정 방법들이 기계 학습과 금융 공학 분야에서 연구되고 있다.
공분산 행렬은 상관계수 행렬과 밀접한 관계가 있지만, 그 의미는 다르다. 상관계수 행렬은 변수들 간의 선형 관계 강도를 표준화된 척도(-1에서 1)로 보여주는 반면, 공분산 행렬은 각 변수의 척도(단위)를 그대로 반영한다. 따라서 데이터의 척도에 민감하며, 분석 전에 정규화나 표준화를 수행할지 여부는 분석 목적에 따라 결정해야 한다. 이처럼 공분산 행렬은 그 자체로도 유용하지만, 이를 어떻게 처리하고 해석하느냐에 따라 더욱 강력한 통찰을 제공할 수 있는 도구이다.
