문서의 각 단락이 어느 리비전에서 마지막으로 수정되었는지 확인할 수 있습니다. 왼쪽의 정보 칩을 통해 작성자와 수정 시점을 파악하세요.

다변량 분산 분석 | |
정의 | 둘 이상의 종속 변수에 대해 독립 변수의 효과를 동시에 검정하는 통계적 방법 |
유형 | 일원 다변량 분산 분석 다원 다변량 분산 분석 다변량 공분산 분석 |
주요 용도 | 여러 결과 변수 간 상관관계를 고려한 그룹 간 평균 차이 검정 실험 처치의 종합적 효과 평가 |
관련 분야 | 일변량 분산 분석 판별 분석 다변량 통계 |
검정 통계량 | 필라이-바틀렛 추적 윌크스 람다 호텔링 추적 로이 최대근 |
상세 정보 | |
가정 | 종속 변수는 다변량 정규 분포를 따른다. 각 집단의 공분산 행렬이 동일하다(등분산성). 관측치는 서로 독립적이다. |
장점 | 여러 종속 변수를 동시에 분석하여 제1종 오류 확률을 통제할 수 있다. 변수 간 상관관계를 고려한 보다 현실적인 모델링이 가능하다. 종합적인 실험 효과를 평가할 수 있다. |
단점 | 해석이 일변량 분석에 비해 복잡하다. 표본 크기가 충분히 커야 정확한 결과를 얻을 수 있다. 가정을 충족하지 않을 경우 결과의 신뢰도가 떨어진다. |
사후 검정 | 유의한 효과가 발견된 후, 어느 종속 변수에서 차이가 나는지 확인하기 위해 일변량 분산 분석을 수행할 수 있다. 판별 분석을 통해 집단을 구분하는 주요 변수를 파악할 수 있다. |
사용 예시 | 서로 다른 교육 방법이 학생들의 수학, 과학, 읽기 능력에 미치는 종합적 효과 평가 다양한 마케팅 전략이 브랜드 인지도, 구매 의도, 만족도에 미치는 영향 분석 |

다변량 분산 분석은 둘 이상의 종속 변수에 대해 독립 변수의 효과를 동시에 검정하는 통계적 방법이다. 이는 하나의 종속 변수만을 분석하는 일변량 분산 분석을 다변량으로 확장한 형태로, 여러 결과 변수 간의 상관관계를 고려하여 그룹 간 평균 차이를 종합적으로 평가할 수 있다.
주요 유형으로는 하나의 독립 변수를 분석하는 일원 다변량 분산 분석, 두 개 이상의 독립 변수를 분석하는 다원 다변량 분산 분석, 그리고 공변량의 영향을 통제하는 다변량 공분산 분석이 있다. 이 방법은 심리학, 의학, 교육학 등 다양한 분야에서 실험 처치나 집단의 종합적 효과를 평가하는 데 널리 사용된다.
분석에는 필라이-바틀렛 추적, 윌크스 람다, 호텔링 추적, 로이 최대근과 같은 여러 검정 통계량이 활용된다. 이는 다변량 통계의 핵심 기법 중 하나이며, 판별 분석과도 밀접한 관련이 있다.

MANOVA의 정의는 다변량 분산 분석의 핵심 개념을 설명한다. 다변량 분산 분석은 둘 이상의 종속 변수에 대해 하나 이상의 독립 변수의 효과를 동시에 검정하는 통계적 방법이다. 이는 여러 결과 변수들 간의 상관관계를 고려하여, 독립 변수의 수준(예: 다른 실험 처치나 집단)에 따라 종속 변수들의 평균 벡터에 차이가 있는지를 평가한다. 주요 용도는 실험 처치의 종합적 효과를 평가하거나, 상호 연관된 여러 결과 측정치들에 대한 그룹 간 차이를 검정하는 데 있다.
이 방법은 일변량 분산 분석을 다변량 영역으로 확장한 것이다. 일변량 분산 분석이 하나의 종속 변수에 대한 평균 차이만을 검정한다면, 다변량 분산 분석은 여러 종속 변수를 하나의 분석 모델에 통합하여 검정한다. 이는 각 종속 변수를 따로 분석할 때 발생할 수 있는 1종 오류 증가를 방지하고, 변수들 간의 관계를 활용하여 더 민감한 검정을 가능하게 한다. 주요 유형으로는 하나의 독립 변수를 분석하는 일원 다변량 분산 분석, 두 개 이상의 독립 변수를 분석하는 다원 다변량 분산 분석, 그리고 공변량의 영향을 통제하는 다변량 공분산 분석이 있다.
분석의 핵심은 그룹 간 분산-공분산 행렬과 그룹 내 분산-공분산 행렬을 비교하는 데 있다. 이를 위해 윌크스 람다, 필라이 추적, 호텔링 추적, 로이 최대근과 같은 여러 검정 통계량이 사용된다. 이 방법은 심리학, 교육학, 생물학, 마케팅 연구 등 다양한 분야에서 집단 간 다차원적 프로필을 비교할 때 널리 적용된다.
일변량 분산 분석(ANOVA)은 단 하나의 종속 변수에 대해 독립 변수(요인)의 효과를 검정하는 반면, 다변량 분산 분석(MANOVA)은 둘 이상의 종속 변수들에 대한 효과를 동시에 검정한다. 이는 MANOVA의 가장 근본적인 차이점이다. 예를 들어, 새로운 교수법의 효과를 평가할 때, ANOVA는 학생들의 '수학 점수' 하나만을 분석 대상으로 삼을 수 있다. 반면 MANOVA는 '수학 점수', '과학 점수', '학습 태도 점수'와 같이 여러 관련된 결과 변수들을 하나의 분석 모델에 포함시켜 종합적인 효과를 평가할 수 있다.
두 방법론의 또 다른 핵심 차이는 종속 변수들 간의 상관관계를 고려하는지 여부에 있다. ANOVA는 각 종속 변수를 별도로 분석하므로 변수 간 관계를 무시한다. 그러나 MANOVA는 여러 종속 변수를 함께 분석함으로써 이들 간의 상관 구조를 모델링에 포함시킨다. 이는 변수들이 서로 독립적이지 않은 현실적인 연구 상황에서 더 정확한 분석을 가능하게 하며, 여러 번의 ANOVA를 반복 수행할 때 발생하는 제1종 오류(알파 오류) 누적 문제를 완화하는 데 도움을 준다.
분석 결과의 해석 측면에서도 차이가 나타난다. ANOVA는 각 집단 간 평균 차이를 검정하는 반면, MANOVA는 종속 변수들의 선형 조합인 판별 함수를 통해 집단을 가장 잘 구분하는 차원을 찾아낸다. 따라서 MANOVA의 결과는 집단 간 차이가 '어떤 패턴의 변수 조합'으로 나타나는지에 대한 정보를 추가로 제공할 수 있다. 그러나 이러한 복잡성 때문에 사후 분석도 다변량 맥락에서 이루어져야 하며, 해석이 상대적으로 어려울 수 있다.
다변량 분산 분석을 수행하고 그 결과를 신뢰할 수 있으려면, 데이터가 몇 가지 기본적인 가정을 충족해야 한다. 이 가정들은 일변량 분산 분석의 조건을 다변량 상황으로 확장한 것이다.
첫째, 관측치는 서로 독립적이어야 한다. 즉, 한 관측치가 다른 관측치에 영향을 미치지 않아야 한다. 이는 무작위 할당이나 독립적인 표본 추출을 통해 보장된다. 둘째, 각 집단은 다변량 정규 분포를 따라야 한다. 이는 모든 종속 변수들의 조합이 정규 분포를 이루고, 각 개별 종속 변수도 정규 분포를 따라야 함을 의미한다. 표본 크기가 충분히 크면 중심 극한 정리에 의해 이 가정은 어느 정도 완화될 수 있다. 셋째, 집단 간 분산-공분산 행렬이 동질해야 한다. 이를 '다변량 등분산성' 또는 '박스의 M 검정'으로 확인할 수 있는 조건으로, 각 집단에서 종속 변수들 간의 변동성과 상관 관계 패턴이 유사해야 함을 뜻한다.
이러한 가정이 심각하게 위배될 경우, 1종 오류(귀무가설을 잘못 기각하는 오류)의 확률이 증가하거나 검정력이 감소할 수 있다. 가정 위반 시에는 데이터 변환을 고려하거나, 보다 강건한 검정 통계량(예: 필라이 추적)을 선택하며, 비모수적 다변량 검정 방법을 대안으로 활용할 수 있다. 특히 표본 크기가 작거나 집단별 표본 수가 불균형할 때는 가정 충족 여부를 주의 깊게 점검해야 한다.

다변량 분산 분석에서 집단 간 평균 벡터의 차이를 검정하기 위해 사용하는 주요 검정 통계량에는 윌크스 람다, 필라이 추적, 호텔링 추적, 로이 최대근 등이 있다. 이들은 모두 분산-공분산 행렬을 기반으로 계산되며, 각각 다른 수학적 접근법을 통해 종속 변수들의 조합에서 나타나는 집단 간 차이를 종합적으로 평가한다.
가장 널리 사용되는 통계량 중 하나인 윌크스 람다는 오차 분산에 대한 모형의 설명력을 나타내는 비율을 기반으로 한다. 값의 범위는 0에서 1 사이이며, 값이 작을수록 집단 간 평균 벡터의 차이가 크다는 것을 의미한다. 필라이 추적과 호텔링 추적은 각각 고유값의 합과 제곱합을 이용한 통계량으로, 일반적으로 표본 크기가 클 때 강건한 성능을 보인다. 반면, 로이 최대근은 가장 큰 고유값만을 사용하므로 집단 간 차이가 주로 한 방향으로 집중되어 있을 때 가장 강력한 검정력을 발휘한다.
이러한 검정 통계량들은 일변량 분산 분석에서의 F-검정을 다변량 상황으로 일반화한 것이다. 분석 시 연구자는 데이터의 특성과 연구 가설에 따라 적절한 통계량을 선택하며, 대부분의 통계 소프트웨어는 이들 통계량을 모두 계산하고 그에 따른 유의확률을 제공한다. 검정 결과가 유의미한 경우, 어떤 종속 변수에서 차이가 발생했는지를 구체적으로 알아보기 위해 사후 검정이 뒤따른다.
분산-공분산 행렬은 다변량 분산 분석의 핵심 구성 요소로, 여러 종속 변수 간의 변동성과 이들 변수 쌍 간의 선형 관계를 요약하는 행렬이다. 이 행렬은 분석의 기본 가정을 평가하고, 주요 검정 통계량을 계산하는 데 필수적인 정보를 제공한다.
분산-공분산 행렬은 대각선에는 각 종속 변수의 분산을, 비대각선에는 서로 다른 두 종속 변수 간의 공분산을 배치하여 구성된다. 공분산은 두 변수가 함께 변하는 정도를 나타내며, 이 값은 다변량 분산 분석이 단순히 여러 개의 일변량 분산 분석을 독립적으로 수행하는 것과 구별되는 근간이 된다. 즉, 여러 결과 변수들 사이에 존재하는 상관관계를 모형이 명시적으로 고려할 수 있게 해준다.
다변량 분산 분석의 중요한 가정 중 하나는 집단 간에 동일한 모집단 분산-공분산 행렬을 공유한다는 것이며, 이를 분산-공분산 행렬의 동질성 가정이라고 한다. 이 가정이 위반될 경우 검정의 결과가 왜곡될 수 있다. 따라서 박스 M 검정과 같은 방법을 통해 이 가정이 충족되는지 먼저 점검하는 것이 일반적인 분석 절차에 포함된다.
또한, 윌크스 람다나 호텔링 추적과 같은 다변량 분산 분석의 주요 검정 통계량들은 모두 집단 내 오차의 분산-공분산 행렬과 집단 간 효과의 분산-공분산 행렬을 기반으로 계산된다. 이는 다변량 분석에서 변수들의 공변동 구조가 효과의 유의성을 판단하는 데 직접적으로 영향을 미친다는 것을 의미한다.
다변량 분산 분석에서 유의미한 결과가 나왔을 때, 즉 독립 변수의 수준에 따라 둘 이상의 종속 변수들의 평균 벡터에 차이가 있다고 판단되면, 구체적으로 어떤 변수에서, 또는 어떤 집단 쌍 간에 차이가 발생했는지를 추가로 살펴보기 위해 사후 검정을 실시한다. 일변량 분산 분석의 사후 검정과 유사한 목적을 가지지만, 다변량 분석에서는 여러 종속 변수 간의 상관관계를 고려해야 하므로 접근 방식이 더 복잡하다.
주요 방법으로는 일변량 사후 검정을 각 종속 변수에 대해 개별적으로 수행하는 방식이 있다. 이때 본페로니 교정이나 투키 HSD 검정과 같은 다중 비교 교정 방법을 적용하여 제1종 오류를 통제한다. 또한, 판별 분석을 활용하여 집단을 가장 잘 구분하는 종속 변수의 선형 조합을 찾고, 이 조합에 대한 계수를 검토함으로써 각 변수의 상대적 기여도를 평가할 수 있다. 일부 경우에는 다변량 분산 분석을 특정 종속 변수 조합에 대해 반복 수행하거나, 대비 검정을 통해 사전에 계획된 집단 비교를 실행하기도 한다.
사후 검정의 선택은 연구 설계와 가설에 따라 달라진다. 모든 가능한 집단 쌍을 비교하는 탐색적 접근이라면 교정된 일변량 검정이 널리 사용되며, 특정 변수들의 조합된 효과를 해석하는 데에는 판별 분석이 유용하다. 다변량 사후 검정은 결과 해석에 있어 추가적인 통찰을 제공하지만, 분석의 복잡성을 증가시키고 결과를 과도하게 세분화할 위험이 있으므로 신중한 적용이 필요하다.

다변량 분산 분석은 여러 개의 종속 변수를 동시에 분석해야 하는 다양한 연구 분야에서 유용하게 활용된다. 예를 들어, 교육학 연구에서 새로운 교수법의 효과를 평가할 때, 학생들의 성취도를 단순히 시험 점수 하나로 보는 대신 수학 점수, 과학 점수, 문제 해결 능력 점수 등 여러 측정치를 종속 변수로 설정하여 그룹 간 차이를 종합적으로 검정할 수 있다. 이는 각 점수들이 서로 상관되어 있을 가능성을 고려하여, 개별 일변량 분산 분석을 여러 번 수행할 때 발생할 수 있는 1종 오류를 통제하는 데 도움을 준다.
의학 및 건강 과학 분야에서도 널리 사용된다. 특정 약물 치료의 효과를 조사하는 임상 시험에서, 치료군과 대조군을 비교할 때 단일 지표보다는 여러 생리적 지표를 함께 고려하는 경우가 많다. 예를 들어, 혈압 강하제의 효과를 볼 때 수축기 혈압, 이완기 혈압, 심박수를 종속 변수 집합으로 삼아 분석하면 치료의 전반적인 심혈관계 영향에 대한 더 풍부한 정보를 얻을 수 있다. 이는 심장병 위험을 평가하는 데 있어 각 지표들이 복합적으로 작용하기 때문에 특히 의미 있다.
마케팅 연구에서는 소비자 행동을 분석하는 데 적용될 수 있다. 서로 다른 광고 전략(독립 변수)이 소비자 반응에 미치는 영향을 조사할 때, 광고에 대한 인지도, 브랜드 태도, 구매 의도와 같은 여러 관련된 심리적 구성 개념들을 종속 변수로 설정한다. 이들 변수는 서로 높은 상관관계를 가질 수 있으므로, 다변량 분산 분석을 통해 광고 캠페인의 종합적 효과를 한 번에 평가하고, 어떤 전략이 가장 포괄적으로 긍정적인 반응을 이끄는지 확인할 수 있다.
연구 분야 | 독립 변수 예시 | 종속 변수 집합 예시 | 분석 목적 |
|---|---|---|---|
교육학 | 교수법 (전통적 vs. 새로운) | 수학 점수, 과학 점수, 태도 점수 | 교수법이 학업 성취도와 정의적 특성에 미치는 종합적 효과 평가 |
의학 | 치료 방법 (약물 A vs. 약물 B) | 수축기 혈압, 이완기 혈압, 심박수 | 치료법이 여러 생리적 지표에 동시에 미치는 효과 비교 |
심리학 | 스트레스 중재 프로그램 (유 vs. 무) | 불안 점수, 우울 점수, 삶의 질 점수 | 중재 프로그램의 정신 건강에 대한 다각적 효과 검증 |
마케팅 | 광고 유형 (감성적 vs. 정보적) | 브랜드 인지도, 호감도, 구매 의도 | 광고 유형이 소비자 반응 전반에 미치는 영향 분석 |
이러한 예시에서 볼 수 있듯, 다변량 분산 분석은 독립 변수의 수준에 따라 집단을 구분하고(예: 실험군 vs. 통제군), 이 집단들이 두 개 이상의 관련된 종속 변수들에서 보이는 평균 프로필에 차이가 있는지를 검정하는 데 사용된다. 분석 후 유의미한 결과가 나왔을 경우, 어떤 종속 변수에서 차이가 발생했는지를 구체적으로 알아보기 위해 판별 분석이나 사후 검정이 뒤따르는 경우가 일반적이다.

다변량 분산 분석의 가장 큰 장점은 여러 개의 종속 변수를 동시에 분석할 수 있다는 점이다. 이는 각 변수를 따로 분석하는 일변량 분산 분석을 반복하는 것보다 제1종 오류를 통제하는 데 유리하며, 변수들 간의 상관관계를 모형에 반영할 수 있어 보다 현실적이고 종합적인 결과를 제공한다. 특히 심리학이나 의학 연구에서 하나의 실험 처치가 복합적인 결과(예: 다양한 인지 기능 점수나 생리적 지표들)에 미치는 효과를 한 번에 평가할 때 매우 유용하다.
그러나 이러한 강력함에는 대가가 따른다. 분석의 복잡성이 크게 증가하며, 결과 해석이 일변량 분석에 비해 훨씬 어려워진다. 예를 들어, 윌크스 람다나 필라이 추적과 같은 검정 통계량이 유의미하다는 것은 적어도 하나의 종속 변수에서 집단 간 차이가 있음을 의미하지만, 정확히 어느 변수에서 차이가 나는지는 추가적인 사후 검정을 통해 확인해야 한다. 또한 모형이 요구하는 가정(예: 다변량 정규성, 분산-공분산 행렬의 동질성)이 더 엄격하고 이를 검증하는 것도 복잡하다.
데이터 요구 사항 측면에서도 단점이 존재한다. 표본 크기가 충분히 커야 하며, 종속 변수의 수가 너무 많으면 검정력이 떨어지고 결과 해석이 거의 불가능해질 수 있다. 따라서 연구자는 분석에 포함시킬 종속 변수를 신중하게 선정하고, 이론적 근거에 따라 변수를 축소하는 기법(예: 주성분 분석)을 사전에 고려해야 할 수도 있다. 결론적으로, 다변량 분산 분석은 강력한 도구이지만, 그 사용은 연구 설계 단계부터 신중한 계획을 필요로 한다.
