연관성 분석 (편집자 확인)

unisquads

2026.02.26

기여도

unisquads

100%

연관성 분석

정의	두 개 이상의 변수나 항목 간에 존재하는 관계의 강도와 방향을 측정하고 평가하는 통계적 기법
주요 용도	데이터 마이닝 시장 조사 의학 연구 소셜 네트워크 분석 고객 행동 예측
관련 분야	통계학 데이터 과학 기계 학습 빅데이터 분석
분석 유형	상관관계 분석 연관 규칙 마이닝 교차 분석
측정 지표	상관 계수 지지도 신뢰도 향상도
상세 정보
상관관계 분석	피어슨 상관 계수, 스피어만 상관 계수 등을 사용하여 두 연속 변수 간의 선형적 관계를 측정
연관 규칙 마이닝	대표적으로 장바구니 분석에 사용되는 Apriori 알고리즘 등으로, 항목 간의 '만약 A이면 B이다' 형식의 규칙을 발견
해석 주의점	상관관계는 인과관계를 의미하지 않음 제3의 변수(잠재변수)에 의해 관계가 나타날 수 있음

unisquads

2026.02.26

기여도

unisquads

100%

1. 개요

연관성 분석은 두 개 이상의 변수나 항목 간에 존재하는 관계의 강도와 방향을 측정하고 평가하는 통계적 기법이다. 이 기법은 데이터 마이닝의 핵심 방법론 중 하나로, 방대한 데이터에서 숨겨진 패턴이나 규칙을 발견하는 데 주로 활용된다. 통계학, 데이터 과학, 기계 학습 및 빅데이터 분석과 밀접한 관련이 있는 분야이다.

이 분석의 주요 용도는 시장 조사, 의학 연구, 소셜 네트워크 분석, 고객 행동 예측 등 매우 다양하다. 예를 들어, 소매업에서는 어떤 상품들이 함께 구매되는지를 파악하는 장바구니 분석에 널리 사용되며, 온라인 플랫폼에서는 사용자에게 맞춤형 상품을 제안하는 추천 시스템의 기반이 되기도 한다.

분석 유형으로는 변수 간 선형 관계를 파악하는 상관관계 분석, 항목 간 '만약 A이면 B이다'와 같은 규칙을 찾는 연관 규칙 마이닝, 그리고 범주형 변수 간 관계를 살펴보는 교차 분석 등이 포함된다. 이러한 분석을 수행하고 그 결과를 평가하기 위해 상관 계수, 지지도, 신뢰도, 향상도와 같은 다양한 측정 지표가 사용된다.

unisquads

2026.02.26

기여도

unisquads

100%

2. 기본 개념

2.1. 지지도, 신뢰도, 향상도

연관 규칙 마이닝에서 생성된 규칙의 유용성과 흥미로움을 평가하기 위해 지지도, 신뢰도, 향상도라는 세 가지 핵심 척도가 사용된다. 이 척도들은 규칙이 단순한 우연이 아닌 의미 있는 관계를 나타내는지를 판단하는 기준을 제공한다.

지지도는 전체 거래 중에서 특정 항목 집합이 함께 등장하는 빈도를 나타낸다. 예를 들어, '빵과 우유'를 함께 구매한 거래의 비율이 10%라면, 이 항목 집합의 지지도는 0.1이다. 지지도는 규칙의 전반적 중요성이나 보편성을 보여주며, 너무 낮은 지지도를 가진 규칙은 실제 적용 가치가 낮을 수 있다. 신뢰도는 조건부 확률의 개념으로, '만약 A를 구매했다면 B도 구매할' 가능성을 측정한다. A 항목이 포함된 거래 중에서 A와 B가 함께 등장하는 비율을 계산한다. 신뢰도가 높을수록 규칙의 예측력이 강하다고 볼 수 있다.

그러나 신뢰도만으로는 규칙의 실제 유용성을 판단하기 어려운 경우가 있다. 이때 향상도 지표가 중요한 역할을 한다. 향상도는 규칙에 따른 조건부 확률이 B 항목의 일반적인 구매 확률에 비해 얼마나 증가했는지를 비교한다. 향상도 값이 1이면 A와 B가 서로 독립적임을 의미하며, 1보다 크면 양의 연관성이, 1보다 작으면 음의 연관성이 있다고 해석한다. 일반적으로 향상도가 1보다 현저히 큰 규칙이 의미 있는 규칙으로 간주된다. 이 세 가지 척도를 종합적으로 고려함으로써 데이터에서 발견된 연관 규칙의 실질적 가치를 평가하고, 마케팅 전략 수립이나 추천 시스템 개선과 같은 의사결정에 효과적으로 활용할 수 있다.

2.2. 항목 집합

항목 집합은 연관 규칙 마이닝에서 분석의 기본 단위가 되는 하나 이상의 항목들의 모음이다. 예를 들어, 슈퍼마켓의 거래 데이터에서 {우유, 빵}이나 {맥주, 기저귀}와 같이 함께 구매된 상품들의 조합이 항목 집합에 해당한다. 이는 단일 항목으로 구성된 1-항목 집합부터 여러 항목으로 구성된 k-항목 집합까지 존재하며, 데이터베이스 내에서 특정 항목 집합이 등장하는 빈도는 지지도를 계산하는 데 핵심적인 역할을 한다.

연관 규칙 마이닝의 목표는 이러한 항목 집합들 사이의 의미 있는 관계, 즉 "만약 A 집합이 발생하면 B 집합도 발생한다"는 형식의 규칙을 발견하는 것이다. 예를 들어, {맥주} → {땅콩}이라는 규칙은 맥주를 구매한 거래에서 땅콩도 함께 구매될 가능성을 나타낸다. 효과적인 분석을 위해서는 모든 가능한 항목 집합을 탐색하는 대신, 사전에 설정한 최소 지지도 임계값을 충족하는 빈발 항목 집합만을 효율적으로 찾아내는 것이 중요하다.

이를 위해 Apriori 알고리즘과 같은 방법론이 사용된다. Apriori 알고리즘은 "모든 빈발 항목 집합의 부분 집합 역시 빈발하다"는 다운워드 클로저 속성을 활용하여, 작은 크기의 항목 집합부터 시작해 점차 크기를 늘려가며 후보를 생성하고 검증하는 과정을 반복한다. 이는 가능한 모든 조합을 완전 탐색하는 것보다 훨씬 효율적으로 빈발 항목 집합을 도출할 수 있게 한다. 발견된 빈발 항목 집합들은 이후 신뢰도와 향상도 같은 척도를 이용해 강력한 연관 규칙을 생성하는 데 사용된다.

unisquads

2026.02.26

기여도

unisquads

100%

3. 주요 알고리즘

3.1. Apriori 알고리즘

Apriori 알고리즘은 연관 규칙 마이닝을 수행하는 대표적인 알고리즘이다. 이 알고리즘은 대규모 데이터베이스에서 빈번하게 등장하는 항목 집합을 효율적으로 찾아내는 것을 목표로 한다. 알고리즘의 핵심 아이디어는 '어떤 항목 집합이 빈번하지 않다면, 그 집합을 포함하는 모든 더 큰 집합도 빈번하지 않을 것이다'라는 선험적 원리에 기반한다. 이 원리를 활용해 불필요한 후보 항목 집합의 생성을 줄여 계산 효율성을 크게 높인다.

알고리즘은 반복적인 접근 방식을 사용한다. 먼저, 데이터베이스를 스캔하여 각 개별 항목의 지지도를 계산하고, 최소 지지도 기준을 충족하는 항목들로 1-항목 집합을 생성한다. 다음으로, 이전 단계에서 발견된 빈번한 항목 집합들을 결합하여 새로운 후보 항목 집합을 생성하고, 다시 데이터베이스를 스캔하여 각 후보의 지지도를 계산한다. 이 과정을 더 이상 새로운 빈번 항목 집합이 발견되지 않을 때까지 반복한다. 최종적으로 발견된 모든 빈번 항목 집합을 바탕으로 신뢰도와 향상도를 계산하여 의미 있는 연관 규칙을 도출한다.

Apriori 알고리즘은 구현이 비교적 간단하고 이해하기 쉬우며, 장바구니 분석을 비롯한 다양한 분야에 널리 적용되어 왔다. 그러나 알고리즘의 주요 단점은 데이터베이스를 반복적으로 스캔해야 하며, 생성되는 후보 집합의 수가 매우 많아질 수 있어 대용량 데이터 처리 시 성능 저하가 발생할 수 있다는 점이다. 이러한 한계를 극복하기 위해 FP-Growth 알고리즘과 같은 후속 알고리즘들이 개발되었다.

3.2. FP-Growth 알고리즘

FP-Growth 알고리즘은 연관 규칙 마이닝을 수행하는 대표적인 알고리즘 중 하나로, Apriori 알고리즘의 비효율성을 개선하기 위해 제안되었다. 이 알고리즘의 핵심은 데이터베이스를 한 번만 스캔하여 FP-Tree라는 압축된 트리 구조를 생성한 후, 이 트리를 재귀적으로 탐색하여 모든 빈번한 항목 집합을 찾아내는 것이다. Apriori 알고리즘이 후보 집합을 생성하고 이를 반복적으로 검증하는 방식과 달리, FP-Growth는 후보 집합 생성 단계를 생략함으로써 계산 효율성을 크게 높인다.

알고리즘의 동작은 크게 두 단계로 나뉜다. 첫 번째 단계에서는 거래 데이터베이스를 처음부터 끝까지 한 번만 읽어 각 항목의 빈도(지지도)를 계산하고, 이를 기준으로 항목들을 내림차순으로 정렬한다. 이후 각 거래를 이 정렬된 순서에 따라 FP-Tree에 삽입하여 트리를 구축한다. 두 번째 단계에서는 구축된 FP-Tree를 바탕으로 조건부 패턴 베이스를 생성하고, 이를 재귀적으로 탐색하여 최종적인 빈번한 항목 집합들을 도출한다.

이 알고리즘의 가장 큰 장점은 데이터베이스를 단 한 번만 스캔하기 때문에 입출력 오버헤드가 적고, 특히 항목의 종류가 많거나 데이터베이스가 큰 경우에도 Apriori 알고리즘에 비해 상대적으로 빠른 성능을 보인다는 점이다. 또한 메모리 사용 측면에서도 효율적인 구조를 가진다. 그러나 FP-Tree의 구조가 상대적으로 복잡하고, 트리의 크기가 거래 데이터의 중복 정도에 크게 의존한다는 단점도 존재한다.

FP-Growth 알고리즘은 장바구니 분석이나 추천 시스템과 같이 대규모 거래 데이터에서 패턴을 신속하게 발견해야 하는 데이터 마이닝 및 빅데이터 분석 응용 분야에서 널리 활용되고 있다.

unisquads

2026.02.26

기여도

unisquads

100%

4. 응용 분야

4.1. 장바구니 분석

장바구니 분석은 연관 규칙 마이닝의 가장 대표적인 응용 사례로, 소매업에서 고객의 구매 데이터를 분석하여 함께 구매되는 상품 간의 관계를 발견하는 기법이다. 이 분석은 고객의 구매 패턴을 이해하고, 상품 진열, 번들 판매 전략, 교차 판매, 재고 관리 등을 최적화하는 데 활용된다. 예를 들어, "기저귀를 사는 고객은 맥주도 함께 구매한다"와 같은 유명한 연관 규칙이 이 분석을 통해 도출될 수 있다.

분석의 핵심은 지지도, 신뢰도, 향상도와 같은 척도를 사용하여 의미 있는 연관 규칙을 찾아내는 것이다. 슈퍼마켓이나 온라인 쇼핑몰은 대량의 거래 데이터를 기반으로 이러한 규칙을 생성하여, 고객에게 맞춤형 추천을 제공하거나 상품을 함께 진열하는 등의 마케팅 전략을 수립한다. 이는 궁극적으로 매출 증대와 고객 만족도 향상을 목표로 한다.

장바구니 분석의 적용 범위는 소매업을 넘어서 확장되고 있다. 도서관에서는 함께 대출되는 서적의 패턴을 분석하여 자료 배치를 개선할 수 있으며, 의료 분야에서는 특정 증상과 함께 나타나는 질병 간의 연관성을 파악하는 데 활용되기도 한다. 또한 콘텐츠 스트리밍 서비스나 음악 플랫폼에서 사용자의 청취 또는 시청 패턴을 분석하여 추천 시스템의 정확도를 높이는 데에도 응용된다.

이 분석을 수행하기 위해서는 일반적으로 Apriori 알고리즘이나 FP-Growth 알고리즘과 같은 연관 규칙 마이닝 알고리즘이 사용된다. 분석 결과는 단순한 규칙 나열을 넘어, 비즈니스 인사이트로 연결되도록 해석되어야 하며, 발견된 규칙이 통계적으로 유의미하고 실제 비즈니스에 실행 가능한지 평가하는 과정이 필수적이다.

4.2. 추천 시스템

연관성 분석은 추천 시스템의 핵심 기법 중 하나로 활용된다. 사용자의 과거 구매 이력, 클릭 로그, 평점 데이터 등을 분석하여 항목 간의 연관 규칙을 발견하고, 이를 바탕으로 사용자에게 새로운 항목을 추천하는 데 적용한다. 예를 들어, 많은 고객이 커피와 시럽을 함께 구매한다는 규칙이 발견되면, 커피를 구매한 사용자에게 시럽을 추천할 수 있다. 이러한 방식은 전자상거래 플랫폼, 스트리밍 서비스, 도서 판매 사이트 등 다양한 온라인 서비스에서 개인화된 추천을 제공하는 데 기여한다.

추천 시스템에서 연관성 분석을 적용하는 주요 방법은 협업 필터링과 결합하는 것이다. 사용자-항목 행렬에서 사용자가 선호하는 항목들의 집합을 찾아내고, 이 항목들과 강한 연관성을 보이는 다른 항목들을 추천 후보로 선정한다. 이는 "이 항목을 구매한 사람들은 저 항목도 구매했다"는 형태의 규칙을 생성하여 구현된다. 이러한 접근법은 특히 명시적인 평점 데이터가 부족하지만, 구매나 클릭과 같은 암묵적 피드백 데이터가 풍부한 상황에서 효과적이다.

연관성 분석 기반 추천 시스템의 성능은 지지도, 신뢰도, 향상도 같은 측정 지표를 통해 생성된 규칙의 질을 평가하고 필터링함으로써 최적화된다. 너무 낮은 지지도의 규칙은 일반화되기 어렵고, 향상도가 1에 가까운 규칙은 독립적인 관계를 의미하므로 유용한 추천으로 간주되지 않는다. 따라서 적절한 임계값 설정과 규칙 평가는 정확하고 유의미한 추천 결과를 도출하는 데 필수적이다.

4.3. 의료 진단

연관성 분석은 의료 진단 분야에서 증상, 질병, 검사 결과, 치료법, 약물 간의 숨겨진 패턴을 발견하는 데 유용하게 활용된다. 대규모 전자의무기록 데이터베이스를 분석하여 특정 증상 조합이 특정 질병과 얼마나 자주 동시에 발생하는지, 또는 특정 약물과 특정 부작용 사이의 연관성을 규명할 수 있다.

예를 들어, 지지도, 신뢰도, 향상도와 같은 연관 규칙의 척도를 사용하여 "두통"과 "어지러움"이라는 증상이 동시에 나타날 때 "빈혈" 진단이 받아들여질 가능성이 유의미하게 높아지는 규칙을 발견할 수 있다. 이는 의사가 진단 과정에서 참고할 수 있는 객관적 근거를 제공하며, 특히 희귀병이나 복잡한 증상을 가진 환자의 진단에 도움을 줄 수 있다.

분석 대상	발견 가능한 연관 규칙 예시
증상 & 질병	발열, 기침 → 폐렴
검사 지표 & 질병	고혈당, 고중성지방혈증 → 당뇨병성 합병증
약물 & 부작용	약물 A, 약물 B 동시 복용 → 간 수치 상승
생활습관 & 질병	흡연, 고혈압 → 심혈관 질환

이러한 분석은 질병 예측 모델을 구축하거나 맞춤형 치료 계획을 수립하는 데 기초 자료가 된다. 또한, 병원 내에서의 감염병 발생 패턴이나 의료 자원 활용 패턴을 분석하여 의료 서비스의 효율성을 높이는 데도 적용될 수 있다.

4.4. 네트워크 분석

연관성 분석은 네트워크 분석 분야에서도 널리 활용된다. 네트워크 분석은 개체들 간의 관계를 노드와 링크로 모델링하여 구조와 패턴을 연구하는 방법론이다. 여기서 연관성 분석 기법은 네트워크 내에서 빈번하게 함께 발생하거나 강한 상관관계를 보이는 노드 쌍이나 링크 패턴을 발견하는 데 적용된다. 예를 들어, 소셜 네트워크에서 특정 주제에 대해 함께 언급되는 사용자 그룹을 식별하거나, 통신 네트워크에서 동시에 장애를 일으키는 시스템 구성 요소를 찾아내는 데 유용하다.

이를 위해 연관 규칙 마이닝 알고리즘을 네트워크 데이터에 적용할 수 있다. 네트워크의 링크나 공통된 이웃 관계를 거래 데이터로 간주하고, 지지도, 신뢰도, 향상도와 같은 측정 지표를 계산하여 의미 있는 연결 패턴을 도출한다. 이러한 분석은 단순한 연결 존재 여부를 넘어, 관계의 빈도와 조건부 확률을 기반으로 한 보다 정교한 인사이트를 제공한다.

네트워크 분석에서의 연관성 분석은 다양한 분야에 응용된다. 바이러스학 연구에서는 특정 유전자나 단백질이 공동으로 발현되는 경로를 발견하는 데 사용될 수 있으며, 금융 분야에서는 복잡한 기업 거래 네트워크에서 의심스러운 연관 패턴을 탐지하는 데 기여한다. 또한, 인터넷 트래픽 분석이나 지식 그래프 구축 과정에서 핵심적인 관계를 추출하는 데도 중요한 역할을 한다.

unisquads

2026.02.26

기여도

unisquads

100%

5. 분석 절차

5.1. 데이터 전처리

연관성 분석을 수행하기 전에는 데이터를 적절한 형태로 가공하는 데이터 전처리 과정이 필수적이다. 이 과정은 분석의 정확도와 효율성을 크게 좌우한다.

데이터 전처리의 첫 번째 단계는 데이터를 연관 규칙 마이닝에 적합한 형태로 변환하는 것이다. 일반적으로 거래 데이터는 각 거래마다 구매한 항목 집합의 목록으로 구성된다. 예를 들어, 소매업의 포스 시스템에서 수집된 원본 데이터는 시간, 고객 ID, 상품 코드 등 다양한 속성을 포함하고 있을 수 있다. 이러한 데이터에서 분석에 필요한 '거래'와 '항목' 정보만을 추출하여, 각 거래를 항목들의 집합으로 표현하는 구조로 변환한다. 이때, 너무 빈번하거나 드문 항목은 분석 전에 제거하거나 통합하는 작업이 이루어질 수 있다.

다음으로, 데이터의 품질을 높이기 위한 작업이 진행된다. 이는 데이터 클렌징이라고도 불리며, 중복된 거래를 제거하거나, 오탈자가 있는 항목명을 표준화하는 과정을 포함한다. 예를 들어, '노트북'과 '노트북 컴퓨터'를 동일한 항목으로 통합하는 작업이 여기에 해당한다. 또한, 연속형 데이터를 분석에 활용하기 위해서는 이산화 과정을 통해 범주형 데이터로 변환해야 한다. 예를 들어, 구매 금액을 '고가', '중가', '저가'와 같은 구간으로 나누는 것이 일반적이다.

효율적인 분석을 위해서는 데이터의 규모를 관리하는 것도 중요하다. 빅데이터 환경에서는 모든 거래 데이터를 한 번에 분석하는 것이 계산상 부담이 될 수 있다. 따라서 분석 목적에 맞게 특정 기간의 데이터만 샘플링하거나, 특정 상품 카테고리나 고객 세그먼트에 대한 데이터만을 추출하여 분석 범위를 좁히는 경우도 많다. 이러한 전처리 작업을 통해 생성된 최종 데이터 세트는 Apriori 알고리즘이나 FP-Growth 알고리즘과 같은 연관 규칙 탐색 알고리즘의 입력값으로 사용된다.

5.2. 규칙 생성

연관 규칙 마이닝에서 규칙 생성은 데이터베이스 내에서 빈번하게 발생하는 항목 집합을 바탕으로, 항목 간의 의미 있는 관계를 나타내는 규칙을 도출하는 핵심 단계이다. 이 과정은 일반적으로 두 단계로 구성된다. 첫 번째 단계는 데이터베이스에서 최소 지지도 임계값을 만족하는 모든 빈발 항목 집합을 탐색하는 것이다. 두 번째 단계는 발견된 빈발 항목 집합으로부터 최소 신뢰도 임계값을 만족하는 강력한 연관 규칙을 생성하는 것이다.

규칙 생성의 효율성을 위해 Apriori 알고리즘이나 FP-Growth 알고리즘과 같은 전용 알고리즘이 널리 사용된다. Apriori 알고리즘은 '모든 빈발 항목 집합의 부분 집합 역시 빈발하다'는 성질을 이용해 후보 항목 집합의 수를 체계적으로 줄여가며 탐색을 수행한다. 반면, FP-Growth 알고리즘은 데이터베이스를 FP-Tree라는 압축된 트리 구조로 변환하여 데이터베이스를 반복적으로 스캔하지 않고도 빈발 패턴을 추출한다.

생성된 규칙은 일반적으로 'X → Y'의 형태로 표현되며, 여기서 X와 Y는 각각 항목 집합이다. 예를 들어, '빵과 우유 → 버터'라는 규칙은 빵과 우유를 함께 구매하는 거래에서 버터가 함께 구매될 가능성을 나타낸다. 이 규칙의 유용성은 지지도, 신뢰도, 향상도와 같은 척도로 정량적으로 평가된다. 향상도는 특히 규칙의 예측 능력을 판단하는 데 중요한 지표로, 두 항목 집합 간의 독립성 대비 실제 연관성을 측정한다.

규칙 생성 후에는 도출된 수많은 규칙 중에서 실제 비즈니스나 연구 목적에 부합하고 해석 가능한 의미 있는 규칙을 선별하는 평가 및 해석 단계가 필수적으로 뒤따른다. 이 과정에서 지나치게 당연한 규칙이나 우연에 의한 규칙을 걸러내는 것이 중요하다.

5.3. 규칙 평가 및 해석

생성된 연관 규칙은 지지도, 신뢰도, 향상도와 같은 척도를 사용하여 평가한다. 지지도는 규칙에 포함된 모든 항목이 함께 나타나는 빈도를, 신뢰도는 조건부 확률로서 규칙의 신뢰성을, 향상도는 두 항목 간의 독립성 대비 실제 연관 강도를 나타낸다. 이 지표들을 종합적으로 검토하여 통계적으로 유의미한 규칙을 선별한다.

규칙 해석은 단순히 통계적 수치를 넘어 비즈니스 인사이트를 도출하는 과정이다. 예를 들어, 높은 향상도를 보이는 규칙은 두 항목 간에 우연이 아닌 강한 연관성이 있음을 시사한다. 분석가는 이러한 규칙을 바탕으로 상품 진열을 최적화하거나, 교차 판매 전략을 수립하거나, 고객 세그먼트를 정의할 수 있다.

규칙 평가 시 주의할 점은 인과관계와 상관관계를 혼동하지 않는 것이다. 높은 신뢰도를 가진 규칙이 반드시 인과성을 의미하지는 않는다. 또한, 지지도가 매우 낮은 규칙은 특이 케이스에 불과할 수 있어, 실제 적용 가능성을 검토해야 한다. 따라서 도메인 지식과 맥락을 고려한 해석이 필수적이다.

unisquads

2026.02.26

기여도

unisquads

100%

6. 장단점

연관성 분석은 데이터 마이닝의 핵심 기법 중 하나로, 대규모 데이터 세트에서 숨겨진 패턴과 규칙을 발견하는 데 유용하다. 이 기법은 특히 장바구니 분석을 통해 고객의 구매 패턴을 파악하고, 추천 시스템을 구축하며, 의료 진단에서 증상과 질병 간의 관계를 규명하는 데 널리 활용된다. 빅데이터 시대에 접어들면서 데이터 과학과 기계 학습 분야에서 그 중요성이 더욱 커지고 있다.

이 분석 방법의 주요 장점은 직관적인 결과 해석이 가능하다는 점이다. 생성된 연관 규칙은 "A를 구매한 고객은 B도 함께 구매한다"와 같은 형태로 표현되어, 비전문가도 쉽게 이해하고 비즈니스 의사 결정에 활용할 수 있다. 또한, 지지도, 신뢰도, 향상도와 같은 명확한 통계적 지표를 사용하여 규칙의 유의미성을 정량적으로 평가할 수 있다. 이는 단순한 패턴 발견을 넘어, 실제 가치 있는 인사이트를 도출하는 데 기여한다.

반면, 연관성 분석에는 몇 가지 주의해야 할 단점이 존재한다. 가장 큰 문제는 거짓 연관성을 발견할 위험이 있다는 것이다. 통계적으로 유의미해 보이는 규칙이 실제로는 인과 관계가 없거나 우연에 의한 경우가 많다. 또한, 항목의 수가 증가하면 분석 가능한 조합의 수가 기하급수적으로 늘어나 계산 비용이 매우 커진다. 이는 Apriori 알고리즘의 주요 한계로, 이를 극복하기 위해 FP-Growth 알고리즘과 같은 개선된 방법이 개발되었다.

마지막으로, 이 기법은 주로 범주형 데이터에 적합하며, 연속형 데이터를 분석하려면 적절한 구간화 전처리가 필요하다. 또한, 발견된 규칙이 과거 데이터에 기반한 것이므로 미래의 트렌드를 그대로 반영하지 못할 수 있다. 따라서 분석 결과를 맹신하기보다는 도메인 지식과 결합하여 신중하게 해석하고, 이를 고객 행동 예측이나 상품 진열 전략 수정과 같은 실질적인 액션 플랜으로 연결하는 것이 성공적인 적용의 핵심이다.

unisquads

2026.02.26

기여도

unisquads

100%

연관성 분석편집자 확인

1. 개요

2. 기본 개념

2.1. 지지도, 신뢰도, 향상도

2.2. 항목 집합

3. 주요 알고리즘

3.1. Apriori 알고리즘

3.2. FP-Growth 알고리즘

4. 응용 분야

4.1. 장바구니 분석

4.2. 추천 시스템

4.3. 의료 진단

4.4. 네트워크 분석

5. 분석 절차

5.1. 데이터 전처리

5.2. 규칙 생성

5.3. 규칙 평가 및 해석

6. 장단점

7. 관련 문서

문서 정보