비지도 학습
1. 개요
1. 개요
비지도 학습은 지도 학습과 달리 사전에 레이블이 지정된 정답 데이터 없이, 입력 데이터 자체의 내재된 구조나 패턴을 발견하는 머신러닝 패러다임이다. 주어진 데이터의 분포, 군집, 상관관계 등을 학습하여 데이터를 이해하는 것이 핵심 목표이다.
이 방식은 데이터에 숨겨진 통찰을 얻는 데 유용하며, 데이터의 특성상 레이블을 얻기 어렵거나 비용이 많이 드는 상황에서 널리 활용된다. 예를 들어, 대량의 고객 구매 데이터에서 유사한 행동 패턴을 보이는 그룹을 자동으로 식별하거나, 복잡한 데이터의 주요 특징을 추출하여 시각화하는 데 사용된다.
비지도 학습의 대표적인 작업으로는 유사한 데이터 포인트들을 그룹화하는 군집화, 고차원 데이터를 정보 손실을 최소화하면서 저차원으로 변환하는 차원 축소, 데이터 항목 간의 빈번한 동시 발생 관계를 찾는 연관 규칙 학습 등이 있다. 이러한 기술들은 데이터 마이닝, 탐색적 데이터 분석의 근간을 이룬다.
2. 비지도 학습의 주요 목표
2. 비지도 학습의 주요 목표
비지도 학습의 주요 목표는 레이블이 없는 데이터에서 숨겨진 구조, 패턴, 관계를 발견하는 것이다. 이는 데이터 자체의 내재적 특성을 탐구하여 데이터를 이해하거나, 이후의 분석을 위한 유용한 표현을 얻는 데 중점을 둔다. 주요 목표는 일반적으로 군집화, 차원 축소, 연관 규칙 학습, 밀도 추정 등으로 구분된다.
군집화는 유사한 특성을 가진 데이터 포인트들을 그룹으로 묶는 작업이다. 이를 통해 데이터의 자연스러운 계층 구조나 하위 집단을 발견할 수 있으며, K-평균 알고리즘이나 계층적 군집화 같은 방법이 사용된다. 차원 축소는 고차원 데이터의 정보를 최대한 유지하면서 저차원 공간으로 변환하는 것이다. 주성분 분석이나 t-SNE 같은 기법은 데이터 시각화를 용이하게 하거나, 계산 효율성을 높이며, 노이즈를 제거하는 데 활용된다.
연관 규칙 학습은 대규모 데이터셋에서 변수들 간의 빈번하게 함께 발생하는 관계나 규칙을 찾아내는 것을 목표로 한다. 예를 들어, "A 상품을 구매한 고객은 B 상품도 함께 구매한다"와 같은 패턴을 발견하는 데 사용된다[1]. 밀도 추정은 데이터가 발생하는 확률 분포를 모델링하여, 데이터의 생성 메커니즘을 이해하거나 새로운 데이터가 생성될 가능성을 추정하는 데 목적이 있다. 이는 이상 탐지나 데이터 생성 모델의 기초가 된다.
주요 목표 | 설명 | 대표적 활용 예 |
|---|---|---|
군집화 | 데이터를 유사성에 기반하여 그룹화 | 고객 세분화, 문서 분류 |
차원 축소 | 데이터의 차원을 줄여 핵심 특징 추출 | 데이터 시각화, 특징 추출 |
연관 규칙 학습 | 데이터 항목 간의 빈번한 동시 발생 관계 발견 | 장바구니 분석, 추천 시스템 |
밀도 추정 | 데이터의 확률 분포 모델링 | 이상치 탐지, 생성 모델 |
2.1. 군집화
2.1. 군집화
군집화는 데이터 포인트들을 서로 유사한 것끼리 그룹으로 나누는 작업이다. 이때 같은 그룹(군집) 내의 데이터는 서로 높은 유사성을 가지며, 다른 군집에 속한 데이터와는 상대적으로 낮은 유사성을 가진다. 군집화의 목표는 데이터 내에 존재하는 자연스러운 그룹 구조를 발견하는 것이다.
가장 널리 알려진 군집화 알고리즘은 K-평균 알고리즘이다. 이 방법은 사전에 정의된 군집 수 K를 기준으로 각 군집의 중심(centroid)을 반복적으로 업데이트하며 데이터를 분할한다. 다른 대표적인 방법으로는 계층적 군집화가 있으며, 이는 트리 구조(덴드로그램)를 생성하여 다양한 수준의 군집 구조를 제공한다. 밀도 기반 군집화 알고리즘인 DBSCAN은 모양이 불규칙한 군집을 찾는 데 강점을 보이며, 노이즈 포인트를 구별할 수 있다.
군집화의 결과는 사전에 정답 레이블이 없기 때문에 평가가 어렵다는 특징이 있다. 내부 평가 지표(실루엣 계수 등)나 외부 평가 지표(정답 레이블이 있을 경우)를 사용하여 군집의 품질을 측정한다. 군집화는 고객 세분화, 문서 주제 분류, 이미지 분할, 이상 탐지 등 다양한 분야에서 활용된다.
2.2. 차원 축소
2.2. 차원 축소
차원 축소는 고차원 데이터를 정보 손실을 최소화하면서 저차원 공간으로 변환하는 과정이다. 여기서 '차원'은 데이터의 특성 또는 변수의 수를 의미한다. 현실 세계의 데이터는 수백, 수천 개의 특성을 가질 수 있으며, 이는 과적합을 유발하거나 계산 비용을 크게 증가시키는 '차원의 저주' 문제를 일으킨다. 차원 축소는 이러한 문제를 완화하고 데이터의 본질적인 구조를 시각적으로 이해하기 쉽게 만드는 핵심 기술이다.
차원 축소 기법은 크게 특성 추출과 특성 선택으로 나눌 수 있다. 특성 추출은 원본 특성들의 선형 또는 비선형 조합을 통해 새로운, 더 적은 수의 특성을 생성한다. 대표적인 알고리즘인 주성분 분석(PCA)은 데이터의 분산을 최대한 보존하는 직교 축을 찾아 투영한다. 반면, 특성 선택은 원본 특성 집합에서 가장 관련성이 높은 부분 집합을 직접 선택하는 방식이다.
비선형 구조를 가진 데이터에는 t-SNE(t-distributed Stochastic Neighbor Embedding)나 UMAP(Uniform Manifold Approximation and Projection) 같은 매니폴드 학습 기법이 효과적이다. 이들은 데이터가 고차원 공간에 존재하는 저차원 매니폴드(곡면)에 펼쳐져 있다고 가정하고, 이를 저차원으로 풀어내는 데 중점을 둔다. 아래 표는 주요 차원 축소 알고리즘을 비교한 것이다.
알고리즘 | 주요 접근법 | 주요 특징 |
|---|---|---|
주성분 분석(PCA) | 선형 특성 추출 | 분산 최대화, 직교 변환 |
선형 판별 분석(LDA) | 선형 특성 추출 | 클래스 간 분산 최대화, 클래스 내 분산 최소화[2] |
비선형 매니폴드 학습 | 국부적 거리 구조 보존에 강점, 시각화에 널리 사용 | |
비선형 매니폴드 학습 | t-SNE보다 전역적 구조 보존과 계산 속도 면에서 장점 | |
신경망 기반 특성 추출 | 비선형 변환 가능, 생성 모델의 기초로도 활용 |
차원 축소의 결과는 데이터 시각화(예: 2D 또는 3D 산점도), 데이터 압축, 노이즈 제거, 그리고 다른 머신러닝 알고리즘(예: 군집화나 분류)을 적용하기 전의 전처리 단계로 널리 활용된다.
2.3. 연관 규칙 학습
2.3. 연관 규칙 학습
연관 규칙 학습은 대규모 데이터베이스에서 변수 간의 흥미로운 관계, 즉 '규칙'을 발견하는 것을 목표로 한다. 이는 주로 장바구니 분석에 활용되어, 어떤 상품들이 함께 구매되는 경향이 있는지를 파악한다. 발견된 규칙은 일반적으로 '만약 A가 발생하면, B도 발생한다'는 형태의 조건문으로 표현되며, 이는 지지도, 신뢰도, 향상도 같은 척도로 그 유의미성을 평가받는다.
가장 대표적인 알고리즘은 Apriori 알고리즘이다. 이 알고리즘은 '빈번한 항목 집합의 모든 부분 집합 또한 빈번하다'는 원리를 이용해, 모든 가능한 항목 조합을 탐색하지 않고도 효율적으로 빈번한 항목 집합을 찾아낸다. 이후 등장한 FP-Growth 알고리즘은 Apriori 알고리즘의 다중 데이터베이스 스캔 문제를 해결하기 위해 FP-Tree라는 압축된 자료 구조를 사용하여 성능을 개선했다.
연관 규칙 학습의 결과는 다음과 같은 형태로 해석된다.
규칙 | 지지도 | 신뢰도 | 향상도 |
|---|---|---|---|
{우유} → {빵} | 5% | 70% | 2.8 |
{프로그래밍 서적} → {커피} | 2% | 85% | 4.1 |
이 기법은 소매업 외에도 웹 사용 마이닝, 의료 진단, 생물정보학 등 다양한 분야에서 패턴 발견을 위해 적용된다. 예를 들어, 웹사이트 로그를 분석하여 특정 페이지 방문 후 자주 접속하는 다음 페이지를 찾거나, 진료 기록을 분석하여 특정 증상과 함께 자주 나타나는 다른 증상의 관계를 규명하는 데 사용된다.
2.4. 밀도 추정
2.4. 밀도 추정
밀도 추정은 데이터가 생성된 확률 분포의 형태를 추정하는 것을 목표로 한다. 주어진 데이터 포인트들이 어떤 확률 밀도 함수를 따르는지 모델링함으로써, 데이터의 전체적인 구조와 특성을 이해할 수 있다. 이는 데이터의 분포가 균일하지 않은 영역을 식별하거나, 새로운 데이터가 기존 분포에 얼마나 잘 부합하는지 판단하는 데 활용된다.
밀도 추정의 대표적인 방법으로는 커널 밀도 추정과 가우시안 혼합 모델이 있다. 커널 밀도 추정은 각 데이터 포인트 주위에 커널 함수(예: 가우시안 커널)를 배치하고 이를 합산하여 매끄러운 밀도 곡선을 생성하는 비모수적 방법이다. 가우시안 혼합 모델은 데이터가 여러 개의 정규 분포가 혼합된 형태로 생성되었다고 가정하는 모수적 방법으로, 기댓값 최대화 알고리즘 등을 통해 각 분포의 매개변수를 학습한다.
방법 | 주요 특징 | 활용 예시 |
|---|---|---|
비모수적 방법, 사전 분포 가정 불필요 | 이상치 탐지, 데이터 시각화 | |
모수적 방법, 복수의 정규 분포로 모델링 | 군집화, 생성 모델의 기초 |
이 기법은 이상 탐지 분야에서 특히 유용하게 적용된다. 정상 데이터의 밀도 분포를 학습한 후, 매우 낮은 밀도를 가지는 새로운 데이터 포인트를 이상치로 판단한다. 또한, 밀도 추정은 생성 모델의 기초가 되어, 학습된 분포로부터 새로운 합성 데이터를 생성하는 데 사용되기도 한다.
3. 주요 알고리즘
3. 주요 알고리즘
비지도 학습의 주요 알고리즘은 그 목표에 따라 군집화, 차원 축소, 생성 모델 등으로 크게 분류된다.
군집화 알고리즘은 레이블이 없는 데이터를 유사성에 기반하여 그룹으로 나눈다. 대표적인 알고리즘으로는 K-평균 알고리즘이 있으며, 이는 사전에 정의된 K개의 중심점을 기준으로 데이터를 분할한다. 계층적 군집화는 덴드로그램을 생성하며, 밀도 기반 군집화인 DBSCAN은 노이즈가 있는 데이터에서 임의의 형태의 군집을 찾는 데 강점을 보인다.
차원 축소 알고리즘은 고차원 데이터의 정보를 최대한 보존하면서 저차원 공간으로 변환한다. 주성분 분석(PCA)은 데이터의 분산을 최대화하는 직교 축을 찾아 투영하는 선형 기법이다. t-SNE는 고차원 데이터의 국소적 구조를 저차원에서 보존하는 데 특화된 비선형 기법으로, 시각화에 널리 사용된다. 오토인코더는 신경망을 활용한 비선형 차원 축소 방법이다.
생성 모델은 주어진 데이터의 확률 분포를 학습하여 새로운 데이터 샘플을 생성할 수 있다. 가우시안 혼합 모델(GMM)은 데이터가 여러 정규 분포의 혼합으로 생성되었다고 가정하는 확률적 모델이다. 최근에는 생성적 적대 신경망(GAN)과 변분 오토인코더(VAE) 같은 딥러닝 기반 생성 모델이 이미지, 음성, 텍스트 생성 분야에서 두각을 나타낸다.
3.1. 군집화 알고리즘
3.1. 군집화 알고리즘
군집화 알고리즘은 데이터 포인트들을 유사성에 기반하여 여러 그룹(클러스터)으로 나누는 기법이다. 가장 대표적인 알고리즘으로는 K-평균 알고리즘이 있다. 이 알고리즘은 사전에 정의된 클러스터 수 K를 입력받아, 각 클러스터의 중심(센트로이드)을 반복적으로 업데이트하며 데이터를 분할한다. 계산 효율이 높고 구현이 간단하여 널리 사용되지만, 클러스터의 크기나 밀도가 다르거나 구형이 아닌 형태일 경우 성능이 저하될 수 있다.
계층적 군집화는 병합적 방식과 분할적 방식으로 나뉜다. 주로 사용되는 병합적 군집화는 각 데이터 포인트를 개별 클러스터로 시작하여, 가장 유사한 클러스터끼리 단계적으로 병합해 나간다. 그 결과 덴드로그램이라는 트리 구조의 시각화를 얻을 수 있으며, 원하는 군집 수준에서 결과를 잘라내어 군집을 형성한다. 이 방법은 사전에 군집 수를 지정할 필요가 없다는 장점이 있지만, 대규모 데이터셋에는 계산 비용이 높을 수 있다.
밀도 기반 군집화 알고리즘의 대표주자는 DBSCAN이다. 이 알고리즘은 군집을 데이터가 밀집된 영역으로 정의하며, 반경 내의 최소 포인트 수를 기준으로 핵심 포인트, 경계 포인트, 잡음 포인트를 구분한다. 따라서 K-평균과 달리 사전에 클러스터 수를 정하지 않아도 되며, 임의의 형태의 군집을 발견하고 이상치를 효과적으로 걸러낼 수 있다. 그러나 데이터의 밀도 차이가 클 경우 파라미터 설정이 어려울 수 있다.
알고리즘 | 주요 특징 | 장점 | 단점 |
|---|---|---|---|
사전 정의된 K개의 중심점 기반 반복 할당 | 계산이 빠르고 구현이 쉬움 | 군집 수(K)를 미리 지정해야 함, 초기값에 민감 | |
덴드로그램을 통한 계층적 병합/분할 | 군집 수 지정 불필요, 시각화가 용이 | 대용량 데이터에 비효율적, 계산 복잡도 높음 | |
밀도 기반으로 군집 및 잡음 구분 | 군집 수 자동 결정, 이상치 탐지에 강함 | 밀도 차이가 큰 데이터에 파라미터 설정이 어려움 |
이 외에도 가우시안 혼합 모델을 사용하는 기댓값 최대화 알고리즘은 각 군집이 확률 분포를 따른다고 가정하는 모델 기반 군집화를 수행한다.
3.2. 차원 축소 알고리즘
3.2. 차원 축소 알고리즘
차원 축소 알고리즘은 고차원 데이터의 특성 수를 줄여 저차원 표현을 생성하는 기법이다. 주요 목표는 데이터의 본질적인 구조를 보존하면서 계산 효율성을 높이고 시각화를 가능하게 하며, 과적합을 방지하는 데 있다. 이는 특성 추출 또는 특성 선택의 과정을 통해 이루어진다.
대표적인 선형 차원 축소 알고리즘으로는 주성분 분석이 있다. PCA는 데이터의 분산을 최대화하는 직교 축(주성분)을 찾아 데이터를 투영한다. 이는 데이터의 상관관계를 제거하고 주요 변동 방향을 파악하는 데 유용하다. 또 다른 선형 방법으로는 데이터 포인트 간의 거리 관계를 보존하려는 다차원 척도법이 있다.
비선형 관계를 모델링하는 알고리즘도 널리 사용된다. t-SNE는 고차원 공간의 유사성을 저차원 공간의 확률 분포로 모델링하여, 특히 고차원 데이터의 시각화에 강점을 보인다. 오토인코더는 인공 신경망을 기반으로 하는 비선형 차원 축소 방법으로, 입력 데이터를 압축한 후 재구성하는 과정을 통해 잠재 표현을 학습한다.
알고리즘 | 주요 특징 | 적합한 데이터 유형 |
|---|---|---|
선형, 분산 최대화, 계산 효율적 | 선형 상관관계가 강한 데이터 | |
거리 기반, 데이터 간 유사성/비유사성 보존 | 거리 행렬이 의미 있는 데이터 | |
비선형, 국부적 구조 보존에 강함, 시각화 최적화 | 고차원 데이터의 군집 구조 시각화 | |
비선형, 신경망 기반, 복잡한 패턴 학습 가능 | 이미지, 텍스트 등 복잡한 비정형 데이터 |
이러한 알고리즘의 선택은 데이터의 특성, 목표(시각화, 전처리, 압축 등), 그리고 필요한 해석 가능성의 수준에 따라 달라진다.
3.3. 생성 모델
3.3. 생성 모델
생성 모델은 주어진 데이터의 확률 분포를 학습하여, 해당 분포에서 새로운 데이터 샘플을 생성할 수 있는 비지도 학습 알고리즘의 한 부류이다. 이 모델들의 핵심 목표는 관찰된 데이터가 어떤 과정을 통해 생성되었는지, 즉 데이터의 잠재적인 구조나 생성 메커니즘을 파악하는 것이다. 이를 통해 학습된 분포를 바탕으로 실제 데이터와 유사하지만 이전에 존재하지 않았던 새로운 데이터 인스턴스를 만들어낼 수 있다.
주요 생성 모델에는 변분 오토인코더, 생성적 적대 신경망, 확산 모델 등이 있다. 변분 오토인코더는 데이터를 잠재 공간의 확률 분포로 인코딩한 후, 이를 다시 디코딩하여 데이터를 재구성하거나 생성한다. 생성적 적대 신경망은 생성기와 판별기라는 두 개의 신경망이 서로 경쟁하며 학습하는 방식으로, 매우 사실적인 이미지나 음성을 생성하는 데 탁월한 성능을 보인다. 확산 모델은 데이터에 점진적으로 노이즈를 추가하는 과정(순방향 과정)을 학습한 뒤, 이 노이즈를 제거하는 과정(역방향 과정)을 통해 데이터를 생성한다.
이러한 모델들은 단순히 새로운 데이터를 생성하는 것을 넘어, 데이터의 특성을 이해하고 표현하는 데도 활용된다. 예를 들어, 생성 모델의 잠재 공간을 조작하여 데이터의 특정 속성(이미지의 스타일, 표정 등)을 변형하거나, 불완전한 데이터를 보완하는 데 사용될 수 있다. 또한, 정상 데이터의 분포를 학습한 생성 모델은 그 분포에서 벗어나는 샘플을 식별함으로써 이상 탐지에도 적용된다.
모델 | 주요 특징 | 주요 활용 예 |
|---|---|---|
변분 오토인코더 (VAE) | 확률적 잠재 변수를 학습, 데이터의 잠재 구조 탐색 | 이미지 생성, 데이터 압축, 이상 탐지 |
생성적 적대 신경망 (GAN) | 생성기와 판별기의 적대적 학습을 통한 고품질 생성 | 초고해상도 이미지 생성, 사진 합성, 스타일 변환 |
확산 모델 (Diffusion Model) | 점진적인 노이즈 추가 및 제거 과정을 모델링 | 텍스트 기반 이미지 생성, 고품질 합성, 음성 생성 |
4. 비지도 학습의 장단점
4. 비지도 학습의 장단점
비지도 학습의 가장 큰 장점은 레이블이 없는 데이터를 활용할 수 있다는 점이다. 실제 세계에서 수집되는 대부분의 데이터는 레이블이 없으며, 레이블을 수작업으로 달거나 전문가를 통해 획득하는 것은 비용과 시간이 많이 든다. 비지도 학습은 이러한 원시 데이터를 직접 분석하여 숨겨진 구조나 패턴을 발견할 수 있게 한다. 또한, 데이터에 대한 사전 지식이나 가정 없이도 탐색적 데이터 분석을 수행할 수 있어, 인간이 미처 인지하지 못했던 새로운 인사이트를 얻을 가능성을 제공한다. 예를 들어, 고객 세분화에서 예상치 못한 고객 그룹을 발견하거나, 이상 탐지에서 정상적인 작동 패턴을 정의하지 않고도 이상을 찾아낼 수 있다.
반면, 비지도 학습은 명확한 정답이 없기 때문에 결과의 평가와 해석이 어렵다는 근본적인 한계를 지닌다. 모델이 발견한 패턴이 실제로 의미 있는지, 아니면 데이터의 노이즈에 의한 것인지 판단하기 어려운 경우가 많다. 이는 지도 학습과 달리 모델의 성능을 정량적으로 측정하기 어렵게 만든다. 또한, 알고리즘의 선택과 하이퍼파라미터 설정에 따라 결과가 크게 달라질 수 있어, 사용자의 경험과 도메인 지식에 의존해야 하는 경우가 많다. 목표가 명확하지 않은 탐색적 특성 때문에, 비즈니스 문제에 직접적으로 적용하기보다는 데이터 이해를 위한 예비 단계로 사용되는 경우도 흔하다.
비지도 학습의 또 다른 단점은 발견된 패턴이 항상 실행 가능한 인사이트로 이어지지는 않는다는 점이다. 알고리즘이 군집을 생성하거나 연관 규칙을 찾아내더라도, 그 결과가 실제 의사결정에 어떻게 활용될지 명확하지 않을 수 있다. 따라서 비지도 학습의 결과는 종종 도메인 전문가의 검증과 후속 분석을 필요로 한다. 요약하면, 비지도 학습은 레이블 데이터의 부족 문제를 해결하고 데이터에서 숨은 지식을 발굴할 수 있는 강력한 도구이지만, 그 결과의 객관적 평가와 실용적 적용에는 상당한 주의가 요구된다.
4.1. 장점
4.1. 장점
비지도 학습의 가장 큰 장점은 레이블이 없는 데이터를 활용할 수 있다는 점이다. 실제 세계에서 수집되는 대부분의 데이터는 레이블이 없으며, 레이블을 수작업으로 부여하는 것은 시간과 비용이 많이 든다. 비지도 학습은 이러한 원시 데이터에서 직접 패턴이나 구조를 발견할 수 있게 해준다.
데이터의 숨겨진 구조를 발견하는 데 유용하다. 예를 들어, 군집화를 통해 데이터 포인트들을 유사성에 따라 자연스럽게 그룹화하거나, 차원 축소를 통해 고차원 데이터의 본질적인 특성을 저차원으로 표현할 수 있다. 이를 통해 데이터에 대한 새로운 통찰을 얻거나, 복잡한 데이터를 시각화하여 이해하기 쉽게 만들 수 있다.
사전 지식이나 가정이 적은 상태에서 탐색적 데이터 분석을 수행하는 데 적합하다. 데이터 과학자는 데이터에 어떤 패턴이 존재할지 미리 알지 못한 상태에서 비지도 학습 기법을 적용하여 예상치 못한 관계나 이상치를 발견할 수 있다. 이는 고객 세분화나 이상 탐지와 같은 분야에서 특히 가치가 있다.
또한, 비지도 학습은 종종 지도 학습 모델을 위한 전처리 단계로 사용된다. 차원 축소를 통해 데이터의 노이즈를 제거하거나 주요 특징을 추출하면, 이후 지도 학습 모델의 성능을 향상시키고 학습 시간을 단축할 수 있다.
4.2. 단점 및 한계
4.2. 단점 및 한계
비지도 학습은 레이블이 없는 데이터를 다루기 때문에 몇 가지 본질적인 한계를 지닌다. 가장 큰 문제는 모델의 성능을 객관적으로 평가하기 어렵다는 점이다. 지도 학습에서는 정답 레이블과 예측값을 비교하여 정확도나 F1 점수 같은 명확한 지표를 사용할 수 있지만, 비지도 학습에서는 그러한 기준이 존재하지 않는다. 예를 들어 군집화 결과의 질은 실루엣 계수나 다비스-불딘 지수 같은 내부 지표로 평가되지만, 이는 데이터의 실제 구조를 반영하지 않을 수 있다.
또한, 알고리즘이 발견한 패턴이 항상 유용하거나 해석 가능한 것은 아니다. 모델이 데이터에서 강한 상관관계나 군집을 찾아내더라도, 그것이 실제 비즈니스 인사이트나 과학적 발견으로 이어지지 않을 수 있다. 결과의 의미 부여와 해석은 전적으로 분석가의 역량과 도메인 지식에 의존한다.
비지도 학습 알고리즘은 일반적으로 계산 비용이 높고, 대규모 고차원 데이터를 처리할 때 성능 문제가 발생할 수 있다. 초기값이나 하이퍼파라미터 설정에 민감하여 결과가 불안정할 수도 있다. 예를 들어 K-평균 알고리즘은 초기 중심점 설정에 따라 최종 군집이 크게 달라질 수 있다.
마지막으로, 비지도 학습은 명시적인 목표 함수가 없기 때문에 문제 정의 자체가 모호할 수 있다. "데이터에서 유용한 구조를 찾아라"라는 광범위한 목표는 구체적인 작업으로 변환하기 어려우며, 이로 인해 프로젝트의 성공 여부를 판단하기가 복잡해진다.
5. 비지도 학습의 평가 방법
5. 비지도 학습의 평가 방법
비지도 학습은 정답 레이블이 없는 데이터에서 패턴을 발견하는 것이 목표이므로, 지도 학습과 같은 명확한 평가 지표(예: 정확도)를 사용하기 어렵다. 따라서 비지도 학습의 성능 평가는 주로 알고리즘이 발견한 구조나 패턴의 유용성, 일관성, 안정성 등을 다양한 방법으로 측정한다.
평가 방법은 주로 수행하는 작업의 유형에 따라 달라진다. 군집화의 경우, 외부에 정답 레이블이 존재한다면 순도, 조정된 랜드 지수, F-점수 같은 외부 지표를 사용하여 군집 결과와 실제 분류를 비교할 수 있다. 레이블이 없는 경우가 일반적이므로, 실루엣 계수나 데이비스-불딘 지수 같은 내부 지표를 통해 군집 내 응집도와 군집 간 분리도를 계산하여 군집의 질을 평가한다. 차원 축소 작업은 원본 데이터의 정보를 얼마나 잘 보존했는지로 평가한다. 예를 들어, 주성분 분석 후 누적 설명 분산 비율을 확인하거나, 축소된 공간에서 k-최근접 이웃 알고리즘 같은 작업의 성능 변화를 측정하기도 한다.
생성 모델이나 밀도 추정의 평가는 더 복잡하다. 생성된 샘플의 품질을 정성적으로 평가하거나, 테스트 데이터에 대한 로그 우도를 계산하는 방법이 있다. 이상 탐지의 경우, 검증을 위해 소량의 레이블된 이상 데이터를 활용하여 정밀도, 재현율, F1 점수를 계산할 수 있다. 모든 평가에서 중요한 것은, 수치적 점수보다 발견된 패턴이 실제 문제 해결에 얼마나 유용한지에 대한 도메인 지식 기반의 해석과 검증이다.
6. 응용 분야
6. 응용 분야
비지도 학습은 레이블이 없는 데이터에서 패턴이나 구조를 발견하는 데 활용되며, 다양한 산업과 연구 분야에서 응용된다.
고객 세분화는 대표적인 응용 사례이다. 군집화 알고리즘을 사용하여 구매 기록, 인구통계학적 정보, 웹사이트 행동 데이터 등을 분석함으로써 유사한 특성을 가진 고객 그룹을 자동으로 식별한다. 이를 통해 맞춤형 마케팅 전략을 수립하거나 새로운 시장 세그먼트를 발견할 수 있다. 이상 탐지는 정상적인 데이터 패턴에서 벗어나는 사례를 찾는 작업이다. K-평균 알고리즘이나 오토인코더와 같은 모델은 신용카드 사기 거래, 네트워크 침입, 제조 공정의 불량품 탐지 등에 효과적으로 사용된다[3].
추천 시스템에서도 비지도 학습이 중요한 역할을 한다. 연관 규칙 학습은 "함께 구매된 상품"과 같은 규칙을 발견하여 상품 추천에 활용된다. 또한, 사용자나 아이템의 잠재적 특성을 차원 축소 기법으로 추출하여 협업 필터링의 성능을 향상시키는 데에도 사용된다. 이미지 및 텍스트 분석 분야에서는 고차원 데이터의 본질적 구조를 이해하는 데 비지도 학습이 필수적이다. 이미지 데이터에 대한 주성분 분석은 시각화나 전처리에, 토픽 모델링은 대량의 문서 집합에서 주제를 추출하는 데 사용된다. 최근에는 생성적 적대 신경망이나 변분 오토인코더와 같은 생성 모델을 이용한 이미지 생성, 스타일 변환, 데이터 증강 등이 활발히 연구되고 있다.
6.1. 고객 세분화
6.1. 고객 세분화
고객 세분화는 비지도 학습의 대표적인 응용 분야 중 하나로, 특히 군집화 알고리즘을 활용하여 고객 데이터를 분석하고 유사한 특성을 가진 그룹으로 분류하는 작업을 말한다. 이 과정은 마케팅 전략 수립, 맞춤형 서비스 제공, 제품 개발 등 다양한 비즈니스 의사 결정에 활용된다. 기업은 인구통계학적 정보, 구매 이력, 웹사이트 행동 데이터 등을 입력 데이터로 사용하여 고객을 여러 세그먼트로 나눈다.
가장 널리 사용되는 알고리즘은 K-평균 알고리즘이다. 이 알고리즘은 사전에 정의된 K개의 군집 중심점을 기준으로 각 고객 데이터 포인트를 가장 가까운 군집에 할당하고, 군집의 중심을 반복적으로 조정하여 군집을 형성한다[4]. 그 결과, 각 군집은 예를 들어 '고가 제품을 자주 구매하는 충성 고객', '할인에 민감한 가격 추구형 고객', '신제품에 관심이 많은 초기 수용자' 등과 같은 프로파일을 갖게 된다.
고객 세분화의 결과는 표와 같은 형태로 정리되어 의사 결정자에게 제공될 수 있다.
군집 번호 | 주요 특성 | 추천 마케팅 전략 |
|---|---|---|
1 | 높은 평균 구매 금액, 낮은 구매 빈도 | 프리미엄 제품 라인 추천, VIP 혜택 제공 |
2 | 낮은 평균 구매 금액, 높은 구매 빈도 | 번들 할인, 포인트 적립 강화 |
3 | 최근 가입, 웹사이트 체류 시간 길다 | 환영 이메일 캠페인, 가이드 콘텐츠 제공 |
이러한 세분화를 통해 기업은 모든 고객에게 동일한 메시지를 전달하는 대신, 각 세그먼트의 니즈에 맞는 타겟팅된 캠페인을 실행할 수 있다. 이는 마케팅 예산의 효율성을 높이고 고객 만족도와 고객 생애 가치를 증대시키는 데 기여한다.
6.2. 이상 탐지
6.2. 이상 탐지
이상 탐지는 정상적인 데이터의 패턴을 학습하여, 그 패턴에서 크게 벗어나는 이상치나 비정상 사례를 식별하는 비지도 학습의 주요 응용 분야이다. 시스템의 고장, 사기 행위, 보안 침해, 의료 진단에서의 질병 징후 등, 정상 범주에 속하지 않는 드물지만 중요한 사건을 찾아내는 데 목적이 있다.
이상 탐지의 접근 방식은 크게 두 가지로 나뉜다. 첫째는 정상 데이터의 분포를 모델링하여, 낮은 확률을 가지는 데이터 포인트를 이상으로 판단하는 밀도 기반 방법이다. 대표적인 알고리즘으로 일변량 통계, 다변량 가우시안 분포 모델, 혼합 모델 등이 있다. 둘째는 데이터의 특성 공간에서 정상 데이터가 모여 있는 영역을 정의하고, 그 영역 바깥에 떨어진 샘플을 이상으로 판단하는 거리 기반 방법 또는 군집 기반 방법이다. k-평균 알고리즘이나 국소 이상치 인자 알고리즘이 이에 해당한다.
접근 방식 | 주요 알고리즘 예시 | 특징 |
|---|---|---|
밀도 기반 | 데이터의 통계적 분포를 가정하고, 확률이 낮은 지점을 탐지 | |
거리/군집 기반 | 데이터 간 거리나 밀도를 계산하여 고립된 점을 탐지 |
이 방법들은 신용카드 사기 탐지, 네트워크 침입 탐지 시스템, 제조업 결함 검출, 의료 이미지 분석을 통한 질병 진단 등 다양한 분야에서 활용된다. 핵심 과제는 정상과 이상을 구분하는 임계값을 설정하고, 정상 데이터에만 존재하는 드문 패턴(희귀 클래스)을 오탐하지 않으면서 진짜 이상을 정확히 찾아내는 것이다.
6.3. 추천 시스템
6.3. 추천 시스템
추천 시스템은 사용자의 과거 행동 데이터나 선호도를 분석하여 관심 있을 만한 항목을 제안하는 기술이다. 비지도 학습은 이러한 시스템을 구축하는 데 중요한 역할을 한다. 특히, 사용자나 아이템 간의 숨겨진 패턴이나 유사성을 발견하는 데 활용된다.
주요 접근 방식으로는 협업 필터링이 있다. 이는 사용자-아이템 상호작용 행렬(예: 평점, 구매 이력)을 기반으로 유사한 사용자 그룹(사용자 기반 협업 필터링)이나 유사한 아이템 그룹(아이템 기반 협업 필터링)을 찾는 군집화 기법을 사용한다. 예를 들어, 비슷한 영화를 좋아하는 사용자들을 하나의 군집으로 묶고, 한 사용자가 본 영화를 바탕으로 같은 군집 내 다른 사용자들이 선호한 영화를 추천할 수 있다. 또한, 차원 축소 기법인 주성분 분석이나 잠재 디리클레 할당은 고차원의 사용자-아이템 데이터에서 핵심적인 잠재 요인을 추출하여 효율적인 유사도 계산과 추천을 가능하게 한다.
비지도 학습 기반 추천 시스템의 장점은 명시적인 평점이나 선호도 라벨이 없어도 구매 기록, 클릭 스트림, 검색어 같은 암묵적 피드백 데이터만으로도 동작할 수 있다는 점이다. 그러나 사용자의 명확한 선호도 정보가 부족하여 추천의 정확성이나 개인화 정도에 한계가 있을 수 있으며, 새로운 사용자나 아이템에 대한 콜드 스타트 문제를 해결하기 어려운 경우가 많다.
6.4. 이미지 및 텍스트 분석
6.4. 이미지 및 텍스트 분석
비지도 학습은 이미지 처리와 자연어 처리 분야에서 데이터의 숨겨진 구조를 발견하고 의미 있는 표현을 학습하는 데 핵심적인 역할을 한다. 레이블이 없는 대규모 데이터셋에서 패턴을 추출하는 데 적합하기 때문이다.
이미지 분석에서는 주로 차원 축소와 군집화 기법이 활용된다. 예를 들어, 주성분 분석이나 오토인코더를 사용하여 고차원의 이미지 데이터를 저차원의 잠재 공간으로 압축한다. 이렇게 학습된 압축된 표현은 이미지의 주요 특성을 포착하며, 이를 바탕으로 유사한 이미지를 군집하거나 새로운 이미지를 생성하는 데 사용된다[5]. 텍스트 분석에서는 토픽 모델링 기법인 잠재 디리클레 할당이 문서 집합에서 주제를 자동으로 발견하고 분류하는 데 널리 쓰인다. 또한, 단어 임베딩 기술인 Word2Vec이나 GloVe는 대량의 텍스트 말뭉치에서 단어의 의미적, 문법적 관계를 벡터 공간에 표현하는 비지도 방식을 사용한다.
이러한 기술의 응용은 다양하다. 이미지 분석에서는 유사한 스타일의 그림을 분류하거나, 의료 영상에서 정상과 이상 조직 패턴을 구분하는 데 도움이 된다. 텍스트 분석에서는 뉴스 기사나 소셜 미디어 게시물을 주제별로 자동 분류하거나, 문서 요약 시스템의 기초를 제공한다. 최근에는 대규모 언어 모델의 사전 학습 단계에서도 레이블 없이 대량의 텍스트 데이터를 학습하는 비지도 학습 방식이 핵심을 이룬다.
7. 지도 학습 및 준지도 학습과의 비교
7. 지도 학습 및 준지도 학습과의 비교
지도 학습은 레이블이 지정된 훈련 데이터를 사용하여 입력과 출력 간의 매핑 함수를 학습하는 반면, 비지도 학습은 레이블 없이 데이터의 숨겨진 구조나 패턴을 발견하는 데 초점을 맞춘다. 준지도 학습은 이 두 가지 접근법의 중간 형태로, 소량의 레이블 데이터와 대량의 비레이블 데이터를 함께 활용한다.
주요 차이점은 다음과 같다.
구분 | 지도 학습 | 비지도 학습 | 준지도 학습 |
|---|---|---|---|
데이터 | 레이블 있음 | 레이블 없음 | 레이블 있음 + 레이블 없음 |
주요 목표 | 입력에서 출력을 예측 | 데이터의 내재적 구조 발견 | 레이블 정보로 구조 발견 보조 |
대표 작업 | 분류, 회귀 | 군집화, 차원 축소 | 레이블이 일부만 있는 분류 |
평가 기준 | 정확도, 정밀도 등 명확함 | 외부 기준 없어 평가가 주관적일 수 있음 | 지도 학습 기준과 유사 |
준지도 학습은 레이블 데이터 수집 비용이 높은 상황에서 유용하다. 예를 들어, 소량의 레이블된 의료 이미지와 대량의 비레이블 이미지를 함께 사용하여 모델 성능을 향상시킬 수 있다. 반면, 비지도 학습은 데이터 탐색, 이상 탐지, 사전 지식 없이 고객 그룹을 나누는 고객 세분화 등에 적합하다. 세 가지 방법은 상호 배타적이지 않으며, 실제 문제 해결 과정에서 단계별로 혹은 결합하여 사용되기도 한다.
8. 관련 문서
8. 관련 문서
[한국과학기술정보연구원(KISTI) - 비지도 학습이란?](https://www.kisti.re.kr/insight/insightView?serviceId=IS&articleNo
