문서의 각 단락이 어느 리비전에서 마지막으로 수정되었는지 확인할 수 있습니다. 왼쪽의 정보 칩을 통해 작성자와 수정 시점을 파악하세요.

비지도 학습 방식 | |
한글명 | 비지도 학습 |
영문명 | Unsupervised Learning |
분류 | |
핵심 목적 | 레이블 없는 데이터에서 숨겨진 구조, 패턴, 관계 발견 |
주요 접근법 | |
입력 데이터 | 레이블(정답)이 없는 데이터 |
상세 정보 | |
대표 알고리즘 | |
지도 학습과의 차이 | 지도 학습은 입력-출력(레이블) 쌍으로 학습하여 예측하는 반면, 비지도 학습은 데이터 자체의 내재적 구조를 탐색 |
주요 활용 분야 | 고객 세분화, 이상 탐지, 추천 시스템, 이미지/텍스트 압축, 시각화, 시장 바구니 분석 |
장점 | 레이블링 비용 절감, 데이터에 대한 사전 지식 없이도 탐색 가능, 새로운 통찰 발견에 유용 |
단점/한계 | 결과의 평가와 해석이 어려울 수 있음, 발견된 패턴이 항상 유용하거나 의미 있는 것은 아님, 목표에 맞는 알고리즘 선택이 중요 |
관련 개념 | |
평가 방법 | 실루엣 계수, Dunn 지수, 엘보우 방법, 외부 지표(외부 레이블과의 비교) 등 (평가가 주관적일 수 있음) |
데이터 전처리 중요성 | 특징 스케일링, 정규화 등이 알고리즘 성능에 큰 영향을 미침 |

비지도 학습은 레이블이 지정되지 않은 데이터에서 숨겨진 패턴, 구조 또는 관계를 발견하는 머신 러닝의 한 방식이다. 지도 학습이 정답(레이블)이 있는 데이터로 모델을 훈련시키는 것과 달리, 비지도 학습은 데이터 자체의 내재적 특성만을 활용하여 학습을 진행한다. 이 방식의 핵심 목표는 데이터를 설명하거나 요약하는 것이며, 사전 지식 없이도 데이터의 본질을 탐구할 수 있게 해준다.
비지도 학습의 주요 접근법은 크게 클러스터링, 차원 축소, 연관 규칙 학습으로 나눌 수 있다. 클러스터링은 유사한 특성을 가진 데이터 포인트들을 그룹으로 묶는 작업이며, 차원 축소는 데이터의 복잡성을 줄이면서 중요한 정보를 보존하는 기술이다. 연관 규칙 학습은 대규모 데이터셋에서 변수들 간의 빈번한 관계나 규칙을 찾아내는 데 사용된다.
이 방식은 데이터 탐색적 분석의 초기 단계에서 널리 활용된다. 레이블을 수집하는 데 드는 비용과 시간을 절약할 수 있으며, 인간이 미처 인지하지 못한 새로운 카테고리나 이상 현상을 발견하는 데 유용하다. 예를 들어, 고객 세분화나 이상 탐지와 같은 문제에 효과적으로 적용될 수 있다.

비지도 학습은 레이블이 지정되지 않은 데이터에서 숨겨진 패턴, 구조 또는 관계를 발견하는 머신 러닝의 한 방식이다. 지도 학습이 정답(레이블)이 있는 데이터를 사용해 입력과 출력 간의 매핑 함수를 학습하는 것과 달리, 비지도 학습은 정답 없이 데이터 자체의 내재적 특성을 탐구하는 것을 목표로 한다. 주된 목적은 데이터를 설명하거나, 데이터를 의미 있는 하위 그룹으로 조직하거나, 데이터의 복잡성을 단순화하여 이해를 돕는 것이다.
지도 학습과의 핵심적인 차이점은 학습에 사용되는 데이터의 형태에 있다. 지도 학습에서는 각 학습 데이터 샘플에 대해 '정답' 역할을 하는 레이블이나 목표값이 반드시 존재한다. 예를 들어, 스팸 메일 분류에서는 각 이메일 데이터에 '스팸' 또는 '정상'이라는 레이블이 붙어 있다. 반면, 비지도 학습에서는 이러한 레이블이 전혀 제공되지 않는다. 알고리즘은 오직 입력 데이터의 특성(예: 픽셀 값, 단어 빈도, 고객 구매 기록)만을 바탕으로 데이터의 구조를 스스로 추론해야 한다.
이러한 접근법의 차이는 해결하는 문제의 종류를 결정한다. 지도 학습은 주로 분류나 회귀와 같은 예측 작업에 적합하다. 비지도 학습은 주로 클러스터링을 통한 그룹화, 차원 축소를 통한 시각화 또는 노이즈 제거, 연관 규칙 학습을 통한 패턴 발견 등 탐색적 데이터 분석에 강점을 보인다. 데이터에 레이블을 붙이는 작업은 비용이 많이 들고 시간이 소요되는 경우가 많으므로, 레이블이 없는 방대한 데이터에서 통찰을 얻고자 할 때 비지도 학습이 필수적인 도구가 된다.
비지도 학습은 레이블이 지정되지 않은 데이터에서 숨겨진 패턴, 구조 또는 관계를 발견하는 머신 러닝의 한 방식이다. 지도 학습이 정답(레이블)이 있는 데이터로 모델을 훈련시키는 것과 달리, 비지도 학습은 데이터 자체의 내재적 특성만을 활용하여 학습을 진행한다. 그 주요 목적은 데이터를 설명하거나 요약하는 것이며, 데이터에 대한 사전 지식 없이도 유용한 통찰을 도출하는 데 있다.
이 학습 방식의 궁극적인 목표는 크게 세 가지로 나눌 수 있다. 첫째는 클러스터링을 통한 그룹화로, 유사한 특성을 가진 데이터 포인트들을 동일한 그룹으로 묶어 데이터의 자연스러운 계층이나 세그먼트를 발견하는 것이다. 둘째는 차원 축소로, 고차원 데이터의 정보 손실을 최소화하면서 저차원 공간으로 변환하여 시각화를 용이하게 하거나 연산 효율성을 높이는 것이다. 셋째는 연관 규칙 학습으로, 대규모 데이터셋에서 변수들 간의 빈번하게 함께 발생하는 관계나 규칙을 찾아내는 것이다.
비지도 학습은 데이터 탐색적 분석의 핵심 도구로서, 복잡한 데이터의 본질을 이해하는 첫걸음을 제공한다. 이를 통해 사전에 알려지지 않은 새로운 범주를 발견하거나, 데이터의 잠재적 표현을 학습하여 이후의 지도 학습 작업에 더 좋은 입력 특징을 생성하는 데 활용될 수 있다.
지도 학습은 레이블이 지정된 훈련 데이터를 사용하여 입력과 출력 간의 매핑 함수를 학습하는 반면, 비지도 학습은 레이블이 없는 데이터에서 내재된 패턴이나 구조를 발견하는 데 목적을 둔다. 지도 학습의 목표는 주어진 입력에 대해 정확한 출력을 예측하는 모델을 구축하는 것이며, 분류나 회귀 분석과 같은 작업에 적합하다. 반면 비지도 학습은 데이터 자체의 분포, 군집, 또는 관계를 이해하는 데 초점을 맞춘다.
두 방식의 근본적인 차이는 학습 과정에서의 데이터 형태와 학습 목표에서 비롯된다. 지도 학습에서는 각 데이터 샘플에 '정답'에 해당하는 레이블이 존재하므로, 모델의 예측 오차를 계산하고 이를 최소화하는 방향으로 학습이 진행된다. 비지도 학습에서는 그러한 정답 지표가 존재하지 않으며, 알고리즘은 데이터 포인트 간의 유사성, 거리, 또는 통계적 속성만을 근거로 구조를 추론해야 한다.
비교 항목 | ||
|---|---|---|
학습 데이터 | 입력(특징)과 정답(레이블)의 쌍으로 구성 | 레이블 없이 특징만으로 구성 |
주요 목표 | 새로운 입력에 대한 정확한 출력 예측 | 데이터의 숨겨진 구조, 패턴, 군집 발견 |
대표 작업 | 분류, 회귀 분석, 예측 | |
평가 방법 | 정확도, 정밀도, 재현율, RMSE 등 명확한 지표 존재 | 실루엣 계수, 재구성 오차 등 상대적/내부 지표 사용 |
적용 예시 | 스팸 메일 필터링, 주가 예측 | 고객 세분화, 이상 거래 탐지, 주제 모델링 |
요약하면, 지도 학습은 '예측'을, 비지도 학습은 '탐색'을 핵심 목표로 한다. 지도 학습 모델의 성능은 외부 기준(레이블)에 대한 예측 정확도로 객관적으로 평가할 수 있지만, 비지도 학습의 결과는 주관적 해석이 더 많이 개입될 수 있으며, 발견된 구조의 유용성은 최종 응용 목적에 따라 판단된다.

비지도 학습은 레이블이 없는 데이터에서 패턴이나 구조를 발견하는 것을 목표로 한다. 이를 위한 주요 알고리즘은 크게 클러스터링, 차원 축소, 연관 규칙 학습의 세 가지 유형으로 분류할 수 있다. 각 유형은 데이터를 이해하고 해석하는 서로 다른 방식을 제공한다.
클러스터링은 유사한 특성을 가진 데이터 포인트들을 그룹으로 묶는 기법이다. 이는 데이터 내의 자연스러운 하위 집합을 찾아내는 데 사용된다. 대표적인 알고리즘으로는 K-평균 클러스터링, 계층적 클러스터링, DBSCAN 등이 있다. 클러스터링은 고객 세분화, 문서 분류, 이미지 분할 등 다양한 분야에서 활용된다.
차원 축소는 데이터의 특성 변수 수를 줄이는 과정이다. 고차원 데이터는 시각화가 어렵고 계산 비용이 높은 '차원의 저주' 문제를 일으킬 수 있다. 주성분 분석(PCA)은 데이터의 분산을 최대한 보존하는 새로운 저차원 좌표축을 찾는 선형 기법이다. 반면, t-SNE는 고차원 데이터의 국소적 구조를 저차원(보통 2차원)으로 매핑하는 비선형 기법으로, 데이터 시각화에 널리 사용된다.
연관 규칙 학습은 대규모 트랜잭션 데이터베이스에서 항목들 간의 흥미로운 관계를 발견하는 데 초점을 맞춘다. "만약 A를 구매하면 B도 구매한다"와 같은 규칙을 추출한다. 이 기법은 장바구니 분석의 핵심으로, Apriori 알고리즘이 대표적이다. 주로 소매업에서 상품 추천, 진열 최적화, 프로모션 전략 수립에 활용된다.
알고리즘 유형 | 주요 목적 | 대표 알고리즘 예시 | 주요 응용 예시 |
|---|---|---|---|
클러스터링 | 유사 데이터 그룹화 | K-평균, DBSCAN | 고객 세분화, 이상 탐지 |
차원 축소 | 변수 수 감소 및 시각화 | PCA, t-SNE | 데이터 전처리, 특징 추출 |
연관 규칙 학습 | 항목 간 관계 규칙 발견 | Apriori | 장바구니 분석, 추천 시스템 |
클러스터링은 레이블이 없는 데이터셋 내에서 유사한 특성을 가진 데이터 포인트들을 그룹으로 묶는 비지도 학습의 핵심 기법이다. 이 과정에서 형성된 각 그룹을 클러스터라고 부르며, 동일한 클러스터 내의 데이터는 서로 매우 유사하고, 다른 클러스터에 속한 데이터와는 상대적으로 이질적이다. 클러스터링의 궁극적 목표는 데이터의 내재적 구조를 발견하고, 복잡한 데이터를 해석 가능한 하위 집합으로 조직화하는 것이다.
주요 클러스터링 알고리즘은 그 접근 방식에 따라 크게 분할적 방법, 계층적 방법, 밀도 기반 방법 등으로 나눌 수 있다. 가장 대표적인 분할적 방법인 K-평균 클러스터링은 사전에 정의된 K개의 클러스터 중심을 반복적으로 조정하며 데이터를 할당한다. 계층적 클러스터링은 트리 구조를 생성하여 데이터 포인트를 단계적으로 병합하거나 분리하는 방식으로, 덴드로그램을 통해 다양한 수준의 클러스터링 결과를 한눈에 확인할 수 있다. DBSCAN과 같은 밀도 기반 방법은 모양이 불규칙한 클러스터를 찾는 데 강점이 있으며, 데이터가 밀집된 영역을 클러스터로 정의하고, 밀도가 낮은 지역의 점들은 이상치로 간주한다.
기법 유형 | 대표 알고리즘 | 주요 특징 |
|---|---|---|
분할적 (Partitioning) | 사전에 클러스터 수(K) 지정 필요, 계산 효율성 높음 | |
계층적 (Hierarchical) | 덴드로그램 제공, 다양한 수준의 군집 구조 확인 가능 | |
밀도 기반 (Density-based) | 임의 형태의 클러스터 탐색 가능, 이상치 자동 식별 |
클러스터링의 성능은 적절한 알고리즘 선택과 함께 유사도 척도(예: 유클리드 거리, 코사인 유사도)의 정의에 크게 의존한다. 또한, 최적의 클러스터 수를 결정하는 것은 중요한 과제이며, 엘보우 방법이나 실루엣 계수와 같은 평가 지표가 도움이 된다. 클러스터링 결과는 데이터에 대한 사전 지식 없이도 패턴을 발견하는 탐색적 데이터 분석의 핵심 도구로 활용된다.
차원 축소는 고차원 데이터의 특성 수를 줄이면서 데이터의 핵심 구조나 패턴을 최대한 보존하는 비지도 학습 기법이다. 데이터의 각 특성은 하나의 차원으로 간주되며, 수백 수천 개의 차원을 가진 데이터는 차원의 저주로 인해 계산 비용이 높고 노이즈에 취약하며 시각화가 어려운 문제가 있다. 차원 축소는 이러한 문제를 완화하여 데이터를 더 간결하고 처리하기 쉬운 형태로 변환하는 것을 목표로 한다.
주요 접근 방식은 특징 추출과 특징 선택으로 나뉜다. 특징 추출은 원본 특성들의 선형 또는 비선형 조합을 통해 새로운, 더 적은 수의 특성을 생성한다. 대표적인 알고리즘인 주성분 분석(PCA)은 데이터의 분산을 최대화하는 직교 축을 찾아 데이터를 투영한다. 반면, 특징 선택은 원본 특성 중에서 가장 정보량이 많은 일부를 그대로 선택하는 방식이다.
비선형 구조를 가진 고차원 데이터의 시각화에는 t-SNE나 UMAP 같은 매니폴드 학습 기법이 널리 사용된다. 이 기법들은 데이터 포인트 간의 국소적 유사성 또는 거리를 저차원 공간에서도 보존하려고 노력한다. 특히 t-SNE는 고차원 공간의 확률 분포와 저차원 공간의 확률 분포 간의 차이를 최소화하는 방식으로 작동하여 복잡한 군집 구조를 2차원 또는 3차원으로 효과적으로 나타낼 수 있다.
차원 축소의 결과는 다양한 목적으로 활용된다. 축소된 데이터는 클러스터링이나 다른 머신 러닝 모델의 입력으로 사용되어 성능을 향상시키거나 계산 효율을 높일 수 있다. 또한, 2차원 또는 3차원으로 축소된 데이터는 직접 시각화하여 데이터의 내재된 구조나 군집을 탐색하는 데 유용하게 사용된다.
연관 규칙 학습은 대규모 데이터셋 내에 숨겨진 항목들 간의 흥미로운 관계, 패턴, 규칙을 발견하는 비지도 학습 기법이다. 주로 장바구니 분석이라는 이름으로 알려져 있으며, "만약 A를 구매한 고객이 B도 함께 구매한다면"과 같은 형태의 규칙을 도출하는 데 사용된다. 이러한 규칙은 지지도, 신뢰도, 향상도 같은 척도로 평가되어 의미 있는 패턴만을 선별한다.
가장 대표적인 알고리즘은 Apriori 알고리즘이다. 이 알고리즘은 "어떤 항목집합이 빈번하게 나타나지 않는다면, 그 항목집합을 포함하는 모든 더 큰 집합도 빈번하지 않을 것이다"라는 선험적 원리를 활용한다. 이를 통해 모든 가능한 조합을 탐색하지 않고도 효율적으로 빈발 항목 집합을 찾아낼 수 있다. Apriori 알고리즘 이후에는 계산 효율성을 개선한 FP-Growth 알고리즘 등이 개발되었다.
연관 규칙 학습의 결과는 일반적으로 "X → Y [지지도, 신뢰도]" 형태로 표현된다. 예를 들어, {우유, 빵} → {계란}이라는 규칙은 우유와 빵을 구매한 거래에서 계란도 함께 구매될 가능성을 나타낸다. 이 기법은 소매업의 상품 진열 및 추천 시스템, 의료 데이터에서의 증상-질병 패턴 발견, 웹 로그 분석을 통한 페이지 간 탐색 경로 파악 등 다양한 분야에 적용된다.

클러스터링은 레이블이 없는 데이터 내에서 유사한 특성을 가진 데이터 포인트들을 그룹(클러스터)으로 묶는 작업이다. 이 기법의 목표는 데이터의 내재적 구조를 발견하여, 동일한 클러스터 내의 데이터는 서로 매우 유사하고 다른 클러스터의 데이터와는 뚜렷이 구분되도록 하는 것이다. 클러스터링의 결과는 데이터의 자연스러운 분할을 보여주며, 데이터 마이닝과 탐색적 자료 분석의 핵심 도구로 활용된다.
가장 널리 알려진 K-평균 클러스터링 알고리즘은 사전에 정의된 K개의 클러스터 수를 기준으로 동작한다. 이 방법은 먼저 K개의 중심점(센트로이드)을 무작위로 초기화한 후, 각 데이터 포인트를 가장 가까운 중심점에 할당하고, 할당된 포인트들의 평균을 계산하여 중심점의 위치를 업데이트하는 과정을 반복한다. 중심점의 이동이 더 이상 없을 때까지 이 과정이 계속되며, 계산 효율이 높지만 클러스터의 크기나 밀도가 다를 경우나 원형이 아닌 형태의 클러스터를 잘 찾지 못하는 한계가 있다.
계층적 클러스터링은 트리 구조(덴드로그램)를 생성하여 데이터의 군집 관계를 시각적으로 표현한다. 이 방법은 크게 두 가지 접근법으로 나뉜다. 하향식(분할적) 방법은 모든 데이터를 하나의 클러스터로 시작해 점차 분할하는 방식이고, 상향식(응집적) 방법은 각 데이터 포인트를 개별 클러스터로 보고 가장 유사한 클러스터부터 순차적으로 병합해 나가는 방식이다. 사용자는 덴드로그램을 보고 원하는 군집 수준에서 트리를 잘라 최종 클러스터를 결정한다. 이 방법은 사전에 클러스터 수를 지정할 필요가 없다는 장점이 있지만, 대규모 데이터셋에 대해 계산 비용이 높을 수 있다.
DBSCAN (Density-Based Spatial Clustering of Applications with Noise)은 밀도 기반 클러스터링 알고리즘의 대표적인 예이다. 이 알고리즘은 클러스터의 수를 미리 정하지 않으며, 핵심 포인트, 경계 포인트, 잡음 포인트로 데이터를 구분한다. 주요 매개변수는 반경(ε)과 최소 포인트 수(MinPts)이다. 반경 내에 최소 포인트 수 이상의 이웃을 가진 점을 핵심 포인트로 간주하고, 이를 통해 밀집된 영역을 확장해 나가 클러스터를 형성한다. DBSCAN은 임의의 모양을 가진 클러스터를 발견할 수 있고, 데이터 내의 이상치를 자연스럽게 걸러낼 수 있다는 강점을 가진다.
알고리즘 | 주요 아이디어 | 장점 | 단점 |
|---|---|---|---|
미리 정한 K개의 중심점을 반복적으로 최적화 | 계산이 빠르고 구현이 간단 | 클러스터 수(K)를 미리 지정해야 함, 초기값에 민감 | |
트리 구조를 통해 군집의 계층 관계 표현 | 클러스터 수 지정 불필요, 시각화(덴드로그램) 용이 | 대용량 데이터에 비효율적, 병합/분할 결정이 취소되지 않음 | |
데이터 공간의 밀도에 기반하여 클러스터 형성 | 클러스터 수 자동 결정, 이상치 탐지 가능, 복잡한 형태 인식 | 밀도가 다른 클러스터를 잘 처리하지 못할 수 있음, 매개변수 설정에 민감 |
K-평균 클러스터링은 비지도 학습의 클러스터링 알고리즘 중 가장 널리 알려지고 단순한 기법 중 하나이다. 이 알고리즘의 목표는 주어진 데이터셋을 사전에 정의된 K개의 군집으로 분할하는 것이다. 각 군집은 그 군집에 속한 데이터 포인트들의 평균 위치를 나타내는 중심점에 의해 정의된다.
알고리즘은 일반적으로 다음과 같은 과정을 반복한다. 먼저, 데이터 공간에 K개의 중심점을 무작위로 초기화한다. 그 후, 두 단계를 수렴할 때까지 반복 수행한다. 할당 단계에서는 각 데이터 포인트를 가장 가까운 중심점이 속한 군집에 할당한다. 이때 거리 측정은 일반적으로 유클리드 거리를 사용한다. 갱신 단계에서는 각 군집에 새롭게 할당된 데이터 포인트들의 평균 좌표를 계산하여 해당 군집의 새로운 중심점으로 재설정한다. 이 과정은 중심점의 이동이 거의 없어지거나 군집 할당이 더 이상 변하지 않을 때 종료된다.
K-평균 알고리즘의 성능은 초기 중심점의 위치와 사용자가 지정한 군집 수 K에 크게 의존한다. 부적절한 초기값은 최적이 아닌 지역 최솟값에 수렴하게 할 수 있다. 이를 완화하기 위해 여러 번의 무작위 초기화를 시도하여 가장 좋은 결과를 선택하는 방법이 흔히 사용된다. 또한 적절한 K값을 결정하는 것은 중요한 과제이며, 엘보우 방법이나 실루엣 계수와 같은 지표가 보조적으로 활용된다.
이 알고리즘은 계산 효율이 높고 대용량 데이터셋에 적용하기 쉬운 장점이 있다. 그러나 군집의 크기나 밀도가 크게 다르거나, 군집이 구형이 아닌 복잡한 형태를 가질 경우 제대로 된 군집화를 수행하지 못하는 한계가 있다. 또한 이상치에 민감하게 반응할 수 있다.
계층적 클러스터링은 데이터 포인트들을 트리 구조로 조직하여 여러 수준의 클러스터 계층을 생성하는 방법이다. 이 기법은 크게 병합적 방식과 분할적 방식으로 나뉜다. 병합적 계층적 클러스터링은 각 데이터 포인트를 개별 클러스터로 시작하여, 가장 유사한 클러스터끼리 반복적으로 병합해 나가는 상향식 접근법이다. 반대로 분할적 방식은 모든 데이터를 하나의 클러스터로 시작하여 반복적으로 분할하는 하향식 접근법이나, 계산 복잡도가 높아 병합적 방식이 더 널리 사용된다.
이 알고리즘의 핵심은 클러스터 간의 거리 또는 유사도를 측정하는 방법에 있다. 대표적인 연결 방법으로는 단일 연결, 완전 연결, 평균 연결, 워드 연결 등이 있다. 단일 연결은 두 클러스터 내 가장 가까운 점 사이의 거리를, 완전 연결은 가장 먼 점 사이의 거리를 사용한다. 평균 연결은 모든 점 쌍 간 거리의 평균을, 워드 연결은 클러스터를 병합할 때 발생하는 분산의 증가량을 최소화하는 기준을 사용한다.
계층적 클러스터링의 결과는 일반적으로 덴드로그램이라는 트리 다이어그램으로 시각화된다. 덴드로그램은 병합 순서와 각 병합 단계에서의 클러스터 간 거리를 보여주며, 이를 통해 사용자는 원하는 군집 수준에서 트리를 자르기만 하면 최종 클러스터를 결정할 수 있다. 이는 사전에 클러스터 수(K)를 지정해야 하는 K-평균 클러스터링과 비교되는 큰 차이점이다.
연결 방법 | 거리 계산 기준 | 특징 |
|---|---|---|
단일 연결 | 최소 거리 | 체인 효과로 길쭉한 클러스터 형성 가능 |
완전 연결 | 최대 거리 | 조밀하고 컴팩트한 클러스터 형성 |
평균 연결 | 평균 거리 | 단일/완전 연결의 단점 보완, 널리 사용됨 |
워드 연결 | 분산 증가량 | 클러스터 내 분산을 최소화하는 경향 |
이 방법의 주요 장점은 사전에 군집 수를 정하지 않아도 되며, 덴드로그램을 통해 데이터의 계층적 구조를 직관적으로 탐색할 수 있다는 점이다. 그러나 대규모 데이터셋에 적용할 경우 계산 비용이 높고, 한 번 병합되거나 분할된 클러스터를 뒤집을 수 없다는 단점이 있다.
DBSCAN은 Density-Based Spatial Clustering of Applications with Noise의 약자로, 밀도 기반 공간 클러스터링의 대표적인 알고리즘이다. 이 알고리즘은 사전에 클러스터의 개수를 지정할 필요가 없으며, 임의의 형태를 가진 클러스터를 발견할 수 있고, 노이즈 또는 이상치를 효과적으로 식별한다는 특징을 가진다.
DBSCAN의 핵심 동작 원리는 두 가지 매개변수, 즉 반경 엡실론(ε)과 최소 포인트 수(MinPts)에 기반한다. 알고리즘은 데이터 공간 내에서 특정 포인트를 기준으로 반경 ε 내에 MinPts 개 이상의 다른 포인트가 존재하면 해당 영역을 밀도가 높은 영역으로 간주하고 클러스터를 형성하기 시작한다. 이 과정에서 포인트는 핵심 포인트, 경계 포인트, 잡음 포인트로 분류된다[1].
다른 클러스터링 방법과 비교했을 때 DBSCAN의 주요 장점과 한계는 다음과 같이 정리할 수 있다.
비교 항목 | DBSCAN의 특성 |
|---|---|
클러스터 수 | 사전 지정 불필요. 데이터의 밀도에 따라 자동 결정됨. |
클러스터 형태 | 구형이 아닌 임의의 형태를 가진 클러스터를 찾을 수 있음. |
노이즈 처리 | 밀도가 낮은 영역의 포인트를 잡음으로 식별하여 제외함. |
매개변수 민감도 | ε과 MinPts 값 선택에 결과가 매우 민감함. |
데이터 밀도 | 클러스터 간의 밀도 차이가 크면 한 클러스터로 병합되거나 제대로 구분되지 않을 수 있음. |
이러한 특성 때문에 DBSCAN은 K-평균 클러스터링이 잘 동작하지 않는 복잡한 형태의 데이터나 이상치가 많은 데이터에 유용하게 적용된다. 대표적인 활용 예로는 지리 정보 시스템의 위치 데이터 군집화, 이상 거래 탐지, 생물 정보학의 유전자 표현형 분석 등이 있다.

차원 축소는 고차원 데이터를 정보 손실을 최소화하면서 저차원 공간으로 변환하는 비지도 학습의 핵심 기법이다. 데이터의 본질적인 구조를 보존하면서 복잡성을 줄여 시각화, 계산 효율성 향상, 노이즈 제거 등을 가능하게 한다. 주요 접근 방식은 특징 추출과 특징 선택으로 나뉘며, 주성분 분석(PCA)과 t-SNE는 전자의 대표적인 알고리즘이다.
주성분 분석(PCA)은 데이터의 분산을 최대한 보존하는 새로운 직교 축인 주성분을 찾는 선형 차원 축소 방법이다. 데이터를 가장 잘 설명하는 방향(분산이 큰 방향) 순서로 주성분을 구성하며, 상위 몇 개의 주성분만 선택하여 데이터를 압축한다. 이는 계산 복잡도를 낮추고 다중공선성 문제를 완화하는 데 효과적이다. PCA는 데이터 압축, 시각화, 전처리 단계에서 널리 사용된다.
비선형 구조를 가진 고차원 데이터의 시각화에는 t-SNE가 자주 활용된다. t-SNE는 고차원 공간에서의 데이터 점 간 유사도를 저차원(보통 2차원 또는 3차원) 공간에서의 확률 분포로 모델링하여, 국부적인 군집 구조를 보존하는 데 강점을 보인다. 특히 복잡한 매니폴드 학습에 적합하지만, 계산 비용이 높고 매개변수 설정에 민감하며, 생성된 맵의 전역적 구조 해석에 주의가 필요하다.
기법 | 주요 특징 | 주요 활용 목적 |
|---|---|---|
선형 변환, 분산 최대화, 계산 효율적 | 데이터 압축, 노이즈 제거, 시각화 전처리 | |
비선형 변환, 국부적 구조 보존 강조 | 고차원 데이터(이미지, 텍스트)의 2/3차원 시각화 |
이 외에도 선형 판별 분석(LDA)(지도 학습에 가까움), 자기조직화지도(SOM), 균일 매니폴드 근사와 투영(UMAP) 등 다양한 차원 축소 기법이 특정 문제와 데이터 유형에 맞게 개발되어 활용된다.
주성분 분석(PCA)은 차원 축소의 대표적인 기법 중 하나로, 고차원 데이터의 분산을 최대한 보존하면서 더 낮은 차원으로 데이터를 변환하는 방법이다. 데이터의 내재된 구조를 찾아 주요한 패턴을 추출하는 데 사용되며, 특히 노이즈 제거와 시각화에 효과적이다.
PCA는 데이터의 공분산 행렬을 계산하고, 이 행렬의 고유벡터와 고유값을 구하는 과정을 통해 작동한다. 고유값이 큰 순서대로 정렬된 고유벡터를 주성분이라고 부르며, 첫 번째 주성분은 데이터의 분산을 가장 크게 설명하는 방향을 나타낸다. 일반적으로 처음 몇 개의 주성분만 선택하여 원본 데이터를 투영함으로써 차원을 축소한다.
용어 | 설명 |
|---|---|
주성분(PC) | 데이터 분산의 방향을 나타내는 새로운 직교 좌표축 |
설명된 분산 | 각 주성분이 원본 데이터의 분산을 얼마나 설명하는지 나타내는 비율 |
스크리 플롯 | 고유값의 크기를 그래프로 나타내어 유의미한 주성분 개수를 결정하는 데 도움을 주는 도구 |
이 기법은 데이터 전처리 단계에서 널리 활용된다. 예를 들어, 수백 개의 특징을 가진 이미지 데이터나 유전자 발현 데이터에서 핵심 변수를 추출할 때 PCA를 적용한다. 또한, 3차원 이상의 데이터를 2차원이나 3차원으로 축소하여 인간이 이해하기 쉬운 형태로 시각화하는 데에도 유용하다. 그러나 PCA는 선형 변환에 기반하므로 비선형 관계를 가진 데이터에는 t-SNE나 커널 PCA 같은 다른 방법이 더 적합할 수 있다.
t-SNE는 고차원 데이터를 시각화하기 위해 널리 사용되는 차원 축소 기법이다. 주로 2차원 또는 3차원으로 데이터를 축소하여 인간이 이해하기 쉬운 형태로 표현하는 데 목적이 있다. 이 알고리즘은 2008년 로렌스 반 데르 마텐과 제프리 힌튼에 의해 제안되었다[2].
t-SNE의 핵심 원리는 데이터 포인트 간의 유사성을 확률로 모델링하고, 저차원 공간에서도 이 유사성 구조를 보존하도록 매핑하는 것이다. 고차원에서는 가우시안 분포를 사용해 유사도를 계산하고, 저차원에서는 꼬리가 더 두꺼운 t-분포를 사용한다. 이 t-분포의 사용은 저차원 공간에서 중간 거리의 포인트들을 더 멀리 떨어뜨려 군집 간의 구분을 명확하게 하는 효과가 있다. 결과적으로, 고차원 공간에서 가까운 점들은 저차원에서도 가깝게, 먼 점들은 더 멀리 배치되어 복잡한 구조를 시각적으로 드러내게 된다.
t-SNE는 특히 복잡한 비선형 구조를 가진 데이터의 시각화에 강점을 보인다. 예를 들어, MNIST 손글씨 숫자 데이터셋이나 단어 임베딩 벡터를 2차원 평면에 표현할 때, 유사한 숫자나 단어들이 자연스럽게 군집을 이루는 모습을 관찰할 수 있다. 그러나 몇 가지 주의점이 존재한다. 알고리즘의 결과는 초기 조건과 '퍼plexity'라는 주요 하이퍼파라미터에 민감할 수 있으며, 축소된 공간에서의 절대적 거리보다는 상대적 군집 구조에 의미를 두어야 한다. 또한 계산 복잡도가 높아 대규모 데이터셋에 직접 적용하기에는 비효율적일 수 있어, 보통 주성분 분석(PCA) 등을 선행하여 차원을 어느 정도 줄인 후에 적용하는 것이 일반적이다.

비지도 학습은 레이블이 없는 데이터에서 패턴을 발견하는 것이므로, 입력 데이터의 품질이 결과에 직접적인 영향을 미친다. 따라서 데이터 전처리는 비지도 학습 파이프라인의 핵심 단계로, 알고리즘이 데이터의 본질적인 구조를 효과적으로 학습할 수 있도록 데이터를 정제하고 변환하는 과정을 포함한다.
주요 전처리 작업으로는 결측치 처리, 이상치 탐지 및 제거, 데이터 스케일링, 그리고 범주형 데이터의 인코딩이 있다. 특히 K-평균 클러스터링이나 주성분 분석(PCA)과 같은 거리 기반 알고리즘은 특성 간 스케일 차이에 매우 민감하다. 예를 들어, '연봉'과 '나이'라는 두 특성이 있을 때, 스케일링 없이는 연봉의 큰 수치 변화가 알고리즘에 지배적인 영향을 미쳐 클러스터링 결과를 왜곡할 수 있다. 따라서 표준화나 정규화를 통해 모든 특성을 동일한 스케일로 맞추는 작업이 필수적이다.
전처리 작업 | 목적 | 비지도 학습에 미치는 영향 예시 |
|---|---|---|
결측치 처리 | 데이터의 완전성 보장 | 결측치가 많을 경우 데이터 분포 왜곡, 클러스터 중심 계산 오류 |
이상치 제거 | 데이터 분포의 정규화 | K-평균 클러스터링에서 클러스터 중심을 특이점으로 끌어당김 |
스케일링 | 특성 간 공정한 비교 가능 | |
차원 축소 | 노이즈 제거 및 계산 효율성 향상 | 주성분 분석(PCA) 등을 통해 주요 패턴에 집중, 시각화 용이 |
또한, 전처리 자체가 비지도 학습의 일부가 될 수도 있다. 예를 들어, 차원 축소 기법은 고차원 데이터의 시각화나 노이즈 제거를 위한 전처리 단계로 사용되기도 하지만, 그 자체가 데이터의 잠재 구조를 발견하는 비지도 학습 알고리즘이기도 하다. 결론적으로, 적절한 데이터 전처리는 비지도 학습 모델이 데이터 내에 숨겨진 유의미한 군집, 연관 규칙, 또는 이상 패턴을 더 정확하고 안정적으로 탐지할 수 있도록 하는 기반을 마련한다.

비지도 학습 방식은 레이블이 없는 데이터에서 패턴이나 구조를 발견하는 데 활용되며, 다양한 산업과 연구 분야에서 응용된다. 주요 응용 분야는 데이터의 특성과 목적에 따라 구분된다.
고객 세분화는 마케팅과 비즈니스 분석에서 널리 사용된다. 클러스터링 알고리즘을 통해 구매 기록, 인구통계학적 정보, 웹사이트 행동 데이터를 분석하여 유사한 특성을 가진 고객 그룹을 식별한다. 이를 통해 맞춤형 마케팅 전략을 수립하거나 제품 추천 시스템을 개선할 수 있다. 이상 탐지는 정상적인 패턴에서 벗어난 사례를 찾는 데 적용된다. 신용카드 사기 거래 탐지, 네트워크 침입 탐지, 제조 공정에서의 불량품 검출 등 보안과 품질 관리 분야에서 중요한 역할을 한다. 이 경우, 정상 데이터의 분포를 학습하여 그로부터 크게 벗어난 데이터 포인트를 이상치로 판별한다.
이미지 및 텍스트와 같은 비정형 데이터 분석에도 비지도 학습이 효과적이다. 이미지 분석에서는 차원 축소 기법을 사용하여 고차원의 픽셀 데이터를 시각화하거나, 유사한 이미지를 군집화하여 콘텐츠 기반 검색 시스템을 구축한다. 텍스트 분석에서는 대량의 문서 집합을 토픽 모델링이나 문서 클러스터링을 통해 주제별로 자동 분류하거나, 단어 임베딩을 통해 단어 간의 의미적 관계를 파악한다[3].
응용 분야 | 주요 목적 | 대표적 알고리즘 예시 |
|---|---|---|
고객 세분화 | 유사한 특성의 고객 군집 형성 | |
이상 탐지 | 정상 패턴에서의 편차 식별 | |
이미지 분석 | 시각적 패턴 군집화 또는 압축 | |
텍스트 분석 | 문서 군집화 또는 토픽 발견 | 잠재 디리클레 할당(LDA), Word2Vec |
고객 세분화는 비지도 학습 방식, 특히 클러스터링 알고리즘의 대표적인 응용 분야이다. 이는 레이블이 없는 고객 데이터를 분석하여 유사한 특성을 가진 고객 그룹을 자동으로 발견하고 정의하는 과정이다. 기업은 이를 통해 모든 고객을 단일 집단으로 취급하는 대신, 각 세그먼트의 특성에 맞는 맞춤형 마케팅 전략, 상품 추천, 고객 서비스를 설계할 수 있다.
분석에 사용되는 데이터는 인구통계학적 정보(나이, 성별, 지역), 구매 이력(구매 빈도, 평균 구매 금액, 최근 구매 시기), 웹사이트 행동 데이터(페이지 뷰, 클릭 스트림), 그리고 고객 만족도 조사 결과 등 다양하다. K-평균 클러스터링은 가장 널리 사용되는 알고리즘으로, 사전에 정의된 K개의 그룹으로 고객을 분할한다. 계층적 클러스터링은 덴드로그램을 통해 다양한 수준의 세분화 결과를 시각적으로 확인할 수 있게 한다.
고객 세분화의 결과는 다음과 같은 비즈니스 인사이트로 활용된다. 예를 들어, 고가의 상품을 자주 구매하는 소수 그룹(VIP 고객)을 식별하여 우대 관리하거나, 구매 이탈 위험이 높은 세그먼트를 찾아 사전에 예방 캠페인을 실행할 수 있다. 또한, 특정 상품 카테고리에만 관심을 보이는 고객 그룹을 발견하면 교차 판매 기회를 모색하는 데 도움이 된다.
세그먼트 유형 | 일반적 특성 | 가능한 마케팅 전략 |
|---|---|---|
충성도 높은 고객 | 높은 구매 빈도, 브랜드 애착도 강함 | VIP 프로그램, 사전 발매 혜택 |
가격 민감 고객 | 할인 상품 구매 비중 높음, 이탈률 높음 | 타겟 할인 쿠폰, 가격 비교 정보 제공 |
신규 잠재 고객 | 최근 가입, 탐색적 행동 많음 | 환영 프로모션, 핵심 제품 안내 |
이탈 위험 고객 | 구매 빈도 급감, 최근 구매 시기 오래됨 | 재활성화 캠페인, 불만 조사 및 해결 |
이러한 접근 방식은 마케팅 예산의 효율성을 높이고, 고객 생애 가치를 극대화하며, 새로운 시장 기회를 발견하는 데 기여한다.
이상 탐지는 정상적인 데이터의 패턴을 학습하여 그 패턴에서 벗어나는 드물고 예상치 못한 사례나 관측치를 식별하는 비지도 학습의 주요 응용 분야이다. 레이블이 지정된 이상 데이터가 충분하지 않은 경우가 많기 때문에, 비지도 학습 방식은 정상 데이터의 구조나 분포를 기반으로 모델을 구축하여 이를 기준으로 벗어난 샘플을 탐지하는 데 적합하다.
주요 접근 방식은 크게 두 가지로 나뉜다. 첫째는 정상 데이터가 밀집된 영역을 정의하고 그 경계를 벗어나는 데이터를 이상으로 판단하는 방법이다. 클러스터링 기법 중 하나인 DBSCAN은 밀도 기반으로 군집을 형성하며, 어느 군집에도 속하지 않는 잡음 점들을 이상치 후보로 탐지할 수 있다. 둘째는 데이터의 전체적인 분포나 특성을 모델링하여 재구성 오차가 큰 샘플을 이상으로 간주하는 방법이다. 주성분 분석과 같은 차원 축소 기법은 데이터를 저차원 공간으로 투영한 후 다시 복원하는 과정에서 정상 데이터는 원본과 유사하게 재구성되지만, 이상 데이터는 큰 오차를 보이는 원리를 활용한다.
기법 유형 | 대표 알고리즘 | 탐지 원리 |
|---|---|---|
밀도/거리 기반 | 정상 데이터가 모인 밀집 영역에서 벗어난 관측치 탐지 | |
재구성 오차 기반 | 정상 데이터의 패턴으로 재구성하기 어려워 오차가 큰 관측치 탐지 | |
통계 분포 기반 | 가우시안 혼합 모델 | 학습된 통계적 분포에서 발생 확률이 매우 낮은 관측치 탐지 |
이상 탐지는 사기 탐지, 네트워크 침입 탐지, 제조 결함 검출, 의료 진단 등 다양한 분야에서 활용된다. 예를 들어, 신용카드 거래 데이터에서 정상적인 소비 패턴을 학습하면, 이를 크게 벗어나는 비정상적인 대금 결제 시도를 실시간으로 탐지할 수 있다. 그러나 정상과 이상의 경계가 모호하거나, 정상 데이터 자체에 노이즈가 포함된 경우 탐지 성능이 저하될 수 있는 한계를 가진다.
비지도 학습은 레이블이 없는 이미지 데이터와 텍스트 데이터에서 숨겨진 구조나 패턴을 발견하는 데 효과적으로 활용된다. 이미지 분석에서는 컴퓨터 비전 분야에서 특징 추출이나 이미지 군집화에 주로 적용된다. 예를 들어, 합성곱 신경망의 오토인코더를 사용해 이미지를 압축 표현으로 학습한 뒤, 이를 바탕으로 유사한 이미지들을 그룹화할 수 있다. 이는 대량의 라벨링되지 않은 이미지 데이터베이스를 조직화하거나, 시각적 유사성을 기반으로 이미지를 검색하는 시스템을 구축하는 데 도움을 준다.
텍스트 분석에서는 자연어 처리 작업에 비지도 학습이 널리 쓰인다. 대표적인 기법으로는 토픽 모델링과 단어 임베딩이 있다. 잠재 디리클레 할당과 같은 토픽 모델링 알고리즘은 문서 집합에서 반복적으로 등장하는 단어들의 패턴을 찾아내어 주요 주제를 자동으로 추출한다. 또한, Word2Vec이나 GloVe 같은 임베딩 기법은 방대한 텍스트 코퍼스에서 단어의 분산 표현을 학습하여, 의미상 유사한 단어들이 벡터 공간에서 가까이 위치하도록 만든다.
이러한 접근법들은 문서 군집화, 감성 분석의 전처리 단계, 또는 검색 엔진의 성능 향상에 기여한다. 예를 들어, 뉴스 기사들을 주제별로 자동 분류하거나, 소셜 미디어의 대화에서 주요 이슈를 발견하는 데 활용될 수 있다. 이미지와 텍스트 모두에서, 비지도 학습은 데이터의 내재적 구조를 해석 가능한 형태로 드러내는 데 핵심적인 역할을 한다.

비지도 학습 방식은 레이블이 없는 데이터에서 패턴을 발견한다는 본질적 특성으로 인해 고유한 장점과 함께 명확한 한계를 지닌다.
주요 장점은 데이터에 대한 사전 지식이 거의 필요하지 않다는 점이다. 레이블링 비용이 들지 않아 대규모의 원시 데이터를 바로 분석에 활용할 수 있으며, 이는 빅데이터 시대에 큰 강점이 된다. 또한, 사람이 미리 인지하지 못한 숨겨진 구조나 패턴, 예상치 못한 이상치를 발견할 수 있는 탐색적 분석에 매우 효과적이다. 이를 통해 데이터에 대한 새로운 통찰을 얻고, 이후 지도 학습 모델을 위한 특성 공학이나 레이블 생성의 기초를 마련할 수 있다.
반면, 비지도 학습은 몇 가지 근본적인 한계를 안고 있다. 가장 큰 문제는 모델의 성능을 객관적으로 평가하기 어렵다는 점이다. 정답 레이블이 없기 때문에 발견된 클러스터나 패턴이 실제로 의미 있는지, 또는 알고리즘의 산출물을 어떻게 해석해야 할지 판단하기가 주관적일 수 있다. 또한, 대부분의 알고리즘이 데이터의 분포나 매개변수 설정에 결과가 크게 의존하며, 이는 재현성과 안정성 문제로 이어진다.
장점 | 한계 |
|---|---|
레이블링 비용 절감 | 결과 평가와 검증이 어려움 |
숨겨진 패턴 발견 가능 | 해석이 주관적일 수 있음 |
탐색적 데이터 분석에 적합 | 알고리즘과 매개변수 선택에 민감함 |
고차원 데이터의 구조 이해(차원 축소) | 목적에 부합하지 않는 무의미한 패턴을 찾을 위험 |
따라서 비지도 학습은 종종 지도 학습의 선행 단계나 보조 도구로 활용되며, 그 결과는 도메인 지식과 결합하여 신중하게 해석되어야 한다.
