의사결정 나무 모델 (r1)

1. 개요

의사결정 나무 모델은 분류와 회귀 분석 문제를 해결하기 위해 사용되는 지도 학습 기계 학습 알고리즘이다. 이 모델은 데이터의 특성에 기반한 일련의 질문(규칙)을 통해 결정을 내리는 과정을 나무 구조로 표현한다. 최종 결과는 리프 노드에 도달했을 때의 예측값(클래스 라벨 또는 수치)이다. 이 모델은 그 구조가 직관적이고 해석이 용이하여, 복잡한 블랙박스 모델이 지배적인 기계 학습 분야에서도 여전히 중요한 위치를 차지한다.

의사결정 나무의 핵심 아이디어는 데이터를 가장 잘 구분할 수 있는 질문(기준)을 반복적으로 찾아 특성 공간을 분할하는 것이다. 각 분할은 데이터 집합의 순수도를 높이거나 불확실성을 줄이는 방향으로 진행된다. 이 과정은 사전에 정의된 정지 조건을 만족할 때까지, 또는 더 이상 유의미한 분할이 불가능할 때까지 계속된다. 결과적으로 생성된 나무는 루트에서 리프까지의 경로가 하나의 분류 규칙이 된다.

이 모델은 금융 위험 평가, 의료 진단, 고객 세분화, 제조 공정 관리 등 다양한 분야에 적용된다. 특히 규칙 기반의 결정이 필요한 비즈니스 환경에서, 그 결정 근거를 명확히 설명할 수 있다는 점이 큰 장점으로 작용한다. 그러나 단일 나무는 데이터에 과도하게 적합되는 과적합 경향이 있어, 이를 보완하기 위해 랜덤 포레스트나 그래디언트 부스팅 같은 앙상블 학습 방법과 결합하여 사용되는 경우가 많다.

주요 알고리즘으로는 범주형 데이터 분류에 주로 사용되는 ID3와 그 후속인 C4.5, 그리고 분류와 회귀 모두에 사용 가능한 CART가 널리 알려져 있다. 각 알고리즘은 분할 기준을 계산하는 데 서로 다른 불순도 지표(예: 엔트로피, 지니 불순도, 분산 감소)를 활용한다.

2. 기본 개념과 원리

의사결정 나무 모델은 분류와 회귀 분석 문제를 해결하기 위해 사용되는 지도 학습 알고리즘이다. 이 모델은 데이터의 특성에 기반하여 일련의 질문(규칙)을 통해 결정을 내리는 과정을 나무 구조로 표현한다. 최종 목표는 순수도가 높은, 즉 동일한 클래스의 샘플로 구성된 리프 노드를 만드는 것이다.

모델의 핵심 구조는 루트 노드, 내부 노드, 리프 노드로 이루어진다. 루트 노드는 전체 데이터셋을 포함하는 시작점이다. 내부 노드는 특정 특성에 대한 조건(분할 기준)을 나타내며, 조건에 따라 데이터를 두 개 이상의 자식 노드로 나눈다. 이 분할 과정은 재귀적으로 반복되어 나무가 성장한다. 최종적으로 분할이 중단된 지점이 리프 노드가 되며, 여기서 분류의 경우 다수결로, 회귀의 경우 평균값으로 예측값이 결정된다.

분할의 질을 평가하는 데는 불순도 지표가 사용된다. 대표적인 지표로는 지니 불순도와 엔트로피가 있다. 지니 불순도는 한 노드에서 무작위로 두 샘플을 추출했을 때 서로 다른 클래스에 속할 확률을 의미하며, 값이 0에 가까울수록 순수도가 높다. 엔트로피는 정보 이론에서 유래된 개념으로, 노드 내 클래스 분포의 무질서함(불확실성)을 측정한다. 엔트로피 또한 0에 가까울수록 노드가 순수함을 나타낸다.

이 불순도 지표를 바탕으로 각 분할 지점의 효용성을 계산하는 것이 정보 이득이다. 정보 이득은 부모 노드의 불순도와 자식 노드들의 불순도 가중합의 차이로 정의된다. 정보 이득이 클수록 해당 특성으로 데이터를 분할했을 때 불순도가 크게 감소함, 즉 분류 능력이 뛰어남을 의미한다. 모델은 각 분기점에서 정보 이득(또는 지니 불순도 감소량)을 최대화하는 특성과 그 임계값을 선택하여 나무를 성장시킨다.

2.1. 노드와 가지의 구조

의사결정 나무 모델은 루트 노드, 내부 노드, 리프 노드로 구성된 계층적 트리 구조를 가진다. 루트 노드는 전체 데이터셋을 포함하는 최상위 노드로, 나무의 시작점이다. 각 내부 노드는 하나의 특성과 그 특성의 분할 기준에 따라 데이터를 두 개 이상의 하위 노드로 나눈다. 이 분할 과정은 재귀적으로 반복되며, 최종적으로 더 이상 분할되지 않는 노드가 리프 노드가 된다. 리프 노드는 분류 문제에서는 클래스 레이블을, 회귀 문제에서는 예측값을 출력한다.

노드와 노드를 연결하는 선을 가지 또는 분기라고 부른다. 각 가지는 특정 분할 조건을 의미한다. 예를 들어, "나이가 30세 이상인가?"라는 조건에 따라 데이터는 '예' 또는 '아니오' 가지를 따라 서로 다른 자식 노드로 이동한다. 이 구조는 데이터를 계속해서 더 작고 순수한(동질적인) 하위 집합으로 분할하는 과정을 시각적으로 표현한 것이다.

의사결정 나무의 구조는 일반적으로 위에서 아래로, 즉 루트 노드에서 리프 노드 방향으로 읽는다. 다음은 간단한 분류 나무의 노드 유형과 역할을 요약한 표이다.

노드 유형	설명	역할
루트 노드	트리의 최상위 노드	전체 학습 데이터를 포함하며, 첫 번째 분할을 수행한다.
내부 노드	루트와 리프 사이의 노드	특성과 분할 기준을 가지며, 데이터를 하위 노드로 분할한다.
리프 노드	트리의 최종 노드	더 이상 분할되지 않으며, 최종 예측 결과(클래스 또는 값)를 가진다.

이러한 계층적 구조 덕분에 모델의 의사결정 경로를 사람이 쉽게 추적하고 해석할 수 있다. 예를 들어, 리프 노드에 도달하기까지 거친 내부 노드들의 분할 조건들을 순서대로 나열하면 하나의 결정 규칙이 완성된다.

2.2. 순수도와 불순도 지표

의사결정 나무 모델은 데이터를 분할할 때 각 노드의 순수도를 최대화하거나 불순도를 최소화하는 방향으로 학습한다. 순수도란 특정 노드에 속한 샘플들이 모두 동일한 클래스에 속하는 정도를 의미한다. 반대로 불순도는 노드 내 샘플들의 클래스가 서로 얼마나 섞여 있는지를 나타내는 척도이다. 이상적인 분할은 자식 노드들이 부모 노드보다 더 순수해지도록, 즉 불순도가 감소하도록 하는 것이다.

불순도를 정량화하기 위해 여러 지표가 사용된다. 대표적인 지표로는 지니 불순도, 엔트로피, 분류 오차가 있다. 지니 불순도는 한 노드에서 무작위로 두 샘플을 추출했을 때 서로 다른 클래스에 속할 확률을 계산한다. 값이 0이면 해당 노드는 완전히 순수한 상태이며, 값이 클수록 클래스가 고르게 섞여 있음을 의미한다. 엔트로피는 정보 이론에서 비롯된 개념으로, 노드 내 정보의 무질서도를 측정한다. 엔트로피 역시 0에 가까울수록 순수도가 높고, 값이 클수록 불순도가 높다.

이러한 지표들은 분할의 품질을 평가하는 기준으로 직접 사용되기도 하지만, 주로 분할 전후의 불순도 감소량을 계산하는 데 활용된다. 예를 들어, 정보 이득은 부모 노드의 엔트로피에서 자식 노드들의 가중 평균 엔트로피를 뺀 값으로 정의된다. 정보 이득이 크다는 것은 해당 분할로 인해 불순도가 크게 줄어들었음을 의미하므로, 모델은 학습 과정에서 정보 이득을 최대화하는 분할 기준을 선택한다.

불순도 지표	계산식 (C는 클래스 집합, p_i는 클래스 i의 비율)	특징
지니 불순도	$1 - \sum_{i \in C} (p_i)^2$	계산 효율이 좋으며, CART 알고리즘의 기본 지표로 널리 사용된다.
엔트로피	$-\sum_{i \in C} p_i \log_2(p_i)$	정보 이득 계산의 기반이 된다. ID3 알고리즘과 C4.5 알고리즘에서 사용된다.
분류 오차	$1 - \max(p_i)$	가장 간단한 지표이지만, 분할 성능을 예민하게 반영하지 못해 실제 분할 기준으로는 덜 사용된다.

2.3. 정보 이득과 지니 불순도

의사결정 나무 모델을 구축할 때, 각 노드에서 어떤 특성을 기준으로 데이터를 분할할지 결정하는 데는 불순도를 측정하는 지표가 사용된다. 이 과정에서 가장 중요한 개념은 정보 이득과 지니 불순도이다. 정보 이득은 엔트로피의 감소량을 기반으로 하며, 지니 불순도는 분류 오류 확률을 기반으로 한다. 두 지표 모두 자식 노드들의 순수도가 높아지는 방향, 즉 불순도가 낮아지는 방향으로 분할을 유도한다.

정보 이득은 클라우드 섀넌의 정보 이론에서 도입된 엔트로피 개념을 활용한다. 엔트로피는 데이터 집합의 불확실성이나 무질서도를 수치화한 것으로, 0에서 1 사이의 값을 가진다. 특정 노드의 엔트로피가 0이면 해당 노드의 샘플들이 모두 동일한 클래스에 속한다는 것을 의미한다. 정보 이득은 분할 전 부모 노드의 엔트로피에서 분할 후 자식 노드들의 가중 평균 엔트로피를 뺀 값으로 계산된다. 수식은 다음과 같다.

정보 이득 = 엔트로피(부모) - Σ ( (자식 노드 샘플 수 / 부모 노드 샘플 수) * 엔트로피(자식) )

정보 이득이 클수록 분할로 인해 불확실성이 크게 감소했음을 의미하므로, 모델은 각 분기점에서 정보 이득을 최대화하는 특성과 분할 기준을 선택한다.

지니 불순도는 분류 문제에서 다른 지표로, 한 노드에서 무작위로 두 개의 샘플을 추출했을 때 서로 다른 클래스에 속할 확률을 의미한다. 지니 불순도가 0이면 노드 내 모든 샘플이 완전히 동일한 클래스에 속한다. 계산은 1에서 각 클래스 비율의 제곱합을 뺀 값으로 이루어진다. 예를 들어, 어떤 노드에 클래스 A 비율이 p, 클래스 B 비율이 (1-p)라면, 지니 불순도는 1 - (p² + (1-p)²)이다. CART 알고리즘은 이 지니 불순도의 감소량을 최대화하는 방식으로 분할을 수행한다.

지표	기반 개념	최적화 목표	주로 사용되는 알고리즘
정보 이득	엔트로피 (불확실성)	정보 이득 최대화	ID3, C4.5
지니 불순도	분류 오류 확률	지니 불순도 감소량 최대화	CART

두 지표는 일반적으로 유사한 분할 결과를 도출하지만, 계산 방식의 차이가 있다. 엔트로피는 로그 계산을 포함하므로 계산 비용이 지니 불순도보다 약간 높을 수 있다. 실무에서는 지니 불순도가 더 널리 사용되는 경향이 있으며, CART를 기반으로 한 랜덤 포레스트나 그래디언트 부스팅 같은 현대적 앙상블 방법의 기본 분할 기준으로 채택된다.

3. 모델 구축 과정

의사결정 나무 모델의 구축 과정은 크게 나무 성장, 정지 조건 설정, 가지치기의 세 단계로 나뉜다. 이 과정은 주어진 데이터로부터 예측 또는 분류 규칙을 학습하는 것을 목표로 한다.

첫 번째 핵심 단계는 특성 선택과 분할 기준을 정하는 것이다. 모델은 루트 노드에서 시작하여 데이터를 가장 잘 구분할 수 있는 특성과 그 기준값을 찾는다. 이 선택은 일반적으로 정보 이득이 최대가 되거나 지니 불순도가 최소가 되는 지점을 계산하여 결정한다. 각 후보 특성과 가능한 분할 지점에 대해 순수도 지표를 계산하고, 가장 순수한 하위 그룹(동일한 클래스의 샘플로 구성된)을 생성하는 분할을 선택한다. 이 과정은 각 내부 노드에서 재귀적으로 반복된다.

분할은 미리 정의된 정지 조건에 도달할 때까지 계속된다. 일반적인 정지 조건은 다음과 같다.

노드에 속한 모든 샘플이 동일한 클래스일 때
노드에 속한 샘플 수가 미리 정한 최소값 이하일 때
더 이상 유의미한 정보 이득을 제공하는 특성이 없을 때
나무의 최대 깊이에 도달했을 때

정지 조건이 충족되지 않으면 나무는 계속 성장하여 잎 노드를 생성한다. 그러나 이렇게 완전히 성장한 나무는 훈련 데이터에 지나치게 맞추어져 과적합되기 쉽다. 따라서 최종 단계로 가지치기를 수행한다. 가지치기는 성장이 완료된 나무에서 예측력에 기여하지 못하는 분기를 제거하여 모델의 복잡도를 줄이고 일반화 성능을 높인다. 일반적으로 검증 세트의 성능을 기준으로, 제거해도 성능 저하가 미미한 가지를 아래에서 위로 제거하는 후위 가지치기 방식을 사용한다.

3.1. 특성 선택과 분할 기준

의사결정 나무 모델을 구축할 때 각 노드에서 어떤 특성을 사용하여 데이터를 분할할지 결정하는 과정이 핵심이다. 이 과정은 정보 이득, 지니 불순도, 또는 분산 감소와 같은 기준을 최적화하는 방식으로 이루어진다. 알고리즘은 가능한 모든 특성과 가능한 모든 분할 지점(연속형 변수의 경우) 또는 범주(범주형 변수의 경우)에 대해 기준을 계산하고, 그중 기준을 가장 많이 개선시키는 분할을 선택한다.

분할 기준으로 가장 널리 사용되는 척도는 정보 이득과 지니 불순도이다. 정보 이득은 분할 전후의 엔트로피 차이를 기반으로 한다. 엔트로피는 데이터 집합의 불확실성이나 무질서도를 측정하는 지표로, 값이 0에 가까울수록 순수한(한 클래스로만 구성된) 노드를 의미한다. 정보 이득이 큰 분할은 자식 노드들의 순수도를 높이는 분할이다. 한편, 지니 불순도는 한 노드에서 무작위로 두 개의 샘플을 추출했을 때 서로 다른 클래스에 속할 확률을 의미하며, 이 값이 작을수록 노드가 순수하다. CART 알고리즘은 주로 지니 불순도의 감소를 분할 기준으로 사용한다.

분할은 특성의 유형에 따라 다르게 수행된다. 범주형 변수의 경우, 각 범주를 직접 분할 기준으로 사용하거나(예: '색상=빨강' 대 '색상≠빨강'), 범주들을 특정 순서로 그룹화하여 분할할 수 있다. 연속형 변수의 경우, 데이터를 정렬한 후 인접한 값 사이의 중간점들을 후보 분할 지점으로 삼아 가장 좋은 기준값을 제공하는 임계값을 찾는다. 이 과정은 계산 비용이 높을 수 있지만, 데이터를 효율적으로 분할하는 데 필수적이다.

특성 유형	분할 방식	주요 고려사항
범주형	각 범주별 분할 또는 범주 그룹화	범주의 수가 많으면 과적합 위험이 증가한다.
연속형	정렬 후 인접 값의 중간점을 후보로 한 임계값 탐색	최적의 분할 임계값을 찾기 위해 정렬이 선행되어야 한다.

이러한 특성 선택과 분할 과정은 루트 노드에서 시작하여 재귀적으로 반복되며, 정지 조건을 만날 때까지 나무를 성장시킨다. 올바른 분할 기준 선택은 모델의 정확도와 복잡도를 결정하는 중요한 요소이다.

3.2. 나무 성장(분할)과 정지 조건

의사결정 나무 모델의 구축은 루트 노드에서 시작하여 데이터를 재귀적으로 분할하는 과정, 즉 나무를 성장시키는 과정이다. 이 과정은 특정 정지 조건이 충족될 때까지 계속된다.

분할 과정은 일반적으로 탐욕 알고리즘에 기반한다. 각 단계에서 모델은 가능한 모든 분할 지점을 평가하여, 선택된 불순도 지표(예: 지니 불순도 또는 엔트로피)를 가장 크게 감소시키는, 즉 정보 이득을 최대화하는 특성과 그 기준값을 찾는다. 이렇게 선택된 기준으로 부모 노드의 데이터를 두 개 이상의 자식 노드로 나눈다. 각 자식 노드는 부모 노드보다 더 순수한(동일한 클래스의 샘플 비율이 높은) 데이터 세트를 포함하게 된다. 이 과정은 각 말단 노드(리프 노드)가 더 이상 분할되지 않을 때까지 재귀적으로 반복된다.

나무의 성장을 멈추는 정지 조건은 과적합을 방지하는 데 중요하다. 일반적인 조건은 다음과 같다.

* 해당 노드의 모든 샘플이 동일한 클래스에 속한다.

* 노드에 도달한 샘플의 수가 사전에 정의된 최소값(예: min_samples_split)보다 적다.

* 분할로 인한 불순도 감소량(정보 이득)이 미리 설정한 임계값보다 작다.

* 나무의 깊이가 허용 최대 깊이(max_depth)에 도달한다.

이러한 조건들 중 하나라도 충족되면, 해당 노드는 더 이상 분할되지 않고 최종 리프 노드가 된다. 리프 노드는 분류 문제에서는 다수결 투표를 통해, 회귀 문제에서는 노드 내 샘플 값의 평균을 통해 예측값을 출력한다. 정지 조건을 너무 느슨하게 설정하면 나무가 지나치게 복잡해져 훈련 데이터에 과적합할 위험이 있다. 반대로 너무 엄격하게 설정하면 나무가 충분히 성장하지 못해 과소적합할 수 있다.

3.3. 가지치기

가지치기는 의사결정 나무 모델이 과적합되는 것을 방지하기 위해, 모델의 복잡도를 줄이는 과정이다. 학습 데이터에 지나치게 맞춰져 깊고 복잡하게 자란 나무는 훈련 데이터에서는 높은 성능을 보이지만, 새로운 데이터에 대한 일반화 성능이 떨어지는 문제가 발생한다. 가지치기는 이러한 문제를 해결하기 위해, 모델의 예측 능력에 크게 기여하지 않는 일부 가지(노드)를 제거하여 나무를 단순화한다.

가지치기 방법은 크게 사전 가지치기와 사후 가지치기로 나뉜다. 사전 가지치기는 나무를 성장시키는 과정에서, 미리 설정한 정지 조건(예: 최대 깊이, 노드의 최소 샘플 수)에 도달하면 분할을 중단하는 방식이다. 이 방법은 계산 비용이 적게 들지만, 최적의 시점을 미리 판단하기 어렵다는 단점이 있다. 반면, 사후 가지치기는 먼저 제한 없이 나무를 완전히 성장시킨 후, 과적합을 유발할 수 있는 하위 가지들을 제거하는 방식이다. 일반적으로 사후 가지치기가 더 나은 일반화 성능을 보이는 것으로 알려져 있다.

사후 가지치기에서는 주로 비용-복잡도 가지치기 기법이 사용된다. 이 기법은 나무의 오류(비용)와 복잡도(리프 노드의 수)를 함께 고려한 수식을 통해, 교차 검증 데이터에서 성능이 가장 좋은 서브트리를 선택한다. 구체적인 과정은 다음과 같다.

1. 완전히 성장한 나무를 시작점으로 한다.

2. 가장 약한 연결(가장 적은 정보 이득을 제공하는 분할)을 가진 내부 노드를 찾아 그 하위 가지를 제거하고, 해당 노드를 리프 노드로 만든다.

3. 검증 데이터 세트를 사용하여 각 단계의 나무 성능을 평가한다.

4. 성능이 더 이상 개선되지 않거나, 사전에 정의된 기준에 도달할 때까지 과정을 반복한다.

가지치기를 통해 최종 모델의 크기와 복잡도가 줄어들면, 모델의 해석이 더 쉬워지고 새로운 데이터에 대한 예측 정확도와 안정성이 향상된다. 적절한 가지치기 전략은 의사결정 나무 모델의 실용적 성능을 결정하는 핵심 요소 중 하나이다.

4. 주요 알고리즘

의사결정 나무 모델을 구현하는 대표적인 알고리즘으로는 ID3, C4.5/C5.0, CART 등이 있다. 이들은 정보 이득이나 지니 불순도와 같은 기준을 사용하여 노드를 분할하는 방식과 생성되는 나무의 형태(분류 또는 회귀)에서 차이를 보인다.

가장 초기의 알고리즘 중 하나인 ID3(Iterative Dichotomiser 3)는 로스 퀸란에 의해 1986년 제안되었다. 이 알고리즘은 범주형 특성만을 처리할 수 있으며, 분할 기준으로 정보 이득을 최대화하는 특성을 선택한다. 그러나 수치형 데이터를 다루지 못하고, 학습 데이터에 없는 범주를 처리할 수 없으며, 과적합되기 쉬운 단점이 있다.

이러한 ID3의 한계를 보완하여 개발된 것이 C4.5 알고리즘이다. C4.5는 수치형 속성을 이산화하여 처리할 수 있고, 결측값을 다루는 메커니즘을 포함한다. 또한 분할 기준으로 정보 이득 대신 정보 이득비를 사용하여 값이 많은 특성에 과도하게 편향되는 문제를 완화했다. 이후 상용화된 개선판이 C5.0이다. 주요 알고리즘의 특징을 비교하면 다음과 같다.

알고리즘	주요 분할 기준	처리 가능 데이터	나무 유형	주요 특징
ID3	정보 이득	범주형 특성만	분류 나무	범주형 데이터 전용, 과적합 취약
C4.5 / C5.0	정보 이득비	범주형 + 수치형	분류 나무	수치형 처리 가능, 결측값 처리, 가지치기 기능
CART	지니 불순도 (분류) / 분산 감소 (회귀)	범주형 + 수치형	분류 & 회귀 나무	이진 분할, 회귀 문제 적용 가능

한편, CART(Classification And Regression Trees) 알고리즘은 이름 그대로 분류와 회귀 문제 모두에 적용 가능하다는 점이 특징이다. 이 알고리즘은 각 노드에서 항상 두 개의 자식 노드로만 분기하는 이진 나무를 생성한다. 분류 문제에서는 지니 불순도를, 회귀 문제에서는 목표값의 분산을 최소화하는 방향으로 분할을 수행한다. CART는 모델의 복잡도를 제어하기 위한 비용-복잡도 가지치기를 공식적으로 도입했다[1].

4.1. ID3

ID3 알고리즘은 의사결정 나무 모델을 생성하는 초기 알고리즘 중 하나이다. 이 알고리즘은 1986년 로스 퀸란에 의해 제안되었으며, 정보 이득을 기준으로 특성을 선택하여 나무를 재귀적으로 분할하는 방식을 사용한다. ID3는 분류 문제를 해결하기 위해 설계되었으며, 범주형 특성만을 처리할 수 있다는 제약이 있다.

알고리즘의 핵심은 각 단계에서 가장 높은 정보 이득을 제공하는 특성을 선택하여 데이터를 분할하는 것이다. 정보 이득은 엔트로피 개념을 기반으로 계산된다. 엔트로피는 데이터 집합의 불확실성이나 무질서도를 측정하는 지표이다. 특정 특성으로 데이터를 분할하기 전후의 엔트로피 감소량이 정보 이득이 된다. ID3는 이 값이 가장 큰 특성을 분할 기준으로 선택한다. 알고리즘의 동작 과정은 다음과 같다.

1. 데이터 집합의 모든 인스턴스가 동일한 클래스에 속하면, 해당 클래스로 레이블된 리프 노드를 생성하고 종료한다.

2. 분할할 특성이 더 이상 없으면, 다수결 투표를 통해 가장 빈번한 클래스로 레이블된 리프 노드를 생성하고 종료한다.

3. 그렇지 않으면, 정보 이득이 최대가 되는 특성을 계산하여 선택한다.

4. 선택된 특성의 각 가능한 값에 대해, 해당 값으로 필터링된 데이터의 부분 집합을 생성한다.

5. 각 부분 집합에 대해 1단계부터 알고리즘을 재귀적으로 적용하여 서브트리를 생성한다.

ID3 알고리즘은 몇 가지 명확한 한계를 가진다. 첫째, 수치형 데이터를 직접 처리할 수 없어 전처리가 필요하다. 둘째, 학습 데이터에 없는 특성 값을 가진 새로운 샘플을 처리하는 능력이 부족하다. 셋째, 과적합에 매우 취약하며, 가지치기 기능을 기본적으로 제공하지 않는다. 이러한 단점들은 후속 알고리즘인 C4.5에서 개선되었다. C4.5는 수치형 데이터 처리, 결측값 처리, 가지치기 기능 등을 도입하여 ID3의 한계를 극복했다.

4.2. C4.5 / C5.0

C4.5 알고리즘은 ID3 알고리즘의 한계를 보완하고 발전시킨 의사결정 나무 알고리즘이다. 로스 퀸란이 1993년에 제안했으며, 이후 상용화된 버전이 C5.0이다[2]. 이 알고리즘의 가장 큰 개선점은 연속형 변수를 직접 처리할 수 있고, 결측값을 다루는 메커니즘을 갖추며, 가지치기를 통한 과적합 방지 기능을 도입한 것이다. 또한, 정보 이득 대신 정보 이득비를 사용하여 값이 많은 특성에 대한 편향을 줄였다.

C4.5는 분할 기준으로 정보 이득비를 사용한다. 정보 이득비는 정보 이득을 해당 특성의 고유한 값의 수를 반영하는 '분할 정보'로 나눈 값이다. 이는 ID3 알고리즘이 값이 많은 특성(예: ID 번호)을 과도하게 선호하는 문제를 완화한다. 연속형 변수의 경우, 가능한 모든 분할 점을 검토하여 정보 이득비가 최대가 되는 임계값을 찾아 이진 분할을 수행한다.

C5.0은 C4.5의 상용 후속 버전으로, 속도와 메모리 효율성이 크게 개선되었으며, 부스팅 기법을 활용한 앙상블 모델 구축 기능을 추가했다. 또한, 비용 인식 분류가 가능하여 오분류 비용을 고려한 모델을 생성할 수 있다. C4.5/C5.0 알고리즘의 주요 특성과 처리 방식을 정리하면 다음과 같다.

특성	C4.5의 처리 방식
분할 기준	정보 이득비 사용
변수 유형	범주형, 연속형 모두 처리 가능
결측값 처리	해당 특성의 정보 이득 비율에 따라 가중치를 할당하여 분배
과적합 방지	오류 기반 가지치기(Error-based Pruning) 적용
출력 형태	다지 분류(범주형) 또는 이진 분류(연속형 이진 분할)

C4.5와 C5.0은 명목형 및 수치형 데이터를 모두 처리할 수 있는 강력함과 생성된 규칙의 해석 가능성 덕분에 실무에서 널리 사용되었다. 이들은 ID3의 개념적 기반을 유지하면서 실용성을 크게 높인 알고리즘으로 평가받는다.

4.3. CART

CART는 분류와 회귀 모두에 사용할 수 있는 의사결정 나무 알고리즘이다. 이 알고리즘은 지니 불순도를 기본 분할 기준으로 사용하며, 이진 분할 방식을 채택한다는 점이 특징이다. 모든 내부 노드는 정확히 두 개의 자식 노드로 분할되며, 이는 나무 구조를 단순화하고 계산 효율성을 높인다.

분류 문제에서는 지니 불순도를 최소화하는 방향으로, 회귀 문제에서는 분산 감소를 최대화하는 방향으로 각 분할 지점을 선택한다. CART 알고리즘은 가지치기를 위해 비용-복잡도 가지치기라는 방법을 사용한다. 이 방법은 나무의 복잡도에 페널티를 부과하는 하이퍼파라미터 알파를 도입하여, 과적합된 큰 나무에서 시작해 서브트리를 순차적으로 제거하며 최적의 나무 크기를 찾는다.

CART 알고리즘의 주요 특징은 다음과 같이 요약할 수 있다.

특징	설명
문제 유형	분류와 회귀 모두 지원
분할 방식	모든 노드에서 이진 분할 수행
분할 기준	분류: 지니 불순도 최소화 / 회귀: 분산 감소 최대화
가지치기	비용-복잡도 가지치기 사용
최종 노드 출력	분류: 다수결 클래스 / 회귀: 샘플 값의 평균

이 알고리즘은 그 유연성 덕분에 다양한 머신러닝 앙상블 방법의 기본 구성 요소로 널리 사용된다. 특히 랜덤 포레스트나 그래디언트 부스팅 머신과 같은 강력한 모델들은 수많은 CART 나무를 조합하여 예측 성능을 극대화한다.

5. 장단점

의사결정 나무 모델의 가장 큰 장점은 해석이 용이하고 직관적이라는 점이다. 모델의 구조가 나무 형태로 시각화되기 때문에, 데이터가 어떻게 분류되거나 예측값이 도출되는지 그 과정을 쉽게 추적하고 이해할 수 있다. 이는 블랙박스 모델로 불리는 복잡한 알고리즘과 대비되는 중요한 특징이다. 또한, 모델이 특정 분할 기준을 선택하는 과정을 통해 데이터의 어떤 특성이 중요한지에 대한 통찰을 제공한다. 수치형과 범주형 데이터를 모두 처리할 수 있으며, 데이터의 정규화나 표준화와 같은 특별한 전처리가 크게 필요하지 않은 경우가 많다.

주요 단점은 과적합에 매우 취약하다는 것이다. 나무가 지나치게 깊게 성장하여 훈련 데이터의 잡음이나 특이치까지 완벽하게 학습하려는 경향이 있다. 이는 훈련 데이터에서는 높은 성능을 보이지만, 새로운 데이터에 대한 일반화 성능이 크게 떨어지는 결과를 초래한다. 이를 완화하기 위해 가지치기와 같은 기법이 필수적으로 적용된다. 또한, 의사결정 경계가 데이터 축에 수직 또는 수평하게 형성되기 때문에, 비선형적이거나 복잡한 관계를 학습하는 데 한계가 있을 수 있다.

의사결정 나무의 불안정성도 단점으로 지적된다. 훈련 데이터에 작은 변화가 생겨도, 상위 노드에서의 분할 기준이 달라지면서 전혀 다른 형태의 나무가 생성될 수 있다[3]. 이는 모델의 예측이 일관적이지 않을 수 있음을 의미한다. 이러한 단점들은 단일 의사결정 나무보다는 랜덤 포레스트나 그래디언트 부스팅 같은 앙상블 방법을 통해 보완되는 경우가 많다.

5.1. 해석 용이성과 직관성

의사결정 나무 모델의 가장 큰 장점 중 하나는 그 해석이 용이하고 결과가 직관적이라는 점이다. 이는 블랙박스 모델로 불리는 많은 복잡한 머신러닝 알고리즘과 대비되는 특징이다. 모델이 어떻게 최종 결정을 내렸는지 그 경로를 쉽게 추적하고 이해할 수 있다.

의사결정 과정은 나무의 루트 노드에서 시작하여 리프 노드에 도달할 때까지의 일련의 질문들로 구성된다. 각 분기는 "특성 A의 값이 임계값 X보다 큰가?"와 같은 간단한 조건문에 해당한다. 따라서 최종 예측이나 분류 결과에 이르기까지 어떤 규칙들이 적용되었는지를 나무 구조를 따라가며 명확하게 설명할 수 있다. 이는 비전문가에게도 모델의 논리를 시각적으로 전달하기에 매우 유리하다.

이러한 해석 용이성은 금융, 의료, 법률 등 결정의 근거를 설명해야 하는 도메인에서 특히 중요하다. 예를 들어, 대출 승인 여부를 결정하는 모델이 있다면, "소득이 특정 금액 이상이고 부채 비율이 특정 수준 이하인 경우 승인"과 같은 규칙을 명시적으로 제시할 수 있다. 이는 모델의 투명성과 신뢰성을 높이는 데 기여한다.

장점	설명
규칙 기반 설명	최종 결과는 일련의 IF-THEN 규칙으로 변환되어 설명 가능하다.
시각적 이해	나무 다이어그램을 통해 전체 의사결정 흐름을 한눈에 파악할 수 있다.
특성 중요도 파악	상위 노드에서 분할에 사용된 특성이 일반적으로 더 중요한 특성으로 간주된다.
비선형 관계 처리	선형 모델과 달리 특성 간의 복잡한 상호작용을 자동으로 포착할 수 있다.

단, 나무의 깊이가 깊어지고 복잡해질수록 해석의 용이성은 점차 감소한다. 수백 개의 노드로 구성된 매우 깊은 나무는 시각적으로 이해하기 어렵고, 설명해야 할 규칙의 수가 많아져 실용적인 설명력을 잃을 수 있다.

5.2. 과적합 문제

의사결정 나무 모델은 훈련 데이터에 지나치게 복잡하게 맞추는 경향이 있어 과적합 문제에 취약하다. 이는 나무가 지나치게 깊게 성장하거나 많은 가지를 생성하여 훈련 세트의 노이즈나 특정 패턴까지 학습하는 현상을 의미한다. 결과적으로 훈련 데이터에서는 매우 높은 정확도를 보이지만, 새로운 데이터나 테스트 데이터에 대한 일반화 성능은 크게 떨어진다.

과적합의 주요 원인은 나무가 중단 없이 분할되어 각 잎 노드가 단 하나의 샘플만을 포함하거나 매우 적은 샘플을 포함할 때까지 성장하는 것이다. 이러한 최대 깊이의 나무는 훈련 데이터의 모든 예외 사항을 기억하는 형태가 되어 모델의 복잡도가 불필요하게 증가한다. 특히 데이터의 특성 수가 많거나 샘플 수가 적을 때, 또는 데이터에 노이즈가 많이 포함되어 있을 때 이 문제는 더욱 심각해진다.

과적합을 완화하기 위한 주요 기법은 다음과 같다.

기법	설명
가지치기	완전히 성장한 나무에서 불필요하거나 정보가 적은 가지를 제거하여 모델을 단순화한다. 사후 가지치기가 일반적이다.
사전 가지치기	나무 성장 중 특정 조건(최소 샘플 수, 최대 깊이, 정보 이득 임계값 등)에 도달하면 분할을 중단한다.
최소 샘플 수 설정	분할을 허용하기 위한 노드 내 최소 데이터 샘플 수를 지정하여 노이즈에 민감한 분할을 방지한다.
최대 깊이 제한	나무가 성장할 수 있는 최대 레벨(깊이)을 제한하여 모델 복잡도를 통제한다.

이러한 방법들은 모델의 복잡도와 일반화 성능 사이의 균형을 찾는 데 목적이 있다. 적절한 가지치기나 제약 조건 설정을 통해 훈련 정확도를 약간 희생하더라도 테스트 데이터에서의 안정적인 성능을 확보하는 것이 최종 목표이다.

6. 앙상블 방법과의 연계

의사결정 나무는 단일 모델로 사용될 때 과적합에 취약하고 변동성이 큰 경향이 있다. 이러한 단점을 보완하고 예측 성능을 향상시키기 위해 다수의 의사결정 나무를 결합하는 앙상블 학습 방법이 널리 활용된다. 대표적인 앙상블 방법으로는 배깅 기반의 랜덤 포레스트와 부스팅 기반의 그래디언트 부스팅이 있다.

랜덤 포레스트는 배깅의 대표적인 알고리즘으로, 원본 데이터셋에서 무작위로 복원 추출한 여러 개의 부트스트랩 샘플을 생성하고, 각 샘플에 대해 하나의 의사결정 나무를 훈련시킨다. 여기에 더해, 각 노드에서 분할에 사용할 특성의 후보군도 무작위로 선택하여 모델들의 다양성을 극대화한다. 최종 예측은 모든 개별 나무의 예측 결과를 투표(분류)하거나 평균(회귀)하여 결정한다. 이 과정을 통해 단일 나무의 높은 분산을 효과적으로 줄일 수 있다.

특성	랜덤 포레스트	그래디언트 부스팅
기본 원리	배깅 (병렬 학습)	부스팅 (순차적 학습)
나무 관계	독립적으로 생성	이전 나무의 오차를 보완하며 생성
학습 속도	병렬 처리 가능하여 상대적으로 빠름	순차적 학습으로 상대적으로 느림
과적합	다수의 나무로 인해 강건함	너무 많은 나무를 사용하면 과적합 가능성 있음
주요 하이퍼파라미터	나무 수, 최대 깊이, 분할 특성 후보 수	나무 수, 학습률, 나무의 최대 깊이

반면, 그래디언트 부스팅은 약한 학습기(보통 얕은 의사결정 나무)들을 순차적으로 훈련시킨다. 각 단계에서는 이전까지의 모델들이 예측한 결과와 실제 값 사이의 잔차(오차)에 주목하여, 그 잔차를 줄이는 방향으로 새로운 나무를 학습시킨다. 이 과정은 손실 함수의 그래디언트(기울기)를 따라가며 모델을 개선한다는 의미에서 그 이름이 유래되었다. XGBoost, LightGBM, CatBoost 등이 그래디언트 부스팅의 효율적인 구현체로 널리 사용된다.

6.1. 랜덤 포레스트

랜덤 포레스트는 의사결정 나무 모델의 주요 단점인 과적합 문제를 해결하고 일반화 성능을 향상시키기 위해 고안된 앙상블 학습 방법이다. 이 방법은 다수의 의사결정 나무를 생성하고, 그 결과를 종합하여(보통 투표나 평균) 최종 예측을 수행한다. 핵심 아이디어는 "다수의 약한 학습기를 결합하여 하나의 강력한 학습기를 만드는 것"이다.

랜덤 포레스트의 구축 과정은 두 가지 주요한 무작위성에 기반한다. 첫째는 부트스트랩 샘플링이다. 원본 데이터셋에서 중복을 허용하여 무작위로 추출한 여러 개의 샘플 데이터셋을 생성한다. 각 의사결정 나무는 이렇게 만들어진 서로 다른 샘플 데이터셋을 기반으로 학습한다. 둘째는 특성의 무작위 선택이다. 각 노드에서 분할 기준을 찾을 때, 모든 특성을 고려하는 대신 무작위로 선택된 특성들의 부분 집합만을 후보로 사용한다. 이 두 가지 무작위성은 각 나무의 다양성을 높여 서로 다른 패턴을 학습하게 하며, 결과적으로 앙상블의 예측 오차를 줄인다.

과정	설명	목적
부트스트랩 샘플링	원본 데이터에서 중복을 허용한 무작위 복원 추출로 여러 학습 데이터셋 생성	각 나무의 학습 데이터에 다양성 부여
특성 무작위 선택	노드 분할 시 전체 특성 중 일부만 무작위로 선택하여 후보로 사용	나무 간 상관관계를 낮추고 다양성 증가
다수결/평균	분류 문제는 각 나무의 예측을 투표하여, 회귀 문제는 평균을 내어 최종 결정	안정적이고 강건한 최종 예측 도출

랜덤 포레스트는 단일 의사결정 나무에 비해 일반적으로 더 높은 예측 정확도와 강건성을 보인다. 또한, OOB 오차 평가를 통해 추가적인 검증 데이터 없이도 모델 성능을 편리하게 추정할 수 있다. 그러나 모델의 해석이 단일 나무보다 복잡해지며, 많은 수의 나무를 사용할 경우 예측 시간이 늘어날 수 있다는 단점도 있다.

6.2. 그래디언트 부스팅

그래디언트 부스팅은 약한 학습기(weak learner)를 순차적으로 결합하여 강력한 예측 모델을 만드는 앙상블 학습 기법이다. 특히 의사결정 나무를 기본 학습기로 자주 사용하며, 이전 단계 모델의 오차를 보완하는 방식으로 새로운 나무를 학습시킨다. 이 방법은 회귀와 분류 문제 모두에 적용 가능하며, 높은 예측 정확도를 달성하는 것으로 알려져 있다.

그래디언트 부스팅의 핵심 원리는 경사 하강법을 함수 공간에 적용하는 것이다. 초기 모델(예: 상수값)의 예측과 실제 값 사이의 잔차(오차)를 계산한다. 이후 각 반복(부스팅 라운드)에서는 이 잔차를 목표값으로 삼아 새로운 의사결정 나무를 학습시킨다. 새로 추가된 나무는 이전 모델이 잘못 예측한 부분을 수정하려고 시도한다. 모든 나무의 예측값을 가중합하여 최종 예측을 생성한다.

이 과정의 주요 하이퍼파라미터로는 학습률(learning rate)과 생성할 나무의 수(n_estimators)가 있다. 학습률은 각 나무가 기여하는 정도를 조절하여 과적합을 방지한다. 너무 많은 나무를 사용하면 과적합될 위험이 있으므로, 조기 종료(early stopping) 기법을 활용하여 최적의 반복 횟수를 찾는 것이 일반적이다.

알고리즘	주요 특징	일반적인 기본 학습기
그래디언트 부스팅	잔차를 학습, 순차적 부스팅	얕은 의사결정 나무(예: 깊이 3-6)
AdaBoost	잘못 분류된 샘플에 가중치 부여	얕은 의사결정 나무(예: 깊이 1)
XGBoost	정규화 항 포함, 병렬 처리 최적화	의사결정 나무
LightGBM	리프 중심 트리 성장, 더 빠른 학습	의사결정 나무

XGBoost, LightGBM, CatBoost 등은 그래디언트 부스팅의 개념을 기반으로 정규화, 병렬 처리, 범주형 변수 처리 등을 개선한 현대적인 구현체이다. 이들은 계산 효율성과 예측 성능을 크게 향상시켜 많은 데이터 과학 경진대회와 실무 시스템에서 표준 도구로 자리 잡았다.

7. 실무 적용 시 고려사항

의사결정 나무 모델을 실무에 적용할 때는 데이터의 특성과 문제의 맥락에 맞게 몇 가지 중요한 사항을 고려해야 한다. 효과적인 모델 구축을 위해서는 적절한 데이터 전처리, 하이퍼파라미터 조정, 그리고 엄격한 모델 평가가 필수적이다.

데이터 전처리 단계에서는 결측치 처리와 범주형 변수 인코딩이 중요하다. 의사결정 나무는 결측치를 직접 처리할 수 있는 알고리즘(C4.5 등)도 존재하지만, 일반적으로는 대체(평균, 중앙값) 또는 삭제 등의 방법으로 사전에 처리한다. 범주형 변수는 원-핫 인코딩보다는 레이블 인코딩을 주로 사용하며, 순서가 있는 범주형 변수의 경우 순서를 반영한 인코딩이 유리할 수 있다. 또한, 모델이 특정 스케일에 민감하지 않아 정규화나 표준화는 필수는 아니지만, 일부 구현체나 앙상블 방법과 함께 사용할 때는 적용하는 경우도 있다.

하이퍼파라미터 튜닝은 과적합을 방지하고 일반화 성능을 높이는 핵심 과정이다. 주요 조정 대상은 나무의 최대 깊이(max_depth), 리프 노드가 되기 위한 최소 데이터 수(min_samples_leaf), 분할을 위해 고려할 최소 데이터 수(min_samples_split) 등이다. 이 값들을 너무 제한하지 않으면 복잡한 나무가 생성되어 훈련 데이터에 과적합되기 쉽다. 반대로 너무 제한하면 과소적합되어 성능이 낮아진다. 최적의 파라미터 조합은 그리드 탐색이나 랜덤 탐색과 같은 방법을 통해 찾는다.

모델 평가는 단일 성능 지표에 의존하지 않고 종합적으로 진행해야 한다. 분류 문제에서는 정확도 외에도 정밀도, 재현율, F1 점수를 확인하며, 특히 클래스 불균형 데이터에서는 ROC 곡선과 AUC 값이 유용하다. 회귀 문제에서는 평균 제곱 오차, 평균 절대 오차 등을 사용한다. 가장 중요한 것은 홀드아웃 검증이나 K-겹 교차 검증을 통해 훈련 데이터에 대한 성능이 아닌, 보지 못한 데이터(검증 세트, 테스트 세트)에 대한 예측 성능을 평가하는 것이다. 이를 통해 모델의 실제 적용 가능성을 판단할 수 있다.

7.1. 데이터 전처리

의사결정 나무 모델을 구축하기 전에 데이터를 적절히 준비하는 과정은 모델의 성능과 안정성에 직접적인 영향을 미친다. 수치형 데이터의 경우, 의사결정 나무 알고리즘은 특성의 스케일에 영향을 받지 않아 정규화나 표준화가 필수적이지는 않다. 그러나 연속형 변수를 이산화(구간화)하는 것은 분할 기준을 단순화하고 모델의 해석력을 높일 수 있다. 범주형 데이터는 일반적으로 원-핫 인코딩이나 레이블 인코딩을 통해 처리되며, 특히 CART 알고리즘은 이진 분할만을 지원하므로 다중 범주를 적절히 처리해야 한다.

결측값 처리는 중요한 전처리 단계이다. 단순히 결측값이 있는 샘플을 제거하는 방법 외에도, 모델 자체의 결측값 처리 메커니즘을 활용할 수 있다. 예를 들어, CART 알고리즘은 대체 분할 방식을 사용하여 결측값을 가진 샘플에 대한 분할 규칙을 제공한다. 또는 평균, 중앙값, 최빈값으로 대체하는 방법도 널리 사용된다.

불균형 데이터셋에서 모델은 다수 클래스에 편향될 수 있다. 이를 해결하기 위해 언더샘플링이나 오버샘플링 기법을 적용하거나, 의사결정 나무 알고리즘의 클래스 가중치 파라미터를 조정할 수 있다. 또한, 이상치는 나무의 분할 구조를 불필요하게 복잡하게 만들 수 있어 탐지 및 처리 과정이 필요하다.

7.2. 하이퍼파라미터 튜닝

의사결정 나무 모델의 성능을 최적화하기 위해서는 여러 하이퍼파라미터를 조정하는 튜닝 과정이 필수적이다. 하이퍼파라미터는 모델 학습 과정에서 데이터로부터 자동으로 학습되지 않고, 사용자가 사전에 설정해야 하는 변수들을 의미한다. 적절한 하이퍼파라미터 설정은 모델의 복잡도를 조절하여 과적합을 방지하고, 일반화 성능을 향상시키는 데 핵심적인 역할을 한다.

주요 튜닝 대상 하이퍼파라미터는 다음과 같다.

하이퍼파라미터	설명	일반적인 영향
`max_depth`	나무의 최대 깊이	값이 너무 크면 과적합, 너무 작으면 과소적합
`min_samples_split`	노드를 분할하기 위한 최소 샘플 수	값이 크면 분할이 제한되어 나무가 단순해짐
`min_samples_leaf`	리프 노드가 가져야 할 최소 샘플 수	값이 크면 이상치에 덜 민감한 안정적인 모델 생성
`max_features`	분할 시 고려할 특성의 최대 수	랜덤 포레스트에서 중요한 변수로, 무작위성을 조절
`criterion`	분할 품질을 측정하는 기준 (예: 지니 불순도, 엔트로피)	데이터 특성에 따라 다른 결과를 낳을 수 있음

튜닝 방법으로는 그리드 서치나 랜덤 서치가 널리 사용된다. 그리드 서치는 사전에 정의한 파라미터 조합의 모든 가능성을 체계적으로 평가하는 반면, 랜덤 서치는 무작위로 샘플링한 조합을 평가하여 계산 비용을 줄인다. 더 효율적인 방법으로는 베이지안 최적화가 있으며, 이전 평가 결과를 바탕으로 유망한 하이퍼파라미터 조합을 탐색한다. 튜닝 과정에서는 반드시 교차 검증을 통해 모델의 안정성을 평가해야 하며, 훈련 데이터에만 과도하게 적합되지 않도록 검증 세트의 성능을 주시한다.

7.3. 모델 평가

의사결정 나무 모델의 성능을 평가하는 과정은 모델의 일반화 능력을 확인하고, 다른 모델과 비교하여 최적의 모델을 선택하는 데 필수적이다. 평가는 주로 학습에 사용되지 않은 독립적인 테스트 세트를 활용하여 이루어진다. 평가 지표는 해결하려는 문제의 유형(분류 또는 회귀)에 따라 달라지며, 단일 수치 지표뿐만 아니라 시각적 도구도 함께 사용된다.

분류 문제에서 가장 기본적인 평가 지표는 정확도이다. 이는 전체 예측 중 올바르게 예측한 비율을 의미한다. 그러나 클래스 간 데이터 불균형이 심한 경우 정확도는 왜곡된 평가를 제공할 수 있다. 따라서 정밀도, 재현율, F1 점수와 같은 지표가 함께 분석된다. 특히 혼동 행렬은 각 클래스별로 모델이 어떻게 예측했는지를 한눈에 보여주는 핵심 도구이다. 회귀 문제에서는 예측값과 실제값 사이의 오차를 측정하는 평균 제곱 오차, 평균 절대 오차, R-제곱 등의 지표가 주로 사용된다.

평가 지표 유형	주요 지표	설명
분류 (Classification)	정확도 (Accuracy)	전체 예측 중 정확한 예측의 비율
	정밀도 (Precision), 재현율 (Recall)	특정 클래스에 대한 예측의 정확성과 검출 능력
	F1 점수 (F1-Score)	정밀도와 재현율의 조화 평균
	혼동 행렬 (Confusion Matrix)	클래스별 예측 결과를 표로 정리한 시각적 도구
회귀 (Regression)	평균 제곱 오차 (MSE)	오차 제곱의 평균, 큰 오차에 민감
	평균 절대 오차 (MAE)	오차 절댓값의 평균, 직관적 해석 가능
	R-제곱 (R-Squared)	모델이 설명하는 데이터 분산의 비율

과적합을 탐지하기 위해 교차 검증이 널리 사용된다. 주로 k-폴드 교차 검증을 적용하여 데이터를 여러 번 나누어 학습과 검증을 반복함으로써 모델 성능의 안정성을 평가한다. 또한, 의사결정 나무의 구조 자체를 평가할 수 있다. 깊이가 지나치게 깊거나 리프 노드가 너무 많은 나무는 과적합 가능성이 높다는 신호이다. 따라서 평가 결과는 가지치기의 강도를 조정하거나 다른 하이퍼파라미터를 변경하는 데 중요한 피드백으로 활용된다.

의사결정 나무 모델

이름	의사결정 나무 모델
영문명	Decision Tree Model
분류	데이터 마이닝, 기계 학습
유형	지도 학습 (분류, 회귀)
주요 개념	노드, 가지, 리프 노드, 분할 기준
장점	해석 용이성, 과적합 방지 가능 (가지치기)
단점	불안정성, 복잡한 관계 학습 한계
상세 정보
알고리즘 예시	ID3, C4.5, CART, CHAID
분할 기준	정보 이득, 지니 불순도, 분산 감소
가지치기 방법	사전 가지치기, 사후 가지치기
앙상블 활용	랜덤 포레스트, 그래디언트 부스팅의 기본 구성 요소
응용 분야	의료 진단, 신용 평가, 고객 세분화
소프트웨어 구현	scikit-learn, R, Weka
관련 평가 지표	정확도, 정밀도, 재현율, F1 점수