서포트 벡터 머신 (r1)

1. 개요

서포트 벡터 머신은 지도 학습 방식의 분류 및 회귀 분석에 사용되는 강력한 머신 러닝 알고리즘이다. 이 모델은 1990년대에 블라디미르 배프니크와 코르넬리아 코르테스 등에 의해 본격적으로 개발되었다[1]. 기본 아이디어는 데이터 포인트들을 가장 넓은 마진으로 분리하는 최적의 결정 경계 또는 초평면을 찾는 것이다.

서포트 벡터 머신의 핵심은 서포트 벡터라는 개념이다. 이는 결정 경계에 가장 가까이 위치한 각 클래스의 데이터 포인트들을 지칭한다. 모델은 오직 이 서포트 벡터들만을 사용하여 결정 경계를 정의하며, 다른 데이터 포인트들은 무시한다. 이로 인해 모델이 간결해지고 과적합에 강한 특성을 가지게 된다.

초기에는 선형적으로 분리 가능한 데이터에만 적용되었으나, 커널 트릭이라는 기법의 도입으로 비선형 문제 해결이 가능해졌다. 커널 함수를 사용하면 데이터를 고차원 특성 공간으로 변환하지 않고도, 마치 고차원에서 계산한 것과 같은 효과를 얻을 수 있다. 이는 계산 효율성을 크게 높인다.

서포트 벡터 머신은 특히 특징의 수가 샘플 수보다 많을 때, 또는 중간 규모의 데이터셋에서 뛰어난 성능을 보인다. 전통적으로 이미지 인식, 텍스트 분류, 생물정보학 등의 다양한 분야에서 성공적으로 적용되어 왔다.

2. 수학적 배경

서포트 벡터 머신의 핵심 수학적 개념은 마진을 최대화하는 결정 경계를 찾는 것이다. 이는 통계적 학습 이론과 볼록 최적화 문제로 정식화될 수 있다. 기본 아이디어는 두 클래스를 분리하는 초평면 중에서 각 클래스의 가장 가까운 데이터 점(즉, 서포트 벹터)까지의 거리가 가장 먼 것을 선택하는 것이다.

마진과 최대 마진 분류기

데이터가 선형적으로 분리 가능하다고 가정할 때, 분류 초평면은 $\mathbf{w} \cdot \mathbf{x} + b = 0$으로 표현된다. 여기서 $\mathbf{w}$는 법선 벡터이고 $b$는 편향이다. 이 초평면과 가장 가까운 데이터 점 사이의 거리를 기하학적 마진이라고 한다. 서포트 벡터 머신의 목표는 이 기하학적 마진을 최대화하는 $\mathbf{w}$와 $b$를 찾는 것이다. 이 최적화 문제는 다음과 같은 제약 조건을 가진다.

$$ y_i (\mathbf{w} \cdot \mathbf{x}_i + b) \ge 1, \quad \text{for all } i $$

여기서 $y_i$는 $\pm 1$의 클래스 레이블이다. 마진을 최대화하는 것은 $\|\mathbf{w}\|$를 최소화하는 것과 동치이며, 이는 이차 계획법 문제로 귀결된다.

커널 트릭

실제 데이터는 선형적으로 분리되지 않는 경우가 많다. 이를 해결하기 위해 커널 트릭이 사용된다. 이 방법은 원본 특성 공간의 데이터를 고차원의 특성 공간으로 비선형 매핑 $\phi(\mathbf{x})$을 통해 변환한다. 고차원 공간에서는 데이터가 선형 분리가 가능해질 수 있다. 그러나 직접적인 매핑 $\phi$는 계산 비용이 높다. 핵심은 $\phi(\mathbf{x}_i) \cdot \phi(\mathbf{x}_j)$ 형태의 내적을, 원래 공간의 입력값만으로 계산할 수 있는 커널 함수 $K(\mathbf{x}_i, \mathbf{x}_j)$로 대체하는 것이다. 이를 통해 고차원에서의 복잡한 계산을 저차원에서의 간단한 계산으로 수행할 수 있게 되어 계산 효율성을 획득한다[2]. 대표적인 커널 함수로는 선형 커널, 다항식 커널, RBF 커널 등이 있다.

2.1. 마진과 최대 마진 분류기

서포트 벡터 머신의 핵심 아이디어는 두 클래스를 구분하는 결정 경계를 정의할 때, 단순히 데이터를 분류하는 것에서 나아가 가장 견고한 경계를 찾는 것이다. 이를 위해 마진이라는 개념을 도입한다. 마진은 결정 경계와 이 경계에 가장 가까이 있는 데이터 샘플 사이의 거리로 정의된다. 이 가장 가까운 샘플들을 서포트 벡터라고 부른다.

최대 마진 분류기는 가능한 모든 결정 경계 중에서 이 마진을 최대화하는 경계를 선택하는 분류기이다. 직관적으로, 마진이 클수록 결정 경계는 각 클래스의 데이터 포인트들로부터 멀리 떨어져 있게 되어, 새로운 데이터에 대한 일반화 성능이 높아지고 과적합의 위험을 줄일 수 있다. 따라서 서포트 벡터 머신의 학습 목표는 마진을 최대화하는 동시에 모든 학습 데이터를 정확히 분류하는 초평면을 찾는 것이다.

이 최적화 문제는 수학적으로 다음과 같이 정형화된다. 클래스 레이블을 -1과 1로 가정할 때, 결정 초평면은 w·x + b = 0으로 표현된다. 여기서 w는 법선 벡터, b는 편향이다. 마진을 최대화하는 문제는 ||w|| (법선 벡터의 노름)을 최소화하는 문제로 동치된다. 이때 모든 데이터 포인트가 올바르게 분류되어야 한다는 제약 조건이 붙는다.

수식	설명
w·xᵢ + b ≥ 1	레이블 yᵢ = 1인 샘플에 대한 제약
w·xᵢ + b ≤ -1	레이블 yᵢ = -1인 샘플에 대한 제약
최소화: **½

이러한 제약 조건 하에서 ½||w||²를 최소화하는 문제는 볼록 최적화 문제이며, 라그랑주 승수법을 통해 효율적으로 해를 구할 수 있다. 최종 해는 서포트 벡터들만의 선형 조합으로 표현되며, 이는 모델의 예측이 전체 데이터가 아닌 소수의 중요한 벡터들에만 의존함을 의미한다.

2.2. 커널 트릭

커널 트릭은 서포트 벡터 머신이 선형 분리가 불가능한 데이터를 처리하기 위해 사용하는 핵심 기법이다. 이 방법은 원본 입력 공간의 데이터를 고차원의 특성 공간으로 비선형 매핑하여, 그 공간에서 선형 분리가 가능하도록 변환한다. 직접적인 고차원 매핑 계산은 계산 비용이 매우 높을 수 있지만, 커널 트릭은 이 매핑을 위한 내적 값만을 효율적으로 계산하는 방법을 제공한다.

구체적으로, 두 데이터 포인트 x와 z를 고차원 공간으로 변환하는 함수를 Φ라 할 때, 변환 후의 내적 Φ(x)·Φ(z)를 직접 계산하지 않고, 원래 공간의 좌표만을 사용하는 함수 K(x, z)로 계산한다. 이 함수 K를 커널 함수라고 부른다. 이 트릭을 사용하면, 복잡한 변환 Φ를 명시적으로 정의하거나 계산할 필요 없이, 고차원 공간에서의 분류 초평면을 효율적으로 찾을 수 있다.

커널 트릭의 이점	설명
계산 효율성	고차원 특성 공간의 내적을 저차원 원공간의 연산으로 대체하여 계산 복잡도를 줄인다.
유연성	데이터의 복잡한 비선형 관계를 모델링할 수 있게 해준다.
차원의 저주 회피	실제 고차원 벡터를 다루지 않으므로 차원이 증가함에 따른 계산상의 문제를 피할 수 있다[3].

이 기법 덕분에 서포트 벡터 머신은 선형 분류기의 단순함과 효율성을 유지하면서도 강력한 비선형 분류 성능을 발휘할 수 있게 되었다. 커널 트릭은 서포트 벡터 머신의 수학적 형식화에서 최적화 문제의 이중 문제를 풀 때 자연스럽게 등장하며, 모델의 표현력을 결정하는 가장 중요한 요소가 된다.

3. 모델 학습

서포트 벡터 머신의 모델 학습은 주어진 훈련 데이터를 바탕으로 최적의 결정 경계를 찾는 과정이다. 이 과정은 본질적으로 볼록 최적화 문제를 푸는 것으로 귀결되며, 특히 라그랑주 승수법을 활용한 이차 계획법 문제로 공식화된다.

최적화 문제

학습의 핵심 목표는 마진을 최대화하는 초평면의 가중치 벡터 w와 편향 b를 찾는 것이다. 이는 다음과 같은 제약 조건을 가진 최적화 문제로 표현된다[4].

최소화: (1/2)||w||²

제약 조건: y_i(w·x_i + b) ≥ 1, (i = 1, ..., n)

여기서 x_i는 i번째 데이터 포인트, y_i는 그 레이블(±1), n은 샘플 수를 나타낸다. 이 문제는 라그랑주 승수 α_i ≥ 0를 도입하여 듀얼 문제로 변환하면 더 효율적으로 풀 수 있다. 듀얼 문제는 다음과 같다.

최대화: Σ_i α_i - (1/2) Σ_i Σ_j α_i α_j y_i y_j (x_i · x_j)

제약 조건: Σ_i α_i y_i = 0, α_i ≥ 0

이 듀얼 문제를 풀어 얻은 α_i 중 0보다 큰 값을 가지는 데이터 포인트들이 바로 서포트 벡터가 된다. 최종 결정 함수는 f(x) = sign( Σ_{i ∈ SV} α_i y_i (x_i · x) + b ) 형태로 계산된다. 여기서 SV는 서포트 벡터의 집합을 의미한다.

SMO 알고리즘

대규모 데이터셋에 대해 전체 이차 계획법 문제를 한 번에 해결하는 것은 계산 비용이 매우 높다. 이를 해결하기 위해 널리 사용되는 알고리즘이 SMO 알고리즘이다. SMO 알고리즘은 큰 최적화 문제를 여러 개의 작은 부분 문제로 분해하여 순차적으로 해결하는 분해 방법의 일종이다.

SMO의 핵심 동작 원리는 매 단계에서 두 개의 라그랑주 승수 α_i와 α_j만 선택하여, 나머지 승수들은 고정시킨 채로 이 두 변수에 대한 최적화 문제를 푸는 것이다. 이 작은 문제는 분석적으로 해결이 가능하여 계산 속도가 매우 빠르다. 알고리즘은 두 승수를 선택하는 휴리스틱과 편향 b를 업데이트하는 과정을 반복하며 수렴할 때까지 진행된다.

알고리즘 단계	설명
승수 선택	위반된 KKT 조건을 기준으로 최적화할 두 개의 라그랑주 승수 α_i, α_j를 선택한다.
부분 문제 최적화	선택된 두 승수에 대한 이차 함수를 분석적으로 최소화하여 새로운 값을 계산한다.
편향 업데이트	새로 계산된 승수 값에 따라 결정 경계의 편향 b를 재계산한다.
수렴 확인	모든 라그랑주 승수가 KKT 조건을 만족하면 종료하고, 그렇지 않으면 반복한다.

이러한 접근 방식은 메모리 사용을 효율화하고 전역 최적해에 도달함을 보장하며, 서포트 벡터 머신이 실용적인 대규모 문제에 적용될 수 있는 기반을 마련했다.

3.1. 최적화 문제

서포트 벡터 머신의 학습은 최대 마진 분류기를 찾는 문제로 공식화된다. 이는 볼록 최적화 문제, 특히 이차 계획법 문제로 귀결된다. 주어진 학습 데이터 집합이 (x_i, y_i) (i=1,...,n)이고, y_i ∈ {-1, +1}일 때, 하드 마진 SVM의 기본 최적화 문제는 다음과 같다.

최소화 대상	제약 조건
(1/2)‖w‖²	y_i(w·x_i + b) ≥ 1, 모든 i에 대해

여기서 목적 함수 (1/2)‖w‖²의 최소화는 마진 2/‖w‖의 최대화와 동치이다. 제약 조건은 모든 학습 데이터가 정확히 분류되어야 함을 의미하며, 이는 데이터가 선형 분리 가능할 때만 성립한다.

실제 데이터에는 노이즈와 이상치가 존재하므로, 완벽한 선형 분리가 불가능한 경우가 많다. 이를 해결하기 위해 소프트 마진 SVM이 제안되었다. 이 방법은 분류 오류를 허용하는 슬랙 변수 ξ_i를 도입하고, 이를 패널티하는 매개변수 C를 사용한다. 수정된 최적화 문제는 다음과 같다.

최소화 대상	제약 조건
(1/2)‖w‖² + C∑ᵢ ξ_i	y_i(w·x_i + b) ≥ 1 - ξ_i, ξ_i ≥ 0, 모든 i에 대해

여기서 C는 오분류에 대한 비용을 조절하는 하이퍼파라미터이다. C 값이 크면 오분류에 대한 패널티가 커져 마진이 좁아지고, 값이 작으면 마진이 넓어지지만 더 많은 오분류를 허용하게 된다.

이러한 원문제는 계산상의 편의와 커널 트릭 적용을 위해 라그랑주 승수법을 사용해 쌍대 문제로 변환된다. 쌍대 문제는 원문제의 변수 w와 b 대신, 각 데이터 포인트에 대한 라그랑주 승수 α_i를 변수로 갖는다. 최종적인 쌍대 최적화 문제는 다음과 같은 형태를 가진다.

최대화: ∑ᵢ α_i - (1/2)∑ᵢ∑ⱼ α_i α_j y_i y_j x_i·x_j

제약 조건: ∑ᵢ α_i y_i = 0, 그리고 0 ≤ α_i ≤ C (모든 i에 대해)

이 문제를 풀어 얻은 α_i 중 0이 아닌 값을 가지는 데이터 포인트들이 바로 서포트 벡터가 된다. 최적의 결정 경계는 오직 이 서포트 벡터들에만 의존하여 정의된다[5]. 쌍대 문제 형식은 커널 함수를 내적 x_i·x_j 자리에 직접 대입할 수 있게 해주어, 비선형 결정 경계를 효율적으로 학습하는 길을 열어준다.

3.2. SMO 알고리즘

SMO 알고리즘은 서포트 벡터 머신의 이차 계획법 문제를 효율적으로 해결하기 위해 존 플랫이 1998년 제안한 최적화 알고리즘이다[6].

전체적인 라그랑주 승수 집합을 한 번에 최적화하는 대신, 가능한 가장 작은 크기의 하위 문제, 즉 두 개의 승수만을 선택하여 반복적으로 최적화하는 방식을 취한다.

알고리즘의 핵심은 두 개의 라그랑주 승수 α_i와 α_j를 선택하고, 나머지 모든 승수를 고정시킨 상태에서 이 두 변수에 대한 이차 최적화 문제를 해결하는 것이다.

이 하위 문제는 해석적인 해가 존재하여 매우 빠르게 계산될 수 있다.

승수 쌍의 선택은 첫 번째 승수를 KKT 조건을 위반하는 정도가 가장 심한 샘플에서 선택하고, 두 번째 승수를 최대한 목적 함수 값을 크게 개선할 수 있는 샘플에서 선택하는 휴리스틱을 통해 이루어진다.

이 과정을 모든 승수가 KKT 조건을 만족할 때까지 반복한다.

SMO 알고리즘의 주요 장점은 메모리 효율성과 속도에 있다.

큰 행렬 연산을 필요로 하지 않아 메모리 사용량이 적고, 수렴 속도가 빠르다.

이러한 특성 덕분에 대규모 데이터셋에 대한 서포트 벡터 머신 학습이 실용적으로 가능해졌다.

반면, 승수 쌍 선택 휴리스틱의 효율성에 따라 수렴 속도가 달라질 수 있다는 점은 한계로 지적된다.

4. 커널 함수

커널 함수는 서포트 벡터 머신이 선형 분류가 불가능한 복잡한 데이터 구조를 처리할 수 있게 해주는 핵심 기법이다. 이 함수는 원본 입력 공간의 데이터를 고차원 특성 공간으로 비선형 매핑하는 역할을 수행하지만, 실제로 고차원 벡터를 계산하지 않고도 내적 연산의 결과를 직접 얻을 수 있게 한다. 이 기법을 커널 트릭이라고 부른다. 커널 함수의 선택은 모델의 성능과 복잡도에 직접적인 영향을 미치는 중요한 결정 사항이다.

주로 사용되는 커널 함수는 다음과 같다.

커널 이름	수식	주요 파라미터	특징
선형 커널	$K(\mathbf{x}_i, \mathbf{x}_j) = \mathbf{x}_i \cdot \mathbf{x}_j$	없음	가장 간단하며, 데이터가 선형적으로 분리 가능할 때 사용한다. 고차원 매핑을 수행하지 않는다.
RBF 커널 (가우시안 커널)	$K(\mathbf{x}_i, \mathbf{x}_j) = \exp(-\gamma \	\mathbf{x}_i - \mathbf{x}_j\	^2)$
다항 커널	$K(\mathbf{x}_i, \mathbf{x}_j) = (\gamma \mathbf{x}_i \cdot \mathbf{x}_j + r)^d$	$d$ (차수), $\gamma$, $r$	데이터의 특성 간 상호작용을 다항식 차수($d$)까지 고려한다. $d=1$이고 $r=0$이면 선형 커널과 동일하다.

RBF 커널의 $\gamma$ 파라미터는 결정 경계의 복잡도를 조절한다. $\gamma$ 값이 크면 각 서포트 벡터의 영향 범위가 좁아져 매우 구불구불한 경계를 만들고, 작으면 영향 범위가 넓어져 부드러운 경계를 형성한다. 다항 커널은 명시적인 다항식 특성 변환을 모방하며, 특히 자연어 처리 등에서 유용하게 적용된다.

커널 함수는 대칭적이고 양의 준정부호 성질을 만족해야 수학적으로 유효하다. 실제 응용에서는 데이터의 특성과 문제의 복잡성에 따라 실험을 통해 적절한 커널을 선택한다. 선형 커널이 충분하다면 더 복잡한 커널을 사용하는 것보다 계산 비용이 낮고 과적합 위험이 적다는 장점이 있다.

4.1. 선형 커널

선형 커널은 서포트 벡터 머신에서 사용되는 가장 기본적인 커널 함수이다. 이 커널은 입력 데이터를 고차원 특성 공간으로 변환하지 않고, 원본 입력 공간에서의 내적을 그대로 계산한다. 수식으로 표현하면, 두 데이터 포인트 x와 y에 대해 선형 커널 함수 K(x, y) = x · y 이다. 즉, 두 벡터의 내적 값이 커널 함수의 출력이 된다. 이는 고차원으로의 암시적 매핑 없이 선형 분류기를 직접 학습하는 것과 동일한 효과를 가진다.

선형 커널을 사용하는 서포트 벡터 머신은 선형 결정 경계를 찾는다. 이 모델의 주요 하이퍼파라미터는 오류에 대한 패널티를 조절하는 C 파라미터 하나이다. C 값이 크면 마진을 최대화하면서도 오분류된 샘플에 대해 엄격한 패널티를 부과하여 더 복잡한 결정 경계를 만들고, C 값이 작으면 마진을 넓히는 데 더 중점을 두어 더 일반화된 모델을 만든다.

선형 커널의 장점은 계산이 매우 빠르고 해석이 용이하다는 점이다. 또한 고차원 특성 공간에서의 계산을 필요로 하지 않기 때문에 차원의 저주 문제에 덜 민감하다. 주로 특성의 수가 샘플의 수보다 많거나, 데이터가 선형적으로 분리 가능할 때 효과적이다. 텍스트 분류와 같은 고차원 희소 데이터 처리에 널리 사용된다.

반면, 선형 커널의 명확한 한계는 데이터가 선형적으로 분리되지 않는 복잡한 패턴을 학습할 수 없다는 것이다. 이러한 비선형 문제를 해결하기 위해서는 RBF 커널이나 다항 커널과 같은 비선형 커널 함수를 사용해야 한다.

4.2. RBF 커널

RBF 커널(Radial Basis Function Kernel) 또는 가우시안 커널(Gaussian Kernel)은 가장 널리 사용되는 커널 함수 중 하나이다. 이 커널은 두 데이터 포인트 사이의 유사도를 유클리드 거리의 함수로 계산하며, 무한 차원의 특징 공간으로 매핑하는 효과를 가진다. 수학적으로는 다음 공식으로 정의된다.

$$K(\mathbf{x}_i, \mathbf{x}_j) = \exp\left(-\gamma \|\mathbf{x}_i - \mathbf{x}_j\|^2\right)$$

여기서 $\gamma$ (감마)는 커널의 폭을 조절하는 핵심 하이퍼파라미터이며, $\|\mathbf{x}_i - \mathbf{x}_j\|$는 두 벡터 사이의 유클리드 거리이다. $\gamma$ 값이 클수록 커널 함수의 폭이 좁아져 각 데이터 포인트의 영향 범위가 줄어들고, 결정 경계가 더 복잡해진다. 반대로 $\gamma$ 값이 작을수록 폭이 넓어져 결정 경계가 부드러워진다.

RBF 커널의 주요 특징은 다음과 같다.

특징	설명
유연성	적절한 $\gamma$와 정규화 파라미터 $C$를 선택하면 선형적으로 분리 불가능한 매우 복잡한 결정 경계를 학습할 수 있다.
적용 범위	데이터의 사전 지식이 없을 때 종종 기본 선택으로 사용된다.
파라미터	성능에 민감한 두 개의 주요 하이퍼파라미터 $\gamma$와 $C$를 튜닝해야 한다.

이 커널은 지수 함수를 사용하기 때문에 거리가 0일 때 유사도가 1(최대)이고, 거리가 멀어질수록 유사도가 0에 가까워진다. 이는 가까운 데이터 포인트끼리 강하게 연결되고 먼 포인트는 거의 무시되는 국소적(local) 특성을 만들어낸다. 이러한 특성 때문에 RBF 커널은 데이터의 내재된 구조를 포착하는 데 매우 효과적이지만, 과도하게 복잡한 모델을 만들어 과적합될 위험도 동시에 가지고 있다.

4.3. 다항 커널

다항 커널은 입력 공간의 데이터를 고차원 특성 공간으로 매핑하기 위해 사용되는 커널 함수의 한 종류이다. 이 커널은 두 데이터 포인트 간의 유사도를 측정할 때, 원래 특성들의 내적에 상수항을 더한 값을 특정 차수만큼 거듭제곱하는 방식으로 계산한다.

다항 커널의 일반적인 수식은 $K(\mathbf{x}_i, \mathbf{x}_j) = (\gamma \langle \mathbf{x}_i, \mathbf{x}_j \rangle + r)^d$로 표현된다. 여기서 $\gamma$는 계수, $r$은 상수항, $d$는 커널의 차수를 나타내는 하이퍼파라미터이다. 예를 들어, 2차 다항 커널($d=2$)은 원래 특성들 사이의 모든 가능한 쌍별 곱(상호작용 항)을 포함하는 새로운 특성 공간을 암시적으로 생성한다. 이는 선형 커널로는 분리할 수 없는 비선형 결정 경계를 학습할 수 있게 해준다.

다항 커널의 주요 매개변수와 그 영향은 다음과 같다.

매개변수	역할	영향
차수($d$)	다항식의 차수 결정	값이 높을수록 더 복잡하고 유연한 결정 경계를 생성하지만, 과적합 위험이 증가한다.
계수($\gamma$)	내적 항의 스케일 조정	주로 $1 / (\text{특성 수})$ 등의 값으로 설정되며, 데이터의 스케일링에 영향을 받는다.
상수항($r$)	상수 오프셋 추가	모델의 자유도를 조절하며, 때로는 0으로 설정되기도 한다.

다항 커널은 특히 자연어 처리나 일부 이미지 인식 작업에서 역사적으로 널리 사용되었다. 그러나 고차원($d$가 큰)에서는 수치적 불안정성이 발생할 수 있으며, RBF 커널에 비해 매개변수 조정이 더 민감할 수 있다는 단점도 있다.

5. 하이퍼파라미터 튜닝

서포트 벡터 머신의 성능은 적절한 하이퍼파라미터 설정에 크게 의존한다. 주요 튜닝 대상은 규제 강도를 조절하는 C 파라미터와 선택한 커널 함수에 따른 파라미터들이다. 이 값들은 모델의 복잡도와 일반화 성능을 결정하는 핵심 요소이다.

가장 중요한 파라미터 중 하나는 C 파라미터이다. 이 값은 오분류에 대한 패널티의 강도를 조절한다. C 값이 작으면 마진이 넓어지지만, 훈련 데이터의 일부 오분류를 허용하여 모델이 더 단순해진다. 반대로 C 값이 크면 오분류에 대한 비용이 커져 마진이 좁아지고, 훈련 데이터에 더욱 꼭 맞는(fit) 복잡한 결정 경계를 만들게 된다. 극단적으로 큰 C 값은 과적합을 유발할 수 있다.

사용하는 커널에 따라 튜닝해야 할 추가 파라미터가 존재한다. RBF 커널의 경우 감마(γ) 파라미터가 핵심이다. 감마는 단일 데이터 포인트의 영향력 범위를 결정한다. 감마 값이 작으면 결정 경계가 더 부드럽고 넓은 영역을 포괄하며, 값이 크면 각 서포트 벡터의 영향 범위가 좁아져 복잡하고 구불구불한 경계를 만들어낸다. 다항 커널에서는 차수(degree) 파라미터를 조절하여 다항식의 복잡도를 설정한다.

하이퍼파라미터	역할	낮은 값의 영향	높은 값의 영향
C (규제)	오분류에 대한 패널티 조절	넓은 마진, 단순한 모델, 과소적합 가능성	좁은 마진, 복잡한 모델, 과적합 가능성
γ (RBF 커널)	서포트 벡터 영향 범위 조절	넓은 영향 범위, 부드러운 결정 경계	좁은 영향 범위, 복잡한 결정 경계
degree (다항 커널)	다항식 차수 설정	낮은 차수의 다항식 결정 경계	높은 차수의 복잡한 다항식 결정 경계

효율적인 튜닝을 위해 그리드 탐색이나 랜덤 탐색과 같은 체계적인 방법이 자주 사용된다. 이 기법들은 사전에 정의된 파라미터 조합 후보들을 평가하여 검증 데이터셋에서 최고의 성능을 보이는 조합을 선택한다. 최적의 파라미터는 데이터의 특성, 노이즈 수준, 그리고 문제의 복잡도에 따라 달라지므로, 교차 검증을 통한 실험적 접근이 필수적이다.

5.1. C 파라미터

C 파라미터는 서포트 벡터 머신의 가장 중요한 하이퍼파라미터 중 하나로, 모델의 복잡도와 일반화 성능 사이의 균형을 조절하는 역할을 한다. 공식적으로는 소프트 마진 분류에서 허용되는 오류에 대한 페널티의 강도를 결정한다. C 값이 클수록 모델은 학습 데이터에 더욱 엄격하게 맞추려고 하여 과적합의 위험이 증가한다. 반대로 C 값이 작을수록 마진은 넓어지지만, 더 많은 오분류 샘플을 허용하게 되어 과소적합될 가능성이 있다.

C 파라미터의 선택은 데이터의 특성과 문제의 본질에 크게 의존한다. 노이즈가 많거나 겹치는 부분이 많은 데이터에서는 낮은 C 값을 설정하여 모델이 일부 오분류를 허용하고 더 넓은 마진을 찾도록 하는 것이 일반화 성능을 높일 수 있다. 반면, 데이터가 깨끗하고 명확하게 분리 가능한 경우 높은 C 값을 사용하여 엄격한 분류 경계를 학습시킬 수 있다.

C 값의 크기	모델의 행동	장점	단점
높음	오류에 대한 페널티가 큼. 마진이 좁아짐.	학습 데이터에 대한 정확도가 높아질 수 있음.	과적합 위험 증가, 일반화 성능 저하 가능성.
낮음	오류에 대한 페널티가 작음. 마진이 넓어짐.	일반화 성능이 향상될 수 있음, 과적합 방지.	학습 데이터에 대한 정확도가 낮아질 수 있음(과소적합).

이 파라미터를 튜닝할 때는 일반적으로 교차 검증 기법을 사용하여 다양한 C 값에 대한 모델 성능을 평가한다. 그리드 탐색이나 랜덤 탐색과 같은 방법을 통해 최적의 C 값을 찾는 것이 일반적인 실무 절차이다. 최적의 C 값은 데이터셋에 따라 크게 달라질 수 있으며, 다른 하이퍼파라미터(예: 커널 함수의 파라미터)와의 상호작용도 고려해야 한다.

5.2. 커널 파라미터

커널 함수의 성능은 적절한 하이퍼파라미터 선택에 크게 의존합니다. 각 커널 유형마다 고유한 파라미터를 가지며, 이 값을 조정함으로써 결정 경계의 복잡도와 모델의 일반화 성능을 제어할 수 있습니다. 잘못된 파라미터 설정은 과소적합 또는 과대적합을 초래할 수 있습니다.

커널 유형	주요 파라미터	역할
RBF 커널	감마(γ)	단일 데이터 포인트의 영향 범위를 결정합니다. 값이 클수록 경계가 복잡해지고, 작을수록 평탄해집니다.
다항 커널	차수(d)	변환된 특성 공간의 다항식 차수를 결정합니다.
다항 커널	상수항(c)	고차항의 중요도를 조절합니다.

RBF 커널의 감마(γ) 파라미터는 특히 중요한 튜닝 대상입니다. 감마가 너무 크면 각 서포트 벡터의 영향 반경이 좁아져 훈련 데이터에 지나치게 민감한 복잡한 결정 경계를 만들고, 이는 과대적합으로 이어질 수 있습니다. 반대로 감마가 너무 작으면 결정 경계가 과도하게 평탄해져 데이터의 패턴을 제대로 학습하지 못하는 과소적합이 발생할 수 있습니다. 감마의 최적 값은 데이터의 분포와 규모에 따라 달라집니다.

커널 파라미터 튜닝은 일반적으로 그리드 탐색이나 랜덤 탐색과 같은 체계적인 방법을 통해 수행됩니다. 이 과정에서는 교차 검증을 사용하여 각 파라미터 조합의 일반화 성능을 평가합니다. 또한, 데이터의 특성 스케일이 커널 함수의 계산에 직접적인 영향을 미치므로, 파라미터 탐색을 시작하기 전에 표준화나 정규화를 적용하는 것이 일반적입니다.

6. 장단점

서포트 벡터 머신은 명확한 장점과 몇 가지 한계점을 동시에 지닌다.

주요 장점은 다음과 같다. 고차원 공간에서도 효과적으로 동작하며, 특히 특성의 수가 샘플 수보다 많을 때 유용하다. 결정 경계를 정의하는 데는 서포트 벡터만이 사용되므로 메모리 효율성이 높다. 또한 다양한 커널 함수를 활용함으로써 비선형 문제에 대한 유연한 모델링이 가능하다. 이는 데이터의 복잡한 패턴을 포착하는 데 강점을 보인다. 과적합을 방지하기 위한 정규화 매개변수 C를 통해 모델의 복잡도를 명시적으로 제어할 수 있다.

반면, 단점도 존재한다. 대규모 데이터셋에 대해 학습 시간이 길어질 수 있으며, 특히 커널 선택과 하이퍼파라미터(C 및 커널별 파라미터)의 설정이 모델 성능에 매우 민감하게 영향을 미친다. 커널 기반 SVM의 결과는 블랙박스 모델에 가까워 해석이 어려운 편이다. 또한 데이터 전처리 과정에서 특성 스케일링이 필수적이며, 클래스 간 샘플 수의 불균형이 심한 경우 성능이 저하될 수 있다.

장점	단점
고차원 데이터 처리에 효과적	대용량 데이터 학습 속도가 느림
메모리 사용 효율적(서포트 벡터만 저장)	하이퍼파라미터 설정에 민감함
커널 트릭을 통한 비선형 분류 가능	모델 해석성이 낮음
정규화 매개변수로 과적합 조절 가능	특성 스케일링이 필수적
	클래스 불균형에 취약할 수 있음

7. 응용 분야

서포트 벡터 머신은 뛰어난 일반화 성능과 고차원 데이터 처리 능력 덕분에 다양한 분야에서 성공적으로 적용되었다. 초기에는 주로 패턴 인식과 이미지 처리 분야에서 두각을 나타냈으나, 이후 자연어 처리, 생물정보학, 금융 예측 등 그 영역을 넓혀갔다. 특히 데이터의 차원이 샘플 수보다 훨씬 큰 경우에도 효과적으로 작동한다는 특징이 많은 실제 문제 해결에 기여했다.

이미지 분류는 SVM의 대표적인 응용 분야다. MNIST 손글씨 숫자 인식이나 얼굴 인식과 같은 문제에서 높은 정확도를 보인다. 이미지의 픽셀 값이나 HOG(Histogram of Oriented Gradients), SIFT(Scale-Invariant Feature Transform)와 같이 추출한 특징 벡터를 입력으로 사용한다. 커널 트릭을 통해 비선형적으로 분리 가능한 복잡한 이미지 패턴도 효과적으로 구분할 수 있다.

텍스트 분류와 감성 분석에서도 SVM은 널리 사용된다. 문서를 Bag-of-Words 모델이나 TF-IDF 벡터로 표현하면 매우 고차원의 희소 벡터가 생성되는데, SVM은 이러한 데이터에 특히 강점을 보인다. 스팸 메일 필터링, 뉴스 기사 카테고리 분류, 제품 리뷰의 긍정/부정 판단 등이 주요 사례다.

생물정보학 분야에서는 유전자 발현 데이터 분석, 단백질 구조 예측, 질병 분류 등에 활용된다. 마이크로어레이 데이터는 수천에서 수만 개의 유전자(특징)에 대해 소수의 샘플만 존재하는 경우가 많다. SVM은 이러한 고차원-저샘플 데이터에서도 과적합을 잘 억제하며 유의미한 패턴을 찾아내는 데 기여했다.

응용 분야	주요 특징/사용 데이터	대표적 예시
이미지 분류	픽셀 값, HOG, SIFT 특징	손글씨 인식(MNIST), 얼굴 인식
텍스트 분류	Bag-of-Words, TF-IDF 벡터	스팸 필터링, 감성 분석, 문서 카테고리화
생물정보학	유전자 발현 데이터, 서열 데이터	암 세포 분류, 단백질 상호작용 예측
기타	시계열 데이터, 금융 지표	주가 방향성 예측, 이상 탐지

7.1. 이미지 분류

서포트 벡터 머신은 초기 컴퓨터 비전 및 패턴 인식 연구에서 이미지 분류를 위한 강력한 도구로 널리 사용되었다. 특히 MNIST와 같은 손글씨 숫자 데이터셋이나 얼굴 인식 과제에서 높은 성능을 보였다. SVM은 이미지를 고차원의 특징 벡터로 표현한 후, 최적의 결정 경계를 찾아 서로 다른 범주의 이미지를 분류한다.

이미지 분류를 위해 SVM을 적용할 때는 일반적으로 커널 트릭을 활용한다. 선형 커널은 간단한 분류에, RBF 커널이나 다항 커널은 더 복잡한 패턴을 가진 이미지 분류에 적합하다. 예를 들어, 물체의 형태나 질감이 중요한 분류 문제에서는 RBF 커널이 효과적이다. SVM은 상대적으로 적은 수의 학습 샘플로도 좋은 일반화 성능을 발휘하는 특징이 있어, 대규모 데이터셋이 확보되기 전 시기의 이미지 인식 연구에서 선호되었다.

다음은 SVM이 이미지 분류에 적용된 주요 초기 사례를 정리한 표이다.

데이터셋/도메인	사용된 커널	주요 특징
MNIST (손글씨 숫자)	RBF 커널, 다항 커널	0부터 9까지의 숫자를 분류하는 데 사용되었다.
얼굴 인식	RBF 커널	얼굴 이미지에서 추출한 특징을 기반으로 개인을 식별했다.
객체 인식	히스토그램 오브 오리엔티드 그래디언트(HOG) + 선형 커널	객체의 윤곽 정보를 특징으로 사용하여 보행자 검출 등에 적용되었다.

그러나 매우 깊고 복잡한 계층적 특징 추출이 필요한 현대의 이미지 분류 문제, 예를 들어 ImageNet 챌린지에서는, 합성곱 신경망(CNN)이 더 우수한 성능을 보이면서 그 주류 자리를 대체하였다. 현재 SVM은 주로 계산 자원이 제한되거나 데이터 양이 적은 특수한 응용 분야, 또는 CNN과 같은 딥러닝 모델의 출력을 후처리하는 앙상블 학습의 구성 요소로 활용되는 경우가 많다.

7.2. 텍스트 분류

서포트 벡터 머신은 텍스트 분류 작업에서 높은 성능을 보이는 대표적인 알고리즘 중 하나이다. 특히 고차원의 희소 데이터를 효과적으로 처리할 수 있어, 자연어 처리 분야에서 문서 분류, 스팸 메일 필터링, 감성 분석 등에 널리 활용되었다.

텍스트 분류를 위해 SVM을 적용할 때는 먼저 텍스트 문서를 머신러닝 모델이 이해할 수 있는 수치적 형태로 변환해야 한다. 대표적인 방법으로 Bag-of-Words 모델이나 TF-IDF 가중치를 사용하여 문서를 고차원의 특징 벡터로 표현한다. 이렇게 생성된 특징 공간은 차원이 매우 크고 대부분의 값이 0인 희소 벡터가 되는데, SVM은 마진 최대화 원리를 통해 이러한 고차원 공간에서도 효과적인 결정 경계를 학습할 수 있다. 선형 커널 함수가 가장 일반적으로 사용되며, 계산 효율성이 높고 해석이 용이하다는 장점이 있다.

성능 비교 연구에 따르면, SVM은 나이브 베이즈 분류기나 의사결정나무 같은 전통적인 텍스트 분류 알고리즘보다 종종 더 높은 정확도를 보인다. 이는 SVM이 과적합에 강하고, 고차원 공간에서의 분류에 최적화되어 있기 때문이다. 그러나 대용량 데이터셋에 대해 학습 시간이 길어질 수 있으며, 커널 트릭을 사용하는 비선형 SVM의 경우 모델 해석이 어려워질 수 있다는 단점도 있다.

7.3. 생물정보학

서포트 벡터 머신은 생물정보학 분야에서 복잡한 패턴 인식과 분류 문제를 해결하는 데 널리 활용된다. 특히 고차원의 데이터를 효과적으로 처리할 수 있는 능력 덕분에 유전체학과 단백질체학 연구에서 중요한 도구로 자리 잡았다. DNA 마이크로어레이나 RNA-seq을 통해 얻은 유전자 발현 데이터는 샘플 수에 비해 수천에서 수만 개에 이르는 유전자(특징)를 포함하는 경우가 많다. 서포트 벡터 머신은 이러한 '차원의 저주' 문제에 상대적으로 강건한 성능을 보이며, 암의 하위 유형 분류나 환자 예후 예측과 같은 임상적 과제에 적용된다.

단백질 서열 분석에서도 서포트 벡터 머신의 역할은 크다. 예를 들어, 특정 아미노산 서열이 어떤 단백질 구조 도메인에 속하는지, 또는 세포 내 특정 위치(예: 세포막, 핵)로 이동하는지 여부를 예측하는 데 사용된다. 커널 트릭을 통해 서열 데이터 사이의 복잡한 유사성을 고차원 특징 공간에서의 내적으로 변환할 수 있어, 서열 간의 직접적인 비교를 넘어선 패턴 학습이 가능해진다. 이는 효소 기능 예측이나 단백질-단백질 상호작용 예측과 같은 문제로 확장 적용된다.

주요 응용 사례를 정리하면 다음과 같다.

응용 분야	설명	사용 데이터 예시
질병 분류 및 예후 예측	암의 종류나 하위 유형을 유전자 발현 패턴으로 분류하거나, 환자의 생존율을 예측한다.	[[유전자 발현 프로파일링
단백질 구조/기능 예측	아미노산 서열로부터 단백질의 2차/3차 구조 또는 생물학적 기능을 분류한다.	아미노산 서열, 진화적 보존성 점수
유전자 조절 요소 식별	DNA 서열이 전사 인자 결합 부위인지 또는 프로모터 영역인지 여부를 판별한다.	염기 서열, CpG 메틸화 패턴
의약품 표적 발견	특정 단백질과 결합할 가능성이 있는 화합물(리간드)을 가상 스크리닝을 통해 선별한다.	분자의 화학적 지문(피처)

이러한 적용은 기계 학습이 생물학적 빅데이터에서 통찰을 도출하는 핵심 방법론으로 부상하는 데 기여했다. 서포트 벡터 머신의 명확한 최적화 기준과 과적합에 대한 상대적 강건성은 제한된 생물학적 샘플으로 일반화 가능한 모델을 구축해야 하는 생물정보학의 과제와 잘 맞아떨어진다.

8. 다른 알고리즘과의 비교

서포트 벡터 머신은 로지스틱 회귀 및 신경망과 같은 다른 지도 학습 알고리즘과 특정한 차이점과 유사점을 가진다.

로지스틱 회귀는 데이터가 로지스틱 함수를 통해 클래스에 속할 확률을 직접 모델링하는 반면, 서포트 벡터 머신은 결정 경계와 가장 가까운 데이터 포인트인 서포트 벡터들 사이의 마진을 최대화하는 데 초점을 맞춘다. 이로 인해 서포트 벡터 머신은 종종 더 강력한 일반화 성능을 보이며, 특히 고차원 공간에서 효과적이다. 그러나 로지스틱 회귀는 예측 확률을 자연스럽게 제공하고, 모델 해석이 상대적으로 직관적이라는 장점이 있다.

신경망, 특히 다층 퍼셉트론과 비교할 때, 서포트 벡터 머신은 전통적으로 더 적은 수의 하이퍼파라미터를 가지며, 과적합에 덜 민감한 경향이 있다. 또한 커널 트릭을 통해 비선형 문제를 효율적으로 처리할 수 있다. 반면, 심층 신경망은 매우 복잡한 비선형 관계와 대규모 데이터셋(예: 이미지, 음성)에서 뛰어난 성능을 발휘하지만, 일반적으로 더 많은 데이터와 계산 자원을 요구한다. 다음 표는 주요 특성을 비교한 것이다.

특성	서포트 벡터 머신	로지스틱 회귀	신경망 (기본)
핵심 목표	마진 최대화	가능성 최대화 (최대우도)	오차 최소화
출력	결정 함수 값 (확률 변환 가능)	클래스 확률	다양한 (분류, 회귀 등)
비선형성	커널 함수 사용	기본적으로 선형[7]	은닉층을 통한 내재적 모델링
장점	고차원 데이터 효율적, 강한 일반화	해석 용이성, 확률 출력	매우 복잡한 패턴 학습 가능
단점	대규모 데이터셋에서 학습 속도 저하	복잡한 결정 경계 학습에 한계	하이퍼파라미터 튜닝 복잡, 과적합 가능성 높음

결론적으로, 서포트 벡터 머신은 중간 규모의 데이터셋에서 명확한 마진을 찾을 수 있는 문제에 특히 적합하다. 로지스틱 회귀는 해석 가능성이 중요한 경우에, 심층 신경망은 데이터 양이 풍부하고 초월적인 성능이 필요한 매우 복잡한 문제에 각각 선호되는 경향이 있다.

8.1. 로지스틱 회귀

로지스틱 회귀는 이진 분류 문제를 해결하기 위한 통계적 모델로, 선형 결정 경계를 학습한다는 점에서 선형 커널을 사용한 서포트 벡터 머신과 유사한 특성을 가진다. 두 방법 모두 데이터를 두 개의 클래스로 구분하는 선형 분류기를 구성하지만, 그 목표 함수와 최적화 기준에서 근본적인 차이를 보인다.

로지스틱 회귀는 주어진 데이터가 특정 클래스에 속할 확률을 모델링하며, 이 확률을 로지스틱 함수(시그모이드 함수)를 통해 0과 1 사이의 값으로 변환한다. 모델 학습은 최대우도추정법을 통해 이루어지며, 모든 데이터 포인트의 예측 확률을 최대화하는 방향으로 파라미터를 조정한다. 반면, 서포트 벡터 머신은 확률적 해석보다는 기하학적 마진을 최대화하는 데 초점을 맞춘다. 서포트 벡터 머신은 결정 경계와 가장 가까운 서포트 벡터들 사이의 거리(마진)를 최대화하는 경계를 찾는 것이 목표이다.

이러한 차이는 다음과 같은 특성으로 이어진다.

특성	로지스틱 회귀	서포트 벡터 머신 (선형 커널)
최적화 기준	모든 샘플에 대한 우도 최대화	결정 경계와 가장 가까운 샘플들(서포트 벡터) 간 마진 최대화
결과 해석	클래스에 대한 확률값 제공	결정 함수의 부호로 클래스 레이블만 제공[8]
이상치 영향	비교적 민감함	마진 최대화 특성상 서포트 벡터에만 의존하므로 상대적으로 덜 민감함
정규화	L1 또는 L2 정규화를 손실 함수에 명시적으로 추가	마진 최대화 자체가 일종의 정규화 효과를 가짐 (C 파라미터로 제어)

실제 응용에서는 데이터의 특성에 따라 선택이 달라진다. 클래스별 확률 추정이 필요하거나 이상치가 많은 데이터에는 로지스틱 회귀가 유리할 수 있다. 반면, 선형적으로 분리 가능한 데이터에서 명확한 마진을 확보하고자 하거나, 서포트 벡터의 개념을 커널 트릭으로 비선형 공간으로 확장하고자 할 때는 서포트 벡터 머신이 더 적합하다. 두 모델 모두 선형 분류기의 대표적인 방법으로, 복잡한 모델을 적용하기 전에 성능 기준선을 설정하는 데 자주 사용된다.

8.2. 신경망

서포트 벡터 머신과 신경망은 모두 강력한 지도 학습 모델이지만, 그 접근 방식과 특성에서 뚜렷한 차이를 보인다.

서포트 벡터 머신은 주로 결정 경계를 찾는 데 초점을 맞춘다. 이 모델은 두 클래스를 분리하는 최적의 초평면을 찾아내며, 학습 데이터 중에서 결정 경계를 정의하는 소수의 중요한 샘플인 서포트 벡터에 의존한다. 이로 인해 모델이 간결해지고, 특히 고차원 공간에서 효과적이다. 반면, 신경망은 인공 뉴런으로 구성된 계층적 네트워크를 통해 입력 데이터에서 계층적인 특징 표현을 학습한다. 이는 데이터의 복잡한 패턴과 비선형 관계를 포착하는 데 매우 유리하다.

두 모델의 실용적 측면을 비교하면 다음과 같은 차이가 있다.

비교 요소	서포트 벡터 머신	신경망
데이터 양	중소규모 데이터셋에 효과적	대규모 데이터셋에서 성능이 뛰어남
해석 가능성	결정 경계와 서포트 벡터를 통해 모델을 해석하기 상대적 용이	내부 동작이 복잡하여 블랙박스 성격이 강함
하이퍼파라미터	C 파라미터와 커널 함수 선택이 중요	계층 수, 뉴런 수, 학습률 등 튜닝 요소가 많음
학습 속도	전통적으로 빠른 편	데이터와 구조에 따라 학습 시간이 길어질 수 있음
기능	주로 분류와 회귀에 사용	분류, 회귀, 생성 등 다양한 영역에 적용 가능

역사적으로 서포트 벡터 머신은 1990년대와 2000년대 초중반에 큰 주목을 받았으나, 대량의 데이터와 컴퓨팅 자원을 활용하는 딥러닝 신경망이 부상하면서 많은 복잡한 문제 영역에서 그 주도권을 내주었다. 그러나 서포트 벡터 머신은 여전히 데이터가 제한적이거나 고차원이며 희소한 특성을 가진 분야, 예를 들어 텍스트 분류나 일부 생물정보학 문제에서 유용하게 사용된다.

서포트 벡터 머신

이름	서포트 벡터 머신
영문명	Support Vector Machine (SVM)
분류	기계 학습 알고리즘, 지도 학습
주요 용도	분류, 회귀, 이상치 탐지
핵심 개념	최대 마진 하이퍼플레인, 서포트 벡터
개발	블라디미르 배프니크, 알렉세이 체르보넨키스 (1990년대)
상세 정보
수학적 기반	통계적 학습 이론, 커널 트릭
커널 종류	선형, 다항식, 방사 기저 함수(RBF), 시그모이드
장점	고차원 데이터 처리 효율성, 과적합 방지 효과, 결정 경계의 명확성
단점	대규모 데이터셋에서의 계산 비용, 커널 선택과 하이퍼파라미터 튜닝의 중요성, 해석의 어려움
하이퍼파라미터	규제 파라미터(C), 커널 파라미터 (예: gamma)
소프트 마진	오분류 허용을 통한 노이즈 데이터 대응
응용 분야	텍스트 분류, 이미지 인식, 생물정보학, 금융 시장 예측
관련 알고리즘	SVR (Support Vector Regression), One-class SVM
구현 라이브러리	scikit-learn, LIBSVM, LibLinear