HMM(은닉 마르코프 모델)
1. 개요
1. 개요
은닉 마르코프 모델(Hidden Markov Model, HMM)은 통계적 마르코프 모델의 하나이다. 이 모델은 관측 가능한 사건들의 시퀀스 뒤에 은닉된 상태들의 시퀀스가 존재한다고 가정한다. 각 상태는 관측 기호를 방출할 확률 분포를 가지며, 상태 간의 전이는 마르코프 성질을 따른다.
HMM은 관측 데이터만으로 직접 알 수 없는, 은닉된 상태들의 시퀀스를 추론하거나 모델의 파라미터를 학습하는 데 널리 사용된다. 모델은 일반적으로 초기 상태 분포, 상태 전이 확률 행렬, 관측 기호 방출 확률 행렬이라는 세 가지 파라미터 집합으로 정의된다.
이 모델은 1960년대 후반부터 1970년대 초반에 걸쳐 기본 이론이 정립되었으며, 이후 음성 인식 분야의 획기적 발전을 이끈 핵심 기술로 자리 잡았다. 시간에 따라 변화하는 패턴을 인식해야 하는 다양한 분야에서 응용된다.
HMM은 마르코프 과정을 기반으로 하지만, 직접 관측할 수 없는 '은닉 상태'의 개념을 도입함으로써 더 복잡한 확률 과정을 모델링할 수 있다. 이는 관측값과 내부 상태 사이의 확률적 관계를 통해 이루어진다.
2. 기본 개념
2. 기본 개념
2.1. 마르코프 과정
2.1. 마르코프 과정
마르코프 과정은 미래 상태가 현재 상태에만 의존하고 과거 상태에는 독립적인 확률 과정이다. 이 성질을 마르코프 성질 또는 무기억성이라고 한다. 즉, 시간 t+1에서의 상태는 시간 t에서의 상태에만 영향을 받으며, 그 이전의 상태들(t-1, t-2, ...)은 미래에 영향을 주지 않는다.
이러한 과정은 상태 전이 확률 행렬로 표현된다. 이 행렬의 각 요소는 현재 특정 상태에서 다음 특정 상태로 전이할 확률을 나타낸다. 마르코프 과정은 관측 가능한 상태의 시퀀스를 직접 다루며, 상태 자체가 완전히 관측 가능하다는 점에서 은닉 마르코프 모델과 구분된다.
마르코프 과정은 날씨 예측, 게임 이론, 대기열 이론 등 다양한 확률 모델링의 기초가 된다. 은닉 마르코프 모델은 이러한 마르코프 과정을 확장하여, 직접 관측할 수 없는 은닉 상태가 존재하며 그 상태로부터 관측값이 생성된다는 개념을 도입한다.
2.2. 은닉 상태와 관측
2.2. 은닉 상태와 관측
은닉 마르코프 모델에서 "은닉 상태"란 관찰할 수 없는 내부 상태를 의미한다. 이 상태는 직접적으로 알 수 없지만, 마르코프 성질을 따른다. 즉, 현재 상태는 오직 바로 이전 상태에만 의존하여 확률적으로 결정된다.
반면 "관측"은 각 은닉 상태에서 시스템이 외부로 내보내는, 직접 관찰 가능한 출력값이다. 각 은닉 상태는 여러 개의 가능한 관측값을 가질 수 있으며, 특정 관측값이 나타날 확률은 관측 확률 분포로 정의된다.
따라서 HMM의 핵심은, 관측 가능한 출력 시퀀스만을 가지고 그 뒤에 숨겨진 상태 시퀀스를 추론하는 데 있다. 예를 들어, 음성 인식에서 관측값은 측정된 음향 신호이고, 은닉 상태는 화자가 의도한 단어나 음소에 해당한다.
이러한 구조는 마르코프 과정에 "은닉성"과 "관측"의 개념을 더한 것으로, 실제 세계의 많은 시퀀스 데이터를 모델링하는 데 유용하게 적용된다.
2.3. 모델 파라미터
2.3. 모델 파라미터
HMM의 모델 파라미터는 모델의 수학적 정의를 완성하는 세 가지 요소로 구성된다. 이 파라미터들은 모델의 확률적 행동을 결정하며, 일반적으로 람다(λ)로 표기된다.
첫째는 초기 상태 확률 분포이다. 이는 시퀀스의 시작 시점(t=1)에 각 은닉 상태가 시작 상태일 확률을 나타내는 벡터이다. 둘째는 상태 전이 확률 분포이다. 이는 현재 은닉 상태가 다음 시점의 특정 은닉 상태로 전이될 조건부 확률을 나타내는 행렬이다. 이 행렬은 마르코프 성질, 즉 다음 상태가 현재 상태에만 의존한다는 가정을 반영한다. 셋째는 관측 확률 분포이다. 이는 특정 은닉 상태에서 각 관측 기호가 생성될 확률을 나타내는 행렬이다. 이는 은닉 상태와 관측값 사이의 확률적 관계를 정의한다.
이 세 가지 파라미터 집합이 주어지면, 특정 관측 시퀀스가 생성될 확률을 계산하거나, 관측 시퀀스 뒤에 숨은 가장 가능성 높은 상태 시퀀스를 추론하는 것이 가능해진다. 또한, 주어진 관측 데이터로부터 이 파라미터들을 추정하는 학습 문제는 HMM의 핵심 문제 중 하나이다.
3. 주요 문제와 알고리즘
3. 주요 문제와 알고리즘
3.1. 평가 문제 (전방-후방 알고리즘)
3.1. 평가 문제 (전방-후방 알고리즘)
평가 문제는 주어진 HMM 모델 파라미터와 관측된 시퀀스가 있을 때, 해당 관측 시퀀스가 모델에서 생성될 확률을 계산하는 문제이다. 이 확률은 모델이 관측 데이터를 얼마나 잘 설명하는지를 나타내는 지표로, 모델 간의 비교나 분류 문제에서 유용하게 사용된다.
이 문제를 해결하기 위한 효율적인 알고리즘이 전방-후방 알고리즘이다. 이 알고리즘은 동적 계획법을 기반으로 하며, 전방 변수와 후방 변수를 계산하는 두 단계로 구성된다. 전방 변수는 특정 시점까지의 부분 관측 시퀀스와 특정 상태에 도달할 확률을 계산한다. 반대로 후방 변수는 특정 시점에 특정 상태에 있다는 가정 하에, 이후의 관측 시퀀스가 나타날 확률을 계산한다.
이 두 변수를 결합하면, 전체 관측 시퀀스에 대한 확률을 효율적으로 구할 수 있다. 전방 변수만으로도 전체 확률을 계산할 수 있지만, 후방 변수는 이후의 디코딩 문제나 학습 문제를 풀 때 필요한 정보를 제공한다. 이 알고리즘의 시간 복잡도는 관측 시퀀스 길이와 상태 수의 곱에 비례하여 선형적으로 증가하므로, 직접적인 확률 계산보다 훨씬 효율적이다.
평가 문제의 해결은 HMM이 실제 응용 분야에 적용되는 첫 단계라고 볼 수 있다. 예를 들어 음성 인식에서는 여러 개의 HMM(각 단어나 음소에 대한 모델) 중에서 입력 음성 신호의 관측 시퀀스 확률이 가장 높은 모델을 선택함으로써 인식을 수행한다.
3.2. 디코딩 문제 (비터비 알고리즘)
3.2. 디코딩 문제 (비터비 알고리즘)
디코딩 문제는 주어진 관측열을 생성했을 가능성이 가장 높은 은닉 상태의 열을 찾는 문제이다. 즉, "가장 그럴듯한 상태 시퀀스는 무엇인가?"라는 질문에 답한다. 이는 관측 데이터의 배후에 있는 실제 상태 변화를 추론하는 데 핵심적이다. 예를 들어, 음성 신호(관측)로부터 실제 발음된 단어의 음소 열(은닉 상태)을 찾거나, DNA 염기 서열(관측)로부터 유전자 부위(은닉 상태)를 식별하는 데 사용된다.
이 문제를 해결하는 표준 알고리즘은 비터비 알고리즘이다. 이 알고리즘은 동적 계획법의 일종으로, 전체 가능한 상태 열의 공간을 효율적으로 탐색한다. 핵심 아이디어는 각 시점과 각 상태에 도달하는 최적 경로의 확률을 누적하며 계산하고, 그 경로를 역추적하는 것이다. 구체적으로, 각 시점 t에서 각 상태 j에 대해, 그 상태에서 관측이 나올 확률과 이전 시점의 모든 상태에서 전이되어 올 확률을 고려해 최대값을 선택하고, 그 경로를 기록한다.
비터비 알고리즘은 전방-후방 알고리즘과 유사한 구조를 가지지만, 합(Sum) 대신 최대값(Max) 연산을 사용한다는 점이 다르다. 이로 인해 계산 복잡도는 상태 수 N과 시퀀스 길이 T에 대해 O(N²T)로 동일하지만, 최적의 단일 경로를 찾는 데 특화되어 있다. 알고리즘의 출력은 최종적으로 역추적하여 얻은, 최대 확률을 갖는 상태 열이다.
이 알고리즘은 실용적으로 매우 중요하며, 음성 인식에서는 단어 인식 결과를 결정하는 데, 자연어 처리에서는 품사 태깅의 정확한 태그 열을 생성하는 데 직접적으로 활용된다. 또한 생물정보학의 유전체 분석이나 통신 분야의 오류 정정에도 응용된다.
3.3. 학습 문제 (바움-웰치 알고리즘)
3.3. 학습 문제 (바움-웰치 알고리즘)
HMM의 학습 문제는 주어진 관측열 O를 가장 잘 설명하는 모델 파라미터 λ = (A, B, π)를 추정하는 것이다. 이는 모델이 관측 데이터를 생성할 확률 P(O|λ)를 최대화하는 파라미터를 찾는 최대 우도 추정 문제로 볼 수 있다. 그러나 HMM에서 상태열은 은닉되어 있어 직접적인 최적화가 어렵기 때문에, 기대값 최대화 알고리즘의 일종인 바움-웰치 알고리즘이 널리 사용된다.
바움-웰치 알고리즘은 반복적인 두 단계, 즉 기대 단계(E-step)와 최대화 단계(M-step)로 구성된다. 기대 단계에서는 현재의 파라미터 추정치를 사용하여 전방 변수와 후방 변수를 계산하고, 이를 바탕으로 상태 i에서 상태 j로 전이할 기대 횟수와 상태 j에서 관측 기호 k를 방출할 기대 횟수 등을 구한다. 최대화 단계에서는 이러한 기대값을 이용해 새로운 파라미터 A, B, π를 재추정한다. 이 과정을 모델의 우도가 수렴할 때까지 반복한다.
이 알고리즘은 초기 파라미터 설정에 민감하며, 지역 최적해에 수렴할 수 있다는 한계가 있다. 따라서 일반적으로 여러 다른 초기값으로 알고리즘을 실행하여 가장 좋은 결과를 선택한다. 바움-웰치 알고리즘은 음성 인식과 생물정보학 등 HMM이 적용되는 다양한 분야에서 모델 학습의 핵심 도구로 자리 잡았다.
4. HMM의 확장 및 변형
4. HMM의 확장 및 변형
4.1. 계층적 HMM
4.1. 계층적 HMM
계층적 은닉 마르코프 모델(Hierarchical Hidden Markov Model, HHMM)은 단일 수준의 상태 체인을 넘어 여러 수준의 추상화된 상태 계층 구조를 가진 HMM의 확장 모델이다. 기본 HMM의 상태가 단순한 심볼로 표현되는 반면, HHMM에서는 각 상태가 다시 하나의 HMM으로 구성될 수 있다. 즉, 최상위 수준의 상태는 하위 수준의 HMM을 '생성'하는 역할을 하며, 하위 HMM이 자신의 상태 전이를 마치고 종료되면 상위 상태로 제어권이 돌아가는 방식으로 작동한다.
이러한 계층적 구조는 복잡한 패턴을 여러 단계로 분해하여 모델링할 수 있게 한다. 예를 들어, 음성 인식에서 최상위 상태는 단어를, 그 하위 상태는 음소를, 더 하위 상태는 음향 신호의 세부 특징을 나타낼 수 있다. 생물정보학에서는 유전체 서열에서 유전자 구조를 모델링할 때, 최상위 상태가 유전자 영역(예: 프로모터, 엑손, 인트론)을, 하위 상태가 염기서열의 통계적 특성을 나타내는 데 활용된다.
HHMM의 학습과 추론은 기본 HMM의 알고리즘을 계층 구조에 맞게 일반화한 형태로 이루어진다. 바움-웰치 알고리즘과 비터비 알고리즘은 각 수준의 상태 전이와 하위 모델의 시작 및 종료 확률을 함께 고려하도록 확장되어 적용된다. 그러나 모델 파라미터의 수가 급증하고 추론 복잡도가 높아지는 단점이 있어, 실제 적용 시에는 계산 효율성을 위한 근사적 방법이 필요할 수 있다.
4.2. 연속 HMM
4.2. 연속 HMM
연속 H르코프 모델은 관측값이 연속적인 확률 분포를 따를 때 사용하는 HMM의 변형이다. 기본 HMM은 관측값이 이산적인 심볼 집합에서 나온다고 가정하지만, 실제 음성 신호나 센서 데이터와 같은 많은 응용 분야에서는 관측값이 실수 벡터와 같은 연속적인 형태를 가진다. 이를 다루기 위해 연속 HMM은 각 은닉 상태에서의 관측 확률을 연속 확률 밀도 함수로 모델링한다.
가장 일반적인 접근법은 혼합 가우시안 분포를 사용하는 것이다. 각 상태 j에 대해, 관측 벡터 o의 확률 밀도 b_j(o)는 M개의 가우시안 분포의 가중합으로 표현된다. 이때 각 가우시안 구성 요소는 평균 벡터, 공분산 행렬, 그리고 혼합 계수라는 파라미터를 가진다. 이 방식을 통해 복잡한 연속 관측 분포를 유연하게 표현할 수 있다.
연속 HMM의 파라미터 추정은 기본 HMM의 바움-웰치 알고리즘을 확장한 형태를 사용한다. 학습 과정에서는 각 상태의 관측 확률 밀도 함수를 구성하는 가우시안 혼합 모델의 파라미터(평균, 공분산, 혼합 가중치)도 함께 추정해야 한다. 이를 위해 기대값 최대화 알고리즘의 일종인 알고리즘이 사용되며, 각 관측 데이터가 특정 상태의 특정 가우시안 구성 요소에서 생성되었을 기대 비율을 계산하여 파라미터를 재추정한다.
연속 HMM은 주로 음성 인식 분야에서 핵심 역할을 해왔다. 음성의 멜-주파수 켑스트럼 계수와 같은 연속적인 특징 벡터를 모델링하는 데 적합하기 때문이다. 또한 제스처 인식, 필기체 인식, 금융 시계열의 연속값 예측 등 다양한 패턴 인식 과제에 적용된다.
4.3. 입출력 HMM
4.3. 입출력 HMM
입출력 HMM은 기존 HMM이 단순히 관측열의 생성만을 모델링하는 것에서 한 단계 발전한 형태이다. 기존 HMM은 관측열이 내부의 은닉 상태 시퀀스에 의해서만 생성된다고 가정한다. 반면 입출력 HMM은 관측열이 은닉 상태와 함께 외부의 입력 시퀀스에 의해서도 영향을 받는다고 본다. 즉, 모델이 입력 시퀀스를 받아 그에 따른 출력(관측) 시퀀스를 생성하는 과정을 확률적으로 표현한다. 이는 시퀀스-투-시퀀스 매핑 문제를 다루는 데 더 적합한 구조를 제공한다.
이 모델의 핵심은 상태 전이 확률과 관측 확률이 모두 현재의 은닉 상태와 현재의 입력값에 의존할 수 있다는 점이다. 따라서 모델 파라미터는 입력에 따라 동적으로 변화할 수 있다. 이러한 특성 덕분에 입출력 HMM은 제어 이론, 로봇공학, 사용자 행동 모델링 등 시스템의 출력이 명확한 입력 신호에 반응하는 상황을 모델링하는 데 활용된다. 예를 들어, 특정 명령(입력)에 따른 로봇의 동작 시퀀스(관측)를 예측하는 데 적용할 수 있다.
입출력 HMM의 학습과 추론을 위한 알고리즘은 기본 HMM의 알고리즘을 확장한 형태를 가진다. 바움-웰치 알고리즘은 입력 조건이 고려된 새로운 기대값 최대화 과정으로 일반화되며, 비터비 알고리즘 또한 입력 시퀀스가 주어진 상황에서 최적의 은닉 상태 경로를 찾도록 수정된다. 이는 모델의 복잡도를 증가시키지만, 더 풍부한 표현력을 얻을 수 있게 한다.
입출력 HMM은 기본 HMM과 최대 엔트로피 마르코프 모델 같은 조건부 모델 사이의 중간 형태로 볼 수 있다. 순차적인 데이터에서 원인(입력)과 결과(관측)의 관계를 함께 모델링해야 할 때 유용한 프레임워크이다.
5. 응용 분야
5. 응용 분야
5.1. 음성 인식
5.1. 음성 인식
음성 인식은 HMM이 가장 성공적으로 적용된 분야 중 하나이다. 음성 신호는 시간에 따라 변화하는 시계열 데이터이며, HMM은 이러한 음성의 시간적 패턴을 모델링하는 데 적합하다. 음성 인식 시스템에서는 일반적으로 각 단어나 음소를 하나의 HMM으로 표현한다. 입력된 음성 신호는 관측 벡터 시퀀스로 변환되고, 이 시퀀스가 각 HMM을 통해 생성될 확률을 계산하여 가장 확률이 높은 단어 시퀀스를 찾아내는 방식으로 인식이 이루어진다.
구체적으로, 음성 신호는 짧은 시간 구간(프레임)으로 나누어지고, 각 프레임에서 MFCC 같은 특징 벡터가 추출되어 관측 시퀀스를 형성한다. HMM의 은닉 상태는 음성의 세그먼트, 예를 들어 음소의 시작, 중간, 끝 부분 등을 나타내도록 설계된다. 비터비 알고리즘은 주어진 관측 시퀀스에 대해 가장 가능성 높은 은닉 상태 경로, 즉 음소나 단어의 시퀀스를 찾는 데 사용된다.
HMM 기반 음성 인식의 핵심은 모델 학습이다. 바움-웰치 알고리즘을 사용하여 대량의 음성 데이터로부터 각 음소 또는 단어 HMM의 상태 전이 확률과 관측 확률 분포 파라미터를 추정한다. 이렇게 학습된 HMM들은 인식 시에 결합되어 단어 수준 또는 문장 수준의 인식을 수행하는 데 사용된다.
초기 음성 인식 시스템은 소리 단위인 음소를 모델링하는 HMM을 사용했으며, 이후 트라이폰과 같은 더 정교한 콘텍스트 종속 모델로 발전했다. HMM은 가우시안 혼합 모델과 결합되어 연속적인 관측 벡터의 확률을 계산하는 데 널리 사용되며, 이 HMM-GMM 구조는 수십 년간 음성 인식의 표준 프레임워크로 자리 잡았다.
5.2. 생물정보학 (유전자 서열 분석)
5.2. 생물정보학 (유전자 서열 분석)
HMM은 생물정보학, 특히 유전자 서열 분석 분야에서 핵심적인 도구로 널리 사용된다. DNA나 단백질과 같은 생물학적 서열은 내부에 숨겨진 기능적 또는 구조적 영역을 포함하고 있는 경우가 많으며, HMM은 이러한 은닉된 패턴을 효과적으로 모델링하고 찾아내는 데 적합하다.
가장 대표적인 응용은 유전자 예측이다. 유전체 서열에서 실제 코딩 서열을 찾아내는 작업으로, HMM은 엑손과 인트론, 프로모터 영역 등 서열의 다른 상태를 은닉 상태로 설정하고, 관측되는 염기 서열(A, T, G, C)을 통해 가장 그럴듯한 상태 경로를 추론한다. 또한 단백질 2차 구조 예측이나 다중 서열 정렬 생성에도 활용되어, 단백질의 알파 나선, 베타 시트 같은 구조적 영역을 식별하거나 진화적으로 관련된 서열들을 정렬하는 데 기여한다.
이를 위해 특화된 도구와 알고리즘이 개발되었다. 예를 들어, 프로파일 HMM은 단백질 계열이나 도메인과 같은 보존된 서열 패턴을 나타내는 확률적 모델로, 새로운 서열이 해당 패턴 군집에 속하는지 여부를 판단하는 데 사용된다. HMMER와 같은 유명한 소프트웨어 패키지는 프로파일 HMM을 구현하여 생물학적 서열 데이터베이스 검색에 널리 적용되고 있다.
따라서 HMM은 방대한 생물학적 서열 데이터에서 의미 있는 정보를 추출하고, 유전자의 구조와 기능, 단백질의 진화적 관계를 이해하는 데 필수적인 통계적 모델로서 자리 잡았다.
5.3. 자연어 처리 (품사 태깅)
5.3. 자연어 처리 (품사 태깅)
은닉 마르코프 모델은 자연어 처리 분야, 특히 품사 태깅 작업에서 역사적으로 중요한 역할을 했다. 품사 태깅은 주어진 문장에서 각 단어에 명사, 동사, 형용사 등 적절한 품사 태그를 부여하는 과정이다. HMM은 이 문제를 관측 가능한 단어 시퀀스(관측값)와 그 뒤에 은닉된 품사 시퀀스(은닉 상태)의 관계로 모델링한다. 즉, 단어는 관측되고, 단어의 품사는 직접 관측할 수 없는 은닉 상태로 간주하여 확률적으로 추론한다.
HMM 기반 품사 태거는 주로 바이그램 또는 트라이그램 언어 모델을 사용하여 품사 간의 전이 확률을, 그리고 각 품사에서 특정 단어가 관측될 방출 확률을 학습한다. 학습이 완료되면, 새로운 문장이 입력되면 비터비 알고리즘을 적용하여 전체 단어 시퀀스에 대해 가장 확률이 높은 품사 시퀀스를 효율적으로 찾아낸다. 이 알고리즘은 동적 계획법을 사용하여 가능한 모든 품사 조합을 탐색하지 않고도 최적 경로를 계산한다.
이 접근법은 비교적 간단한 구조와 빠른 추론 속도가 장점이지만, 한계도 존재한다. HMM은 기본적으로 각 관측(단어)이 현재의 은닉 상태(품사)에만 의존한다고 가정하는데, 실제 언어에서는 문맥이 더 넓은 범위에 걸쳐 영향을 미친다. 또한, 학습 데이터에 등장하지 않은 희귀 단어나 미등록 단어에 대한 처리 능력이 제한적일 수 있다.
따라서 현대의 자연어 처리에서는 조건부 무작위장(CRF)이나 순환 신경망(RNN), 트랜스포머 기반의 심층 학습 모델이 더 정교한 문맥 모델링을 통해 품사 태깅 성능을 크게 향상시켰다. 그러나 HMM은 통계적 시퀀스 모델의 기본 원리를 잘 보여주는 고전적인 방법론으로, 자연어 처리의 발전 과정에서 중요한 이정표로 남아 있다.
5.4. 금융 시계열 분석
5.4. 금융 시계열 분석
금융 시계열 분석에서 HMM은 주가, 환율, 금리 등 관측 가능한 금융 데이터의 변동 패턴 뒤에 존재하는, 직접 관찰할 수 없는 시장 상태를 모델링하는 데 널리 활용된다. 예를 들어, 주가 수익률의 움직임은 불황, 안정, 호황과 같은 서로 다른 시장 국면(은닉 상태)에서 발생하는 것으로 해석할 수 있다. 이러한 접근법은 시장이 여러 상태 사이를 전환하며 움직인다는 가정 하에, 관측된 가격 변동을 생성한 가장 가능성 높은 상태 시퀀스를 추정하거나, 미래의 상태 전환 확률을 예측하는 데 사용된다.
HMM을 적용한 대표적인 금융 모델로는 자산 가격 변동성을 여러 상태(예: 저변동성 상태, 고변동성 상태)로 구분하여 설명하는 모형이 있다. 또한, 채권의 신용 등급 변동을 상태 전이로 모델링하거나, 경기 사이클의 국면을 식별하는 데에도 활용된다. 알고리즘 측면에서는, 과거 데이터로부터 모델 파라미터를 학습하는 바움-웰치 알고리즘과 관측된 데이터를 바탕으로 가장 가능성 있는 상태 경로를 찾는 비터비 알고리즘이 핵심 도구로 사용된다.
금융 HMM의 주요 장점은 시계열 데이터에 내재한 비선형성과 구조 변화를 포착할 수 있다는 점이다. 전통적인 선형 모델이 놓치기 쉬운, 시장의 갑작스러운 변동이나 체제 전환을 은닉 상태의 전이로 설명함으로써 더 풍부한 해석을 제공할 수 있다. 그러나 모델의 성능은 초기 파라미터 설정에 민감할 수 있으며, 은닉 상태의 수를 사전에 정의해야 하는 등 모델 선택에 관한 과제도 존재한다.
6. 장단점
6. 장단점
HMM은 시계열 데이터를 모델링하는 데 강력한 도구이지만, 고유한 장점과 한계를 모두 지닌다.
HMM의 주요 장점은 모델의 개념이 직관적이고 구현이 비교적 간단하다는 점이다. 관측 가능한 데이터 뒤에 숨겨진 상태의 마르코프 과정이라는 가정은 많은 실제 문제를 합리적으로 설명한다. 또한 비터비 알고리즘과 바움-웰치 알고리즘과 같이 평가, 디코딩, 학습의 세 가지 핵심 문제에 대한 효율적인 알고리즘이 잘 정립되어 있어 실제 응용이 용이하다. 이로 인해 음성 인식, 생물정보학, 자연어 처리 등 다양한 분야에서 오랫동안 성공적으로 적용되어 왔다.
반면, HMM은 몇 가지 명확한 단점을 가지고 있다. 가장 큰 한계는 마르코프 가정 자체로, 현재 상태가 바로 이전 상태에만 의존한다고 보기 때문에 장기적인 의존 관계를 모델링하기 어렵다. 또한 관측값이 서로 독립적이라고 가정하는 경우가 많아, 관측 시퀀스 내의 복잡한 상관관계를 포착하는 데 제약이 있다. 모델 구조(은닉 상태의 수 등)를 사전에 정의해야 하며, 바움-웰치 알고리즘은 기대값 최대화 알고리즘의 일종으로 지역 최적해에 수렴할 위험이 있다.
결과적으로 HMM은 은닉 상태의 전이가 국소적이고 이산적인 문제에는 매우 효과적이지만, 장기 의존성이나 복잡한 관측 분포를 요구하는 문제에는 순환 신경망이나 심층 신경망과 같은 더 표현력이 높은 모델에 비해 제한적일 수 있다.