BLOSUM (r1)

1. 개요

BLOSUM은 아미노산 서열 정렬에 사용되는 서열 치환 행렬이다. 이 행렬은 두 아미노산이 진화 과정에서 서로 대체될 가능성에 기반하여 점수를 부여하며, 단백질 서열 비교 및 정렬 작업에서 핵심적인 도구로 활용된다. 1992년 스티븐 헤네코프와 제이콥스 G. 헤네코프에 의해 처음 개발되었다.

BLOSUM 행렬은 진화적 관계가 가까운 단백질 서열들로 구성된 블록을 분석하여 만들어지며, 이를 통해 서열 간의 상동성을 평가하고 생물정보학적 분석을 수행한다. 주된 응용 분야로는 서열 정렬, 진화 관계 분석, 그리고 단백질의 구조 및 기능 예측 등이 있다.

이 행렬은 계통학 및 단백질 공학 연구에서 널리 사용되며, 특히 BLOSUM62와 같은 특정 버전은 BLAST와 같은 널리 쓰이는 서열 검색 도구의 기본 설정으로 채택되어 있다. BLOSUM 계열 행렬은 이전에 널리 쓰이던 PAM 행렬과 비교하여 보다 직접적이고 현실적인 진화적 거리를 반영한다는 특징을 가진다.

2. 개발 배경

BLOSUM은 1992년 스티븐 헤네코프와 제이콥스 G. 헤네코프에 의해 개발된 아미노산 서열 정렬에 사용되는 서열 치환 행렬이다. 이 행렬의 개발은 기존에 널리 사용되던 PAM 행렬의 한계를 극복하고, 보다 직접적이고 정확한 진화적 관계 분석을 목표로 했다.

PAM 행렬은 진화적 거리가 매우 가까운 서열들로부터 시작하여 점 돌연변이 모델을 통해 장기간의 진화를 추정하는 방식을 취했다. 이는 간접적인 추정에 의존한다는 한계가 있었다. 반면, BLOSUM은 "BLOCKS" 데이터베이스에 수록된, 기능적으로 중요한 보존 서열을 포함하는 단백질 도메인의 다중 서열 정렬 블록을 직접 분석하여 만들어졌다. 즉, 실제 관찰된 아미노산 치환 패턴을 바탕으로 행렬을 구성함으로써 보다 현실적인 통계 모델을 제공하고자 했다.

이러한 접근법의 핵심은 서로 다른 진화적 거리를 가진 서열들을 포함하는 블록들을 그룹화하는 임계값(예: BLOSUM62, BLOSUM80)을 설정하는 것이었다. 이를 통해 특정 진화적 보존 수준에 맞춘 행렬을 생성할 수 있었고, 이는 다양한 정밀도를 요구하는 생물정보학 분석, 특히 단백질 서열 비교 및 진화 관계 분석에 널리 응용되는 기반이 되었다.

3. 계산 방법

3.1. 블록 구성

BLOSUM 행렬을 계산하기 위한 첫 단계는 신뢰할 수 있는 단백질 서열 데이터를 수집하고 이를 바탕으로 블록을 구성하는 것이다. 이 과정은 진화적으로 보존된 아미노산 패턴을 식별하는 데 중점을 둔다.

연구자들은 단백질 데이터베이스에서 상동 서열을 모아 다중 서열 정렬을 수행한다. 이때, 정렬된 서열 내에서 아미노산 치환이 빈번하게 일어나는 보존 영역, 즉 '블록'을 식별한다. 각 블록은 진화적 제약을 받아 기능이나 구조를 유지하기 위해 서열이 보존된 영역을 나타낸다. 블록을 구성할 때는 정렬된 서열들 사이의 동일성 퍼센트에 따라 서열들을 서로 다른 그룹으로 클러스터링하여, 지나치게 유사한 서열이 데이터에 과도하게 영향을 미치는 것을 방지한다. 예를 들어, BLOSUM62 행렬은 서열 동일성이 62% 이상인 서열들을 하나의 가중 평균 서열로 통합하여 블록을 만든다.

이렇게 구성된 블록들은 서로 다른 아미노산이 동일한 위치에 얼마나 자주 등장하는지를 관찰하는 통계적 분석의 기초 자료가 된다. 블록 내 각 위치에서 관찰되는 아미노산 조합은 진화 과정에서 허용되는 치환 패턴에 대한 직접적인 증거를 제공한다.

3.2. 대체 빈도 계산

대체 빈도 계산은 BLOSUM 행렬을 생성하는 핵심 단계로, 단백질 서열 정렬에서 관찰된 아미노산 치환의 실제 빈도를 기반으로 한다. 이 과정은 진화적으로 보존된 단백질 도메인 블록 내에서 각 아미노산 쌍이 서로 대체되는 빈도를 정량화하는 것을 목표로 한다.

계산의 첫 단계는 수집된 블록 내에서 모든 가능한 아미노산 쌍의 발생 횟수를 세는 것이다. 여기서 쌍은 블록 내 동일한 서열 정렬 열에 위치한 두 아미노산 잔기를 의미한다. 이때, 동일한 서열 내의 쌍은 계산에서 제외되며, 서로 다른 서열들 사이에서만 형성되는 쌍이 고려된다. 이는 진화적으로 독립적인 사건을 반영하기 위함이다.

이렇게 얻은 관찰된 쌍의 빈도로부터 기대 빈도를 계산한다. 기대 빈도는 두 아미노산이 무작위로 짝을 이룰 경우 예상되는 빈도로, 각 아미노산의 전체 출현 빈도를 곱하여 구한다. 최종적인 대체 빈도는 관찰된 빈도를 기대 빈도로 나눈 값, 즉 상대적 빈도로 정의된다. 이 비율이 1보다 크면 무작위 예상보다 자주 함께 관찰된다는 의미이며, 진화 과정에서 그 치환이 선호된다고 해석할 수 있다. 이 상대적 빈도는 이후 로그 오즈 비를 계산하여 점수 행렬로 변환되는 기초가 된다.

3.3. 점수 행렬 생성

점수 행렬 생성은 블록에서 계산된 대체 빈도 데이터를 최종적인 치환 행렬로 변환하는 과정이다. 이 단계에서는 관찰된 대체 빈도가 우연히 발생할 것으로 기대되는 빈도와 비교된다. 구체적으로, 각 아미노산 쌍에 대해 관찰된 대체 빈도를 두 아미노산이 무작위 서열에서 독립적으로 나타날 확률로 나눈 우도비를 계산한다. 이 우도비는 두 아미노산이 진화 과정에서 서로 대체되는 경향이 우연보다 강한지 약한지를 수치적으로 나타낸다.

계산된 우도비는 로그 오즈 점수로 변환되어 최종 점수 행렬을 완성한다. 로그 값을 취하는 이유는 서열 정렬 시 여러 위치의 점수를 더하기 편리하도록 하기 위함이다. 결과적으로 행렬의 각 항목은 양수, 0, 음수의 값을 가지게 되며, 양수 점수는 해당 아미노산 치환이 진화적으로 선호됨을, 음수 점수는 불리함을 의미한다. 이렇게 생성된 행렬은 서열 정렬 알고리즘의 핵심 입력값으로 사용되어, 두 서열을 비교할 때 각 위치에서의 일치 또는 불일치에 대한 점수를 부여하는 기준이 된다.

BLOSUM 행렬 생성의 특징은 특정 진화적 거리를 사전에 가정하지 않고, 실험적으로 관찰된 보존 서열 블록의 데이터를 직접 반영한다는 점이다. 이는 PAM 행렬이 짧은 진화 시간의 치환 패턴을 모델링한 후 이를 외삽하여 장기 진화를 추정하는 방식과 대비된다. 따라서 BLOSUM 행렬은 다양한 진화적 거리를 포괄하는 데이터로부터 직접 도출된, 보다 실증적인 치환 확률을 제공한다고 볼 수 있다.

4. 종류 및 특성

4.1. BLOSUM 계열 (예: BLOSUM62, BLOSUM80)

BLOSUM 행렬은 단백질 서열 정렬을 위해 사용되는 계열로, 각 행렬은 BLOSUM 뒤에 숫자를 붙여 구분한다. 이 숫자는 행렬을 생성하는 데 사용된 클러스터링 임계값을 나타낸다. 예를 들어, BLOSUM62는 서열 동일성이 62%를 초과하는 서열들을 하나의 클러스터로 묶어 계산한 행렬이며, BLOSUM80은 80%를 임계값으로 사용한다. 숫자가 높을수록 더 가까운 진화적 관계를 가진 서열들로부터 행렬이 도출된 것을 의미한다.

이러한 계열은 서로 다른 진화적 거리를 가진 단백질 서열을 비교하는 데 최적화되어 있다. BLOSUM62는 비교적 먼 진화적 관계를 가진 서열들의 정렬에 널리 사용되는 표준 행렬로 자리 잡았다. 반면, BLOSUM80이나 BLOSUM90과 같은 높은 숫자의 행렬은 매우 유사한 서열들, 즉 동일한 단백질 패밀리 내에서의 정밀한 비교에 더 적합하다. 이는 진화 속도가 느린 보존적 부위를 분석할 때 유용하다.

BLOSUM 계열 행렬의 선택은 분석 목적에 따라 결정된다. 먼 친척 관계의 서열을 찾거나 진화적 관계 분석을 수행할 때는 BLOSUM45나 BLOSUM62와 같은 낮은 숫자의 행렬이 효과적이다. 이들은 오랜 시간에 걸쳐 일어난 다양한 아미노산 치환 패턴을 잘 반영한다. 한편, 단백질 구조 예측이나 매우 정확한 다중 서열 정렬을 위해서는 높은 숫자의 행렬이 선호된다.

이 행렬들은 생물정보학 도구와 데이터베이스 검색 프로그램의 핵심 요소로 통합되어 있다. 대표적인 서열 정렬 알고리즘인 BLAST는 기본 치환 행렬로 BLOSUM62를 사용하며, 사용자가 분석 목적에 맞게 BLOSUM45, BLOSUM80 등 다른 계열의 행렬로 변경할 수 있다. 이를 통해 연구자는 단백질 서열 비교의 민감도와 특이도를 조절할 수 있다.

4.2. PAM 행렬과의 비교

BLOSUM 행렬은 PAM 행렬과 함께 단백질 서열 정렬에 널리 사용되는 서열 치환 행렬이다. 두 행렬 모두 진화 과정에서 아미노산이 다른 아미노산으로 대체되는 빈도를 기반으로 점수를 부여하지만, 이를 계산하는 접근 방식과 기본 가정에서 근본적인 차이를 보인다.

가장 큰 차이는 학습 데이터의 구성 방식에 있다. PAM 행렬은 진화적으로 매우 가까운 서열들(일반적으로 85% 이상의 서열 동일성을 가짐)로 구성된 다중 서열 정렬에서 계산된다. 이는 하나의 진화적 거리(1 PAM, 즉 1%의 아미노산 변화)에서의 치환 패턴을 모델링한 후, 이를 수학적으로 외삽하여 더 먼 진화적 거리(예: PAM250)를 위한 행렬을 생성한다. 반면, BLOSUM 행렬은 블록이라는 보존된 단백질 도메인 서열들을 사용하며, 이 블록 내에는 다양한 진화적 거리를 가진 서열들이 혼재되어 있다. BLOSUM 행렬은 특정 서열 동일성 임계값(예: BLOSUM62는 62%) 이하의 서열들만을 클러스터링하여 분석함으로써, 먼 진화적 관계를 직접적으로 반영하는 행렬을 만든다.

이러한 방법론적 차이로 인해 두 행렬의 적용 영역이 다르다. PAM 행렬은 비교적 가까운 진화적 관계를 가진 단백질 서열들을 정렬하고 비교하는 데 더 적합한 것으로 알려져 있다. 한편, BLOSUM 행렬, 특히 널리 사용되는 BLOSUM62는 다양한 진화적 거리를 포괄하는 데이터에서 직접 도출되었기 때문에, 먼 관계의 서열을 비교하거나 동源性 검색을 수행할 때 더 강건한 성능을 보이는 경우가 많다. 결과적으로 현대 생물정보학 및 계통학 분석에서는 BLOSUM 계열 행렬이 더 보편적으로 사용되는 경향이 있다.

5. 응용 분야

5.1. 서열 정렬

BLOSUM 행렬은 단백질 서열 정렬의 핵심 도구로, 두 서열을 비교하여 최적의 정렬을 찾는 과정에서 사용된다. 서열 정렬 알고리즘은 동적 계획법을 기반으로 하며, 글로벌 정렬이나 로컬 정렬 방식을 통해 수행된다. 이 과정에서 두 아미노산이 정렬될 때, 일치 또는 치환에 대한 점수를 부여해야 하는데, BLOSUM 행렬은 바로 이 점수를 제공하는 표 역할을 한다. 예를 들어, 진화적으로 보존되기 쉬운 아미노산 치환에는 높은 양의 점수를, 일어나기 어려운 치환에는 낮은 점수 또는 음의 점수를 할당하여, 생물학적으로 의미 있는 정렬 결과를 도출하도록 돕는다.

주로 사용되는 BLAST나 FASTA와 같은 서열 검색 도구들은 내부적으로 BLOSUM 행렬을 사용하여 데이터베이스 내의 단백질 서열과 질의 서열을 효율적으로 비교한다. 사용자는 분석 목적에 따라 다른 계열의 행렬을 선택할 수 있으며, 밀접한 관계의 서열을 정렬할 때는 BLOSUM80과 같은 높은 숫자의 행렬을, 먼 관계의 서열을 비교할 때는 BLOSUM45나 BLOSUM62와 같은 낮은 숫자의 행렬을 주로 사용한다. 이를 통해 단백질 간의 상동성을 보다 정확하게 평가할 수 있다.

따라서 BLOSUM 행렬은 단순한 점수표를 넘어, 서열 정렬이라는 생물정보학의 기본 작업을 지탱하는 수학적이면서도 생물학적인 근거가 된다. 올바른 행렬의 선택은 정렬의 민감도와 특이도를 결정하며, 궁극적으로 단백질의 기능 추론이나 계통수 작성과 같은 하위 분석의 신뢰성에 직접적인 영향을 미친다.

5.2. 진화 관계 분석

BLOSUM 행렬은 단백질 서열 간의 진화적 거리와 친연성을 추정하는 핵심 도구로 널리 사용된다. 서열 정렬 과정에서 높은 점수를 받는 아미노산 치환은 진화적으로 보존된, 즉 기능적으로 중요한 치환일 가능성이 높다. 따라서 두 서열 간의 정렬 점수는 그 서열들이 공통 조상으로부터 얼마나 오래 전에 분기되었는지를 간접적으로 반영하는 지표가 될 수 있다. 이를 통해 단백질 계통수를 구성하거나 단백질 가족을 분류하는 데 활용된다.

BLOSUM 행렬의 계열, 예를 들어 BLOSUM62와 BLOSUM80은 서로 다른 진화적 거리를 분석하는 데 특화되어 있다. BLOSUM62는 비교적 먼 진화적 관계를 가진 서열들의 정렬에 적합한 반면, BLOSUM80은 더 가까운 관계의 서열들을 비교할 때 더 정확한 결과를 제공한다. 연구자는 분석 대상 서열들의 예상 진화적 거리에 따라 적절한 행렬을 선택함으로써, 계통학적 분석의 정확도를 높일 수 있다.

이러한 진화 관계 분석은 단순히 유연관계를 파악하는 것을 넘어, 단백질의 기능적 부위나 구조적 중요성을 예측하는 데도 기여한다. 진화 과정에서 잘 보존된 서열 영역은 일반적으로 단백질의 활성 부위나 안정적인 3차 구조를 형성하는 데 관여할 가능성이 크다. 따라서 BLOSUM 행렬을 이용한 서열 비교는 생물정보학과 단백질 공학 분야에서 변이의 영향 평가나 기능 예측 모델 구축을 위한 기초 데이터를 제공한다.

5.3. 단백질 구조/기능 예측

BLOSUM 행렬은 단백질 서열 정렬을 통해 얻은 정보를 바탕으로 단백질의 3차원 구조와 생물학적 기능을 예측하는 데 핵심적인 도구로 활용된다. 단백질의 구조와 기능은 그 서열에 의해 결정되며, 진화 과정에서 보존된 서열 패턴은 특정 구조적 모티프나 기능적 부위와 강하게 연관되어 있다. 따라서 BLOSUM 행렬을 사용한 정밀한 서열 정렬을 통해 상동 서열을 찾고, 보존된 영역을 식별함으로써 알려지지 않은 단백질의 가능한 구조 도메인이나 효소 활성 부위, 리간드 결합 부위 등의 기능을 추론할 수 있다.

이러한 예측은 구조 생물정보학 및 컴퓨터 구조 예측 분야의 기초가 된다. 예를 들어, 알려진 구조를 가진 단백질과의 높은 서열 상동성을 BLOSUM 기반 정렬을 통해 확인하면, 상동 모델링 기법을 적용하여 표적 단백질의 3차원 구조 모델을 구축할 수 있다. 또한, 특정 병원체 단백질의 기능적 부위를 예측하는 것은 신약 개발 표적을 선정하는 데 중요한 정보를 제공한다. 즉, BLOSUM 행렬은 게놈 프로젝트를 통해 대량으로 발굴되는 미지의 단백질 서열에 대한 초기 구조 및 기능 주석을 가능하게 하는 필수 알고리즘이다.

6. 장단점

BLOSUM 행렬은 단백질 서열 정렬에서 널리 사용되는 표준 도구로, 명확한 장점과 함께 몇 가지 한계점을 지닌다.

주요 장점으로는, 실제 관찰된 단백질 서열 블록을 기반으로 한다는 점이 있다. 이는 진화적 거리가 먼 서열 간의 관계를 더 잘 설명하는 경험적 데이터를 제공한다. 특히 BLOSUM62는 민감도와 특이도 사이에서 균형을 잘 잡은 행렬로 평가받으며, 다양한 생물정보학 분석에서 사실상의 표준으로 자리 잡았다. 또한, BLOSUM 계열은 서열 동일성 퍼센트에 따라 다양한 행렬(BLOSUM80, BLOSUM45 등)을 제공하여, 밀접하게 관련된 서열부터 먼 관계의 서열까지 비교에 적합한 도구를 선택할 수 있는 유연성을 제공한다.

반면, BLOSUM 행렬의 단점은 특정 데이터셋에 의존적이라는 점이다. 행렬의 품질은 기반이 되는 블록 데이터베이스의 크기와 품질에 직접적으로 영향을 받는다. 또한, 진화 모델을 명시적으로 가정하지 않는 경험적 방법론이기 때문에, 진화 속도나 선택 압력과 같은 진화적 매개변수를 직접적으로 추정하는 데는 한계가 있다. 이는 PAM 행렬과 같은 이론 모델 기반 방법론과 대비되는 부분이다.

종합하면, BLOSUM 행렬은 실용성과 효율성 면에서 뛰어나 단백질 서열 정렬의 핵심 도구이지만, 사용자는 그 기원과 한계를 이해하고 분석 목적에 맞는 적절한 행렬(예: BLOSUM 계열 내 선택 또는 PAM 행렬과의 비교)을 선택해야 한다.

BLOSUM

정의	아미노산 서열 정렬에 사용되는 서열 치환 행렬
개발자	스티븐 헤네코프, 제이콥스 G. 헤네코프
최초 등장	1992년
주요 용도	단백질 서열 비교 및 정렬 진화적 관계 분석 단백질 구조 및 기능 예측
관련 분야	생물정보학 계통학 단백질 공학
상세 정보
기본 원리	블록(block) 내 보존된 아미노산 서열에서 관찰된 치환 빈도를 바탕으로 점수를 계산
행렬 종류	BLOSUM30 BLOSUM50 BLOSUM62[?] BLOSUM80 BLOSUM90
행렬 숫자 의미	행렬을 생성하는 데 사용된 서열들의 일치율 퍼센트 임계값을 나타냄 예: BLOSUM62는 62% 이상 일치하는 서열들을 하나의 블록으로 묶어 생성
PAM 행렬과의 차이	PAM 행렬은 진화적 거리가 먼 서열들의 비교에 적합 BLOSUM 행렬은 진화적 거리가 가까운 서열들의 비교에 적합
계산 방법	log-odds 점수 사용 관찰된 치환 빈도를 무작위 치환 확률로 나눈 값의 로그를 취함