Unisquads
로그인
홈
이용약관·개인정보처리방침·콘텐츠정책·© 2026 Unisquads
이용약관·개인정보처리방침·콘텐츠정책
© 2026 Unisquads. All rights reserved.

정밀도 및 재현율 (r1)

이 문서의 과거 버전 (r1)을 보고 있습니다. 수정일: 2026.02.14 21:26

정밀도 및 재현율

정의

이진 분류 모델의 성능을 평가하는 지표

정밀도

모델이 양성(Positive)으로 예측한 샘플 중 실제 양성인 비율

재현율

실제 양성 샘플 중 모델이 양성으로 올바르게 예측한 비율

관련 용어

정확도, F1 점수, 혼동 행렬

계산 공식

정밀도 = TP / (TP + FP), 재현율 = TP / (TP + FN)

영문명

Precision and Recall

주요 특징

일반적으로 트레이드오프 관계에 있음

상세 정보

정밀도 별칭

양성 예측도(PPV)

재현율 별칭

민감도(Sensitivity), 진양성율(TPR)

상황별 중요도

정밀도: 거짓 양성 비용이 높은 경우(스팸 메일), 재현율: 거짓 음성 비용이 높은 경우(질병 진단)

조화 평균

F1 점수 (정밀도와 재현율의 조화 평균)

관련 평가 지표

ROC 곡선, AUC, 정확도

혼동 행렬 요소

TP(진양성), FP(거짓양성), TN(진음성), FN(거짓음성)

응용 분야

정보 검색, 의료 진단, 머신 러닝 모델 평가

한계점

불균형 데이터셋에서 단독 사용 시 평가가 왜곡될 수 있음

1. 개요

정밀도와 재현율은 이진 분류 모델의 성능을 평가하는 데 사용되는 핵심 지표이다. 이 두 지표는 단순한 정확도만으로는 파악하기 어려운 모델의 세부적인 특성, 특히 거짓 양성과 거짓 음성 오류의 분포를 이해하는 데 필수적이다.

정밀도는 모델이 '양성'이라고 예측한 사례 중 실제로 양성인 사례의 비율을 의미한다. 즉, 모델의 예측이 얼마나 정확한지를 나타낸다. 반면, 재현율은 실제 양성인 사례 중 모델이 올바르게 양성으로 찾아낸 비율을 의미한다. 이는 모델이 실제 양성 사례를 얼마나 많이 포착하는지, 즉 검출 능력을 보여준다.

이 두 지표는 일반적으로 상충 관계에 있다. 하나를 높이면 다른 하나는 낮아지는 경향이 있어, 특정 문제 상황에 맞춰 적절히 균형을 잡거나 우선순위를 정해야 한다. 예를 들어, 스팸 메일 필터링에서는 정밀도를 높여 정상 메일이 스팸으로 잘못 걸러지지 않도록 하는 것이 중요할 수 있다. 반면, 의료 진단이나 이상 탐지에서는 재현율을 높여 위험한 사례를 놓치지 않는 것이 더 중요할 수 있다.

2. 정의와 기본 개념

정밀도는 모델이 양성으로 예측한 결과 중 실제로 양성인 비율을 의미한다. 즉, '얼마나 정확하게 양성을 찾아냈는가'에 초점을 맞춘다. 높은 정밀도는 거짓 양성을 최소화하는 것을 목표로 하며, 스팸 메일을 정상 메일로 잘못 분류하는 경우가 적은 모델은 정밀도가 높다고 평가할 수 있다.

재현율은 실제 양성인 샘플 중에서 모델이 양성으로 올바르게 예측한 비율을 의미한다. '실제 양성 샘플을 얼마나 많이 찾아냈는가'를 측정하는 지표이다. 높은 재현율은 거짓 음성을 최소화하는 것을 목표로 한다. 예를 들어, 질병 진단에서 실제 환자를 건강한 사람으로 잘못 판단하는 경우를 줄이는 것이 중요할 때 재현율이 핵심 지표가 된다.

이 두 지표는 혼동 행렬을 기반으로 계산된다. 혼동 행렬은 분류 모델의 성능을 평가할 때 예측 결과와 실제 값을 2x2 표로 정리한 것이다. 행렬은 다음과 같은 네 가지 요소로 구성된다.

실제 양성

실제 음성

예측 양성

참 양성 (TP)

거짓 양성 (FP)

예측 음성

거짓 음성 (FN)

참 음성 (TN)

이 표에서 정밀도는 TP / (TP + FP)로, 재현율은 TP / (TP + FN)으로 계산된다. 두 지표는 서로 다른 측면을 강조하며, 일반적으로 한 지표를 높이면 다른 지표는 낮아지는 상충 관계를 보인다.

2.1. 정밀도의 정의

정밀도는 분류 모델의 성능을 평가하는 지표 중 하나로, 모델이 '양성'이라고 예측한 사례 중 실제로 양성인 사례의 비율을 의미한다. 이는 모델의 예측이 얼마나 정확한지를, 특히 거짓 양성을 최소화하는 능력을 나타낸다.

정밀도는 혼동 행렬의 구성 요소를 사용하여 계산된다. 혼동 행렬에서 진양성은 모델이 양성으로 예측했고 실제로도 양성인 경우이며, 거짓 양성은 모델이 양성으로 예측했으나 실제로는 음성인 경우이다. 정밀도는 진양성의 수를 (진양성 + 거짓 양성)의 총합으로 나눈 값이다.

용어

설명

진양성

양성으로 예측하고 실제로 양성인 경우

거짓 양성

양성으로 예측했으나 실제로는 음성인 경우

정밀도가 높다는 것은 모델이 양성으로 분류한 결과에 대한 신뢰도가 높음을 의미한다. 예를 들어, 스팸 메일 필터링에서 정밀도가 높으면 '스팸'으로 분류된 메일 중 실제 스팸이 차지하는 비율이 높아, 중요한 메일이 스팸으로 잘못 걸러지는 경우가 적어진다. 따라서 거짓 양성의 비용이 큰 상황에서는 정밀도를 주요 평가 지표로 삼는 것이 일반적이다.

2.2. 재현율의 정의

재현율은 분류 모델의 성능을 평가하는 지표 중 하나로, 실제 양성인 샘플 중에서 모델이 올바르게 양성으로 예측한 비율을 의미한다. 민감도 또는 참양성률이라고도 불린다. 재현율은 모델이 실제 양성인 사례를 얼마나 많이 찾아내는지, 즉 놓치는 것을 최소화하는 능력을 측정한다.

재현율은 혼동 행렬의 구성 요소를 사용하여 계산된다. 혼동 행렬에서 실제 양성인 샘플의 수는 참양성과 거짓음성의 합이다. 재현율은 이 중 참양성의 비율이다. 수식으로 표현하면 재현율 = 참양성 / (참양성 + 거짓음성) 이다. 값의 범위는 0부터 1 사이이며, 1에 가까울수록 실제 양성인 샘플을 거의 놓치지 않음을 의미한다.

재현율이 특히 중요한 분야는 의료 진단이나 이상 탐지와 같이, 양성 사례를 놓치는 비용이 매우 큰 경우이다. 예를 들어, 질병 진단에서 재현율이 낮으면 실제 환자를 건강하다고 잘못 판단할 위험이 높아진다. 이러한 맥락에서 재현율을 높이는 것은 거짓음성을 줄이는 것, 즉 '놓치지 않음'에 초점을 맞추는 것과 동일하다.

용어

설명

재현율 계산에서의 역할

참양성

실제 양성이고 예측도 양성인 경우

분자

거짓음성

실제 양성이지만 예측이 음성인 경우

분모의 일부 (찾지 못한 사례)

재현율

실제 양성 중 올바르게 찾은 비율

(참양성) / (참양성 + 거짓음성)

재현율은 종종 정밀도와 상충 관계에 있다. 재현율을 극대화하려면 모델을 보수적으로 조정하여 양성으로 의심되는 모든 것을 포착하려 하기 때문에, 거짓양성도 함께 증가할 수 있다. 이는 정밀도의 하락으로 이어진다. 따라서 두 지표의 적절한 균형을 맞추는 것이 모델 최적화의 핵심 과제 중 하나이다.

2.3. 혼동 행렬

혼동 행렬은 이진 분류 모델의 성능을 평가할 때 예측 결과와 실제 값을 네 가지 범주로 나누어 표로 정리한 것이다. 이는 정밀도, 재현율, 정확도 등 주요 평가 지표를 계산하는 근본적인 토대를 제공한다.

혼동 행렬은 일반적으로 다음과 같은 2x2 표 형태로 구성된다. 행은 실제 클래스를, 열은 모델이 예측한 클래스를 나타낸다.

실제 긍정(P)

실제 부정(N)

예측 긍정(P')

True Positive (TP)

False Positive (FP)

예측 부정(N')

False Negative (FN)

True Negative (TN)

표의 네 가지 요소는 다음과 같이 정의된다. True Positive는 실제 긍정인 샘플을 정확히 긍정으로 예측한 경우이다. False Positive는 실제로는 부정인 샘플을 잘못해 긍정으로 예측한 경우로, 1종 오류라고도 부른다. False Negative는 실제 긍정인 샘플을 부정으로 예측한 경우로, 2종 오류에 해당한다. 마지막으로 True Negative는 실제 부정인 샘플을 정확히 부정으로 예측한 경우이다.

이 표를 통해 모델의 오류 유형을 한눈에 파악할 수 있으며, 단순한 정확도만으로는 알기 어려운 특성을 이해하는 데 도움이 된다. 예를 들어, False Positive가 많으면 정밀도가 낮아지고, False Negative가 많으면 재현율이 낮아진다. 따라서 혼동 행렬은 두 지표 간의 상충 관계를 분석하고, 특정 업무에 맞는 모델을 평가하거나 임계값을 조정하는 데 필수적인 도구이다.

3. 계산 방법

정밀도는 양성 예측도라고도 불리며, 모델이 양성으로 예측한 샘플 중 실제 양성인 샘플의 비율을 나타낸다. 계산식은 다음과 같다.

정밀도 = TP / (TP + FP)

여기서 TP는 진양성, FP는 위양성을 의미한다. 분모가 '모델이 양성이라고 예측한 모든 경우'이므로, 정밀도는 예측의 정확성 또는 신뢰도를 평가하는 지표로 해석된다. 정밀도가 높을수록 모델이 양성으로 분류한 결과를 신뢰할 수 있다.

재현율은 민감도 또는 진양성율이라고도 불리며, 실제 양성인 샘플 중 모델이 올바르게 양성으로 예측한 샘플의 비율을 나타낸다. 계산식은 다음과 같다.

재현율 = TP / (TP + FN)

여기서 FN은 위음성을 의미한다. 분모가 '실제 양성인 모든 경우'이므로, 재현율은 모델이 실제 양성 샘플을 얼마나 잘 찾아내는지, 즉 검출 능력을 평가하는 지표이다.

이 두 지표는 정확도와 함께 자주 언급되지만, 목적이 다르다. 정확도는 전체 샘플 중 올바르게 분류된 샘플의 비율로, (TP+TN)/(TP+TN+FP+FN)으로 계산된다. 그러나 불균형 데이터셋에서는 정확도가 오해의 소지가 있을 수 있어, 정밀도와 재현율이 더 유용한 평가 척도가 된다.

정밀도와 재현율의 조화 평균인 F1 점수는 두 지표를 하나의 숫자로 종합하여 보여주는 대표적인 지표이다. 계산식은 다음과 같다.

**F1 점수 = 2 * (정밀도 * 재현율) / (정밀도 + 재현율)**

지표

계산식

초점

정밀도

TP / (TP + FP)

예측한 양성의 신뢰도

재현율

TP / (TP + FN)

실제 양성의 검출율

정확도

(TP+TN) / 총 샘플 수

전체 분류 정확성

F1 점수

2 * (정밀도*재현율)/(정밀도+재현율)

정밀도와 재현율의 균형

3.1. 정밀도 계산식

정밀도는 혼동 행렬에서 양성 예측값으로도 불리며, 모델이 '양성'으로 예측한 결과 중 실제로 양성인 비율을 나타낸다. 계산식은 다음과 같다.

정밀도 = TP / (TP + FP)

여기서 TP는 진양성으로, 모델이 양성이라고 예측했고 실제로도 양성인 경우의 수를 의미한다. FP는 위양성으로, 모델이 양성이라고 예측했으나 실제로는 음성인 경우의 수를 의미한다. 분모는 모델이 양성으로 예측한 모든 경우(TP + FP)의 합이다.

이 계산식은 모델의 예측이 얼마나 정확한지를, 특히 양성으로 판단한 경우에 초점을 맞춰 평가한다. 위양성(FP)이 많을수록 분모가 커져 정밀도 값은 낮아진다. 따라서 정밀도는 '거짓 경보'를 최소화하는 데 중요한 지표이다. 예를 들어, 스팸 필터링 시스템에서 정상 메일을 스팸으로 잘못 분류하는 경우(FP)가 많다면, 정밀도는 낮은 값을 보인다.

정밀도는 단독으로 사용되기보다는 보통 재현율과 함께 분석되며, 두 지표의 균형을 나타내는 F1 점수를 계산하는 데 핵심적인 요소로 활용된다.

3.2. 재현율 계산식

재현율은 혼동 행렬에서 실제 양성인 샘플 중에서 모델이 올바르게 양성으로 예측한 비율을 의미한다. 이는 모델이 실제로 존재하는 양성 사례를 얼마나 잘 찾아내는지를 측정하는 지표이다. 재현율이 높다는 것은 실제 양성인 대부분의 사례를 놓치지 않고 탐지했다는 것을 의미하므로, '찾아내는 능력'에 초점을 맞춘다.

재현율은 민감도 또는 참 양성 비율이라고도 불리며, 다음의 수식으로 계산된다.

재현율 = TP / (TP + FN)

여기서 TP는 참 양성, FN은 거짓 음성을 나타낸다. 분모는 실제 양성인 전체 샘플 수(TP + FN)이며, 분자는 그중에서 모델이 양성으로 맞춘 샘플 수(TP)이다. 예를 들어, 질병 진단에서 실제 환자 100명 중 모델이 90명을 환자로 식별했다면, 재현율은 90/100 = 0.9 또는 90%가 된다.

재현율은 정밀도와 함께 모델의 성능을 평가하는 핵심 지표 중 하나이지만, 두 지표는 일반적으로 상충 관계에 있다. 재현율을 높이기 위해서는 모델이 더 공격적으로 양성을 예측하게 되어, FP가 증가하고 정밀도가 하락할 수 있다. 따라서 단일 지표보다는 F1-Score와 같이 두 지표를 종합한 메트릭을 함께 고려하는 것이 일반적이다. 재현율은 특히 의료 검진이나 금융 사기 탐지와 같이 실제 양성 사례를 놓치는 비용이 매우 큰 도메인에서 중요한 평가 기준이 된다.

3.3. 관련 지표 (F1-Score, 정확도)

정밀도와 재현율 외에도 분류 모델의 성능을 평가하는 주요 지표로 정확도와 F1 점수가 있다.

정확도는 전체 예측 중 올바르게 예측한 비율을 의미한다. 혼동 행렬의 요소를 사용하여 (TP+TN)/(TP+TN+FP+FN)의 공식으로 계산된다. 직관적이고 이해하기 쉬운 지표이지만, 데이터의 클래스 분포가 불균형할 경우 해석에 주의가 필요하다. 예를 들어, 99%가 정상인 데이터에서 모든 샘플을 '정상'으로 예측하는 모델은 정확도가 99%에 달하지만, 실제로 중요한 이상 탐지 과제에서는 유용한 정보를 제공하지 못한다.

이러한 한계를 보완하기 위해 정밀도와 재현율의 조화 평균인 F1 점수가 자주 사용된다. F1 점수는 2 * (정밀도 * 재현율) / (정밀도 + 재현율)로 계산된다. 이 지표는 정밀도와 재현율이 모두 높은 모델에게 높은 점수를 부여하며, 특히 한 클래스의 샘플 수가 적은 불균형 데이터셋에서 모델의 성능을 종합적으로 평가하는 데 유용하다. 정밀도와 재현율 간의 상충 관계를 고려할 때, 특정 한쪽만 치우치지 않는 균형 잡힌 성능을 보는 지표라고 할 수 있다.

지표

계산식

주요 특징

정확도

(TP+TN) / (TP+TN+FP+FN)

전체 예측 중 맞은 비율. 클래스 불균형 시 왜곡 가능성 있음.

F1 점수

2 * (정밀도 * 재현율) / (정밀도 + 재현율)

정밀도와 재현율의 조화 평균. 불균형 데이터 평가에 효과적.

따라서 모델 평가 시 단순히 정확도만 보기보다는, 문제의 도메인과 목적에 따라 정밀도, 재현율, F1 점수 등을 함께 고려하는 것이 바람직하다.

4. 특성과 상충 관계

정밀도와 재현율은 서로 상충 관계에 있는 지표이다. 일반적으로 한 지표를 높이면 다른 지표는 낮아지는 경향을 보인다. 이는 분류 임계값을 조정하는 과정에서 명확히 드러난다. 임계값을 높여 양성 판정을 보수적으로 하면, 거짓 양성이 줄어들어 정밀도는 높아지지만, 진짜 양성 중 일부를 놓치게 되어 재현율은 낮아진다. 반대로 임계값을 낮추면 더 많은 샘플을 양성으로 판단하게 되어 재현율은 높아지지만, 그중 거짓 양성이 늘어나 정밀도는 떨어진다.

이러한 상충 관계는 업무의 목적과 비용에 따라 두 지표의 중요도를 다르게 설정해야 함을 의미한다. 예를 들어, 의료 진단이나 금융 사기 탐지와 같이 '거짓 양성'의 비용이 매우 높은 상황에서는 정밀도를 최우선으로 고려한다. 잘못된 양성 판정이 불필요한 추가 검사나 고객 불만으로 이어질 수 있기 때문이다. 반면, 스팸 메일 필터링에서는 정밀도보다 재현율이 더 중요할 수 있다. 중요한 메일이 스팸으로 분류되어 사용자에게 전달되지 않는 것(거짓 음성)이, 일부 스팸이 받은편지함에 들어오는 것(거짓 양성)보다 더 큰 문제로 여겨지기 때문이다.

도메인 예시

우선시되는 지표

주요 고려사항

암 진단

정밀도

불필요한 생검과 환자 불안을 초래하는 거짓 양성을 최소화해야 함

망상탐지

재현율

실제 이상 징후를 놓치는 것을 최소화하여 시스템 장애를 예방해야 함

법원 판결

정밀도

무고한 사람을 유죄로 판단하는 오류를 최대한 줄여야 함

따라서 모델을 평가할 때는 단순히 정확도만 보는 것을 넘어, 이 상충 관계를 이해하고 업무의 특성에 맞춰 정밀도와 재현율 사이의 적절한 균형점을 찾는 것이 핵심이다. 이 균형을 수치적으로 종합 평가하는 대표적인 지표가 F1 점수이다.

4.1. 정밀도와 재현율의 상충 관계

정밀도와 재현율은 일반적으로 상충 관계에 있다. 즉, 한 지표를 높이려고 하면 다른 지표가 낮아지는 경향을 보인다. 이는 분류 임계값을 조정하는 과정에서 명확히 드러난다.

예를 들어, 스팸 메일을 탐지하는 이진 분류 모델에서 임계값을 매우 높게 설정하면, 모델은 '스팸'이라고 확신할 때만 양성으로 판단한다. 이 경우 거짓 양성이 줄어들어 정밀도는 높아지지만, 반면 일부 실제 스팸 메일을 놓치게 되어 거짓 음성이 증가하고 재현율은 낮아진다. 반대로 임계값을 매우 낮게 설정하면, 대부분의 메일을 스팸으로 판단하여 재현율은 높아지지만, 정상 메일이 스팸으로 잘못 분류될 가능성이 커져 정밀도는 떨어진다.

이러한 상충 관계는 모델의 성능을 평가하고 목표에 맞게 조정할 때 핵심 고려사항이 된다. 두 지표 간의 균형을 나타내는 F1 점수는 이 상충 관계를 고려한 단일 지표로 활용된다. 최적의 임계값은 해결하려는 문제의 도메인과 비용에 따라 결정된다. 예를 들어, 의료 진단에서는 질병을 놓치는 것을 최소화하기 위해 재현율을 높이는 것이 중요할 수 있지만, 콘텐츠 추천 시스템에서는 사용자에게 관련성 높은 결과만 보여주기 위해 정밀도를 우선시할 수 있다.

4.2. 업무 도메인별 중요도 차이

업무의 성격과 목표에 따라 정밀도와 재현율 중 어느 지표에 더 높은 가치를 부여할지 결정된다. 이는 잘못된 예측이 초래하는 비용과 위험의 종류가 도메인마다 다르기 때문이다.

의료 진단, 특히 암 검진이나 심근경색 진단과 같은 상황에서는 재현율이 훨씬 더 중요한 지표가 된다. 여기서 거짓 음성은 실제로 질병이 있는 환자를 건강하다고 판단하는 것을 의미하며, 이는 치료 기회를 놓치고 생명을 위협할 수 있다. 반면, 거짓 양성은 추가 검사를 통해 사실이 아닌 것으로 밝혀질 가능성이 높다. 따라서 "있는 것을 놓치지 않는 것"이 최우선 목표가 되어 재현율을 극대화하는 방향으로 모델을 조정한다.

반대로, 스팸 메일 필터링이나 금융 사기 탐지 시스템에서는 정밀도가 더 중요한 경우가 많다. 스팸 필터에서 정밀도가 낮다는 것은 일반 메일을 스팸으로 잘못 분류(거짓 양성)하는 비율이 높다는 것을 의미한다. 이는 중요한 업무 메일이나 개인적인 메시지를 사용자가 확인하지 못하게 하는 결과를 초래할 수 있다. 따라서 "맞는 것을 확실히 맞다고 하는 것"의 정확도, 즉 정밀도를 높이는 것이 사용자 경험과 시스템의 신뢰도에 더 결정적이다.

도메인 예시

중시되는 지표

주요 이유

위험 요소

의료 진단 (암 검진)

재현율

거짓 음성을 최소화하여 환자의 생명을 보호

질병을 놓치고 치료 시기를 늦춤

스팸 메일 필터링

정밀도

거짓 양성을 최소화하여 정상 메일의 유실 방지

중요한 메일을 놓침

법률 문서 검색

재현율

관련된 모든 문서를 찾아내는 것이 중요

핵심 증거 자료를 누락함

추천 시스템 광고 타겟팅

정밀도

사용자의 관심과 무관한 광고 노출을 줄여 사용자 경험 보호

사용자의 불만과 이탈 유발

이러한 차이는 모델 평가와 최적화 과정에서 명확한 목표 설정을 요구한다. 단순히 정확도 하나만을 높이는 것은 양쪽 지표의 균형을 맞추는 것에 불과할 수 있으며, 실제 비즈니스 문제에서는 특정 오류를 최소화하는 것이 훨씬 더 큰 가치를 가질 수 있다.

5. 시각화 방법

정밀도와 재현율의 관계를 시각적으로 분석하고 모델 성능을 평가하는 주요 도구로 PR 곡선(Precision-Recall Curve)이 사용된다. PR 곡선은 분류 모델의 임계값을 변화시키면서 각 임계값에서의 정밀도와 재현율 쌍을 좌표평면에 표시하여 연결한 곡선이다. 일반적으로 재현율을 x축, 정밀도를 y축으로 설정한다. 곡선이 우상단으로 볼록하게 위치할수록, 즉 곡선 아래 면적(AUPRC)이 클수록 모델의 성능이 우수하다고 평가한다.

PR 곡선은 특히 데이터셋 내 불균형 데이터의 비율이 높은 경우, 즉 음성 클래스의 샘플 수가 양성 클래스에 비해 압도적으로 많을 때 유용하다. 이러한 상황에서는 정확도가 오해의 소지가 있을 수 있으며, PR 곡선이 모델의 실질적인 성능을 더 잘 반영한다. 예를 들어, 사기 거래 탐지나 희귀 질병 진단과 같은 경우에 PR 곡선 분석이 필수적이다.

PR 곡선은 종종 ROC 곡선과 비교된다. 두 곡선 모두 임계값 변화에 따른 모델 성능을 보여주지만, 초점이 다르다. ROC 곡선은 진양성율(재현율)과 위양성율의 관계를 그리며, x축은 위양성율, y축은 진양성율을 사용한다. 반면 PR 곡선은 양성 클래스에 대한 예측 성능에 집중한다. 데이터 불균형이 심할수록 ROC 곡선은 낙관적인 평가를 보일 수 있어, PR 곡선이 더 엄격하고 현실적인 평가 지표로 간주된다.

특성

PR 곡선

ROC 곡선

X축

재현율 (Recall)

위양성율 (False Positive Rate)

Y축

정밀도 (Precision)

진양성율 (True Positive Rate, 재현율)

중점

양성 클래스 예측의 정확성

전체적인 분류 능력 (양성/음성 모두)

데이터 불균형 영향

매우 민감함. 불균형이 클수록 평가에 유용

상대적으로 덜 민감함

성능 지표

곡선 아래 면적 (AUPRC)

곡선 아래 면적 (AUC)

5.1. PR 곡선

PR 곡선은 정밀도와 재현율의 관계를 시각적으로 보여주는 그래프이다. x축은 재현율, y축은 정밀도로 설정하여, 분류 임계값을 변화시키면서 계산된 정밀도-재현율 쌍을 연결한 곡선을 그린다. 일반적으로 임계값을 낮추면 재현율은 증가하지만 정밀도는 감소하는 경향을 보이며, 이 반대의 관계도 성립한다[1]. 곡선의 형태는 모델의 성능을 직관적으로 평가하는 데 도움을 준다.

이 곡선의 평가는 주로 두 가지 방법으로 이루어진다. 첫째는 곡선 아래 면적인 AUC-PR 값을 계산하는 것이다. AUC-PR 값이 1에 가까울수록, 즉 곡선이 그래프의 오른쪽 상단 모서리에 가까울수록 높은 정밀도와 높은 재현율을 동시에 달성하는 우수한 모델임을 의미한다. 둘째는 특정 업무 요구사항에 맞는 운영점을 곡선 상에서 선택하는 것이다. 예를 들어, 의료 진단처럼 거짓 음성을 최소화하는 것이 중요한 경우에는 높은 재현율 지점을, 스팸 필터링처럼 거짓 양성을 피하는 것이 중요한 경우에는 높은 정밀도 지점을 선택한다.

PR 곡선은 특히 불균형 데이터셋에서 모델 성능을 평가할 때 ROC 곡선보다 유용한 경우가 많다. ROC 곡선은 진짜 양성 비율과 거짓 양성 비율을 사용하며, 음성 클래스의 샘플 수가 매우 많을 때 과도하게 낙관적인 성능을 보여줄 수 있다. 반면 PR 곡선은 양성 클래스에 초점을 맞추어, 소수 클래스에 대한 분류 성능을 더 민감하게 반영한다. 따라서 탐지 대상이 전체 데이터에서 차지하는 비중이 작은 이상 탐지나 사기 거래 탐지와 같은 문제에서 선호되는 평가 도구이다.

5.2. ROC 곡선과의 비교

ROC 곡선은 진양성 비율(TPR, 즉 재현율)과 거짓양성 비율(FPR)의 관계를 보여주는 곡선이다. 반면, PR 곡선(정밀도-재현율 곡선)은 정밀도와 재현율의 관계를 보여주는 곡선이다. 두 곡선 모두 이진 분류 모델의 성능을 평가하고 임계값을 선택하는 데 널리 사용되지만, 데이터의 특성에 따라 적합성이 크게 달라진다.

두 곡선의 가장 큰 차이는 불균형 데이터셋에서의 동작에 있다. ROC 곡선은 진음성(TN)의 수에 크게 영향을 받는 FPR을 사용하기 때문에, 음성 클래스의 샘플이 매우 많을 경우(즉, 심각한 불균형 데이터) 모델 성능이 과대평가될 수 있다. 예를 들어, 99%의 음성 샘플을 가진 데이터에서 단순히 모든 샘플을 음성으로 분류하는 모델도 FPR이 0에 가까워 우수한 ROC 곡선을 보일 수 있다. PR 곡선은 정밀도를 사용하며, 정밀도는 거짓양성(FP)과 진양성(TP)의 비율을 계산하므로 음성 클래스의 크기에 덜 민감하다. 따라서, 불균형 데이터가 심하거나 양성 클래스 탐지가 더 중요한 문제(예: 의료 진단, 이상 탐지)에서는 PR 곡선이 모델의 실질적 성능을 판단하는 데 더 유용한 지표가 된다.

비교 항목

ROC 곡선 (Receiver Operating Characteristic)

PR 곡선 (Precision-Recall)

표시하는 지표

진양성 비율(TPR/재현율) vs. 거짓양성 비율(FPR)

정밀도 vs. 재현율(TPR)

불균형 데이터 영향

상대적으로 덜 민감함. 성능을 과대평가할 가능성이 있음.

매우 민감함. 모델의 실질적 성능을 더 잘 반영함.

사용이 권장되는 상황

클래스 분포가 비교적 균형 잡혀 있거나, 양성/음성 클래스 모두에 관심이 있는 경우

데이터가 심각하게 불균형하거나, 양성 클래스 탐지가 훨씬 더 중요한 경우

성능 요약 지표

곡선 아래 면적(AUC-ROC)

곡선 아래 면적(AUC-PR 또는 AP)

요약하면, ROC 곡선은 모델의 전반적인 분별력을 평가하는 데 강점이 있고, PR 곡선은 소수 클래스에 대한 모델의 예측 품질을 평가하는 데 초점을 맞춘다. 분석가는 문제의 도메인과 데이터의 클래스 분포를 고려하여 두 곡선 중 하나를 선택하거나, 종종 함께 사용하여 모델을 종합적으로 평가한다.

6. 최적화 전략

정밀도와 재현율의 균형을 최적화하는 주요 전략은 임계값 조정과 알고리즘 선택 및 튜닝이다.

가장 기본적이고 직관적인 방법은 분류 임계값을 조정하는 것이다. 이진 분류 모델은 일반적으로 샘플이 양성 클래스에 속할 확률을 출력하며, 기본값으로 0.5를 임계값으로 사용한다. 이 임계값을 높이면 모델이 더 확신하는 경우에만 양성으로 판단하므로 정밀도가 상승하는 대신 재현율이 하락한다. 반대로 임계값을 낮추면 더 많은 샘플을 양성으로 분류하게 되어 재현율이 높아지지만, 정밀도는 떨어질 수 있다. 최적의 임계값은 PR 곡선이나 F1-Score와 같은 평가 지표를 기준으로 결정하며, 업무의 목표에 따라 선택한다.

사용하는 알고리즘 자체를 변경하거나 하이퍼파라미터를 튜닝하는 것도 중요한 전략이다. 예를 들어, 로지스틱 회귀에서는 규제 강도(C 값)를 조정하여 모델의 복잡도를 통제할 수 있다. 의사결정나무나 랜덤 포레스트에서는 트리의 최대 깊이나 리프 노드의 최소 샘플 수를 조정하여 과적합을 방지하고 일반화 성능을 높일 수 있다. 불균형 데이터셋의 경우, 언더샘플링이나 오버샘플링 기법을 적용하거나, 가중치 부여를 통해 소수 클래스의 오분류에 더 큰 패널티를 주는 방식으로 재현율을 개선할 수 있다.

전략

주요 조작 대상

정밀도에 미치는 영향

재현율에 미치는 영향

비고

임계값 상승

분류 임계값

일반적으로 증가

일반적으로 감소

가장 간단한 조정 방법

임계값 하락

분류 임계값

일반적으로 감소

일반적으로 증가

가장 간단한 조정 방법

알고리즘/모델 튜닝

하이퍼파라미터 (규제 강도, 트리 깊이 등)

모델 복잡도에 따라 다름

모델 복잡도에 따라 다름

근본적인 모델 성능 향상

데이터 재샘플링

데이터셋 (오버샘플링, 언더샘플링)

주로 재현율 개선 목적

개선 효과 기대

불균형 데이터에 효과적

비용 민감 학습

손실 함수 가중치

가중치 설정에 따라 조절

가중치 설정에 따라 조절

오분류 비용을 명시적으로 반영

최종적인 전략 선택은 업무 도메인의 요구사항에 의존한다. 의료 진단처럼 재현율이 극도로 중요한 경우, 임계값을 낮추고 재현율 중심의 모델 튜닝을 우선시한다. 반면, 스팸 필터링처럼 정밀도가 더 중요한 경우, 임계값을 높여 거짓 양성을 최소화하는 방향으로 최적화한다.

6.1. 임계값 조정

임계값은 이진 분류 모델이 양성 클래스를 예측하기 위한 확률의 기준점이다. 모델은 각 샘플에 대해 양성일 확률을 계산하며, 이 확률이 임계값보다 높으면 '양성'으로, 낮으면 '음성'으로 분류한다. 기본 임계값은 보통 0.5로 설정되지만, 이는 항상 최적의 정밀도와 재현율 균형을 보장하지 않는다.

임계값을 조정함으로써 정밀도와 재현율의 상충 관계를 관리할 수 있다. 임계값을 높이면(예: 0.5 → 0.8) 모델은 더 확신할 때만 양성으로 판단하므로, 거짓 양성이 줄어들어 정밀도가 향상된다. 반면, 거짓 음성은 증가하여 재현율이 하락할 수 있다. 반대로 임계값을 낮추면(예: 0.5 → 0.3) 모델은 더 많은 샘플을 양성으로 분류하게 되어 재현율은 상승하지만, 거짓 양성이 늘어나 정밀도가 떨어진다.

최적의 임계값을 찾기 위한 일반적인 방법은 PR 곡선이나 ROC 곡선을 활용하는 것이다. PR 곡선에서 임계값을 변화시키며 정밀도와 재현율의 변화를 관찰하고, F1-Score와 같은 통합 지표를 최대화하는 지점이나 업무 요구사항에 맞는 균형점을 선택한다. 예를 들어, 의료 진단에서는 질병을 놓치지 않는 것이 중요하므로 재현율을 높이기 위해 임계값을 낮추는 전략을 채택할 수 있다.

임계값 변화

정밀도 영향

재현율 영향

주요 효과

높아짐 (예: 0.5 → 0.8)

일반적으로 향상

일반적으로 하락

거짓 양성 감소, 예측이 보수적임

낮아짐 (예: 0.5 → 0.3)

일반적으로 하락

일반적으로 향상

거짓 음성 감소, 예측이 적극적임

이 과정은 모델의 알고리즘 자체를 변경하는 것이 아니라, 모델의 출력을 해석하는 기준을 조정하는 사후 처리 기법이다. 따라서 모델 재학습 없이도 비용 효율적으로 성능을 최적화할 수 있는 유연한 방법이다.

6.2. 알고리즘 선택 및 튜닝

분류 모델의 성능을 최적화하기 위해 정밀도와 재현율의 균형을 맞추는 것은 중요한 과제이다. 이는 단순히 임계값을 조정하는 것을 넘어, 문제의 특성에 맞는 알고리즘을 선택하고 그 하이퍼파라미터를 튜닝하는 과정을 포함한다.

일반적으로 로지스틱 회귀, 의사결정나무, 랜덤 포레스트, 서포트 벡터 머신, 그래디언트 부스팅 등 다양한 알고리즘은 각기 다른 방식으로 정밀도-재현율 트레이드오프를 보인다. 예를 들어, 서포트 벡터 머신은 마진을 최대화하는 경향이 있어 특정 설정에서 높은 정밀도를 달성할 수 있으나, 재현율이 낮아질 수 있다. 반면, 랜덤 포레스트나 그래디언트 부스팅 같은 앙상블 방법은 클래스 불균형 데이터에 대해 상대적으로 강건한 성능을 보이며, 샘플링 기법이나 클래스 가중치 조정과 결합했을 때 재현율을 높이는 데 유리하다.

알고리즘 선택 후에는 그리드 서치나 랜덤 서치를 통해 하이퍼파라미터 튜닝을 수행한다. 이때 최적화 목표를 정확도가 아닌 F1 점수나 PR 곡선 아래 면적과 같이 정밀도와 재현율을 종합한 지표로 설정하는 것이 일반적이다. 주요 튜닝 파라미터는 다음과 같다.

알고리즘

튜닝 가능한 주요 하이퍼파라미터 (정밀도/재현율 영향)

로지스틱 회귀

규제 강도(C), 규제 유형(L1/L2), 클래스 가중치(class_weight)

의사결정나무

최대 깊이(max_depth), 최소 샘플 분할(min_samples_split), 클래스 가중치

서포트 벡터 머신

규제 파라미터(C), 커널 타입(kernel), 클래스 가중치

랜덤 포레스트

트리 개수(n_estimators), 최대 깊이(max_depth), 최소 샘플 리프(min_samples_leaf)

최종적으로 선택된 모델과 파라미터는 검증 세트나 교차 검증을 통해 평가되며, PR 곡선을 시각화하여 다양한 임계값에서의 정밀도와 재현율 성능을 확인한다. 이 과정을 통해 특정 업무 도메인(예: 의료 진단에서는 높은 재현율이, 스팸 필터링에서는 높은 정밀도가 중요할 수 있음)에 맞는 최적의 모델을 도출한다.

7. 응용 사례

응용 사례에서는 정밀도와 재현율이 실제 문제 해결에 어떻게 활용되는지 살펴본다. 각 도메인은 서로 다른 비즈니스 요구사항과 위험을 가지고 있어, 두 지표 중 어느 하나에 더 큰 가중치를 두어 모델을 평가하고 최적화한다.

의료 진단, 특히 암 조기 검진이나 COVID-19 진단 키트 평가에서는 일반적으로 재현율이 가장 중요한 지표로 간주된다. 실제 환자를 건강한 사람으로 잘못 판단하는 거짓 음성은 치료 기회를 놓치고 생명을 위협할 수 있기 때문이다. 따라서 재현율을 높여 모든 환자를 최대한 찾아내는 것을 목표로 하며, 이 과정에서 일부 건강한 사람을 추가로 검사하게 되는 거짓 양성이 증가하는 것은 상대적으로 감수할 수 있는 비용으로 본다. 반면, 스팸 메일 필터링에서는 정밀도가 더 중요할 수 있다. 중요한 업무 메일이 스팸으로 분류되어 사용자에게 전달되지 않는 경우(거짓 양성) 그 비용이 매우 크기 때문에, 확실한 스팸만을 걸러내는 정밀도를 높이는 방향으로 시스템을 튜닝한다.

이상 탐지 분야, 예를 들어 금융 사기 거래 탐지나 제조업의 불량품 검출에서는 상황에 따라 강조점이 달라진다. 사기 거래 탐지는 재현율을 높여 가능한 모든 사기를 잡아내려 하지만, 이로 인해 발생하는 정상 거래의 오탐지는 고객 불편과 추가 검증 비용을 유발한다. 따라서 F1 점수와 같은 조화 평균 지표를 사용해 균형을 찾는 경우가 많다. 제조 라인에서의 불량품 검출은 초기에는 재현율을 극대화하여 불량품이 시장에 유출되는 것을 방지하다가, 이후 정밀도를 개선하여 정상품을 불량으로 오판하는 비용을 줄이는 방향으로 발전한다.

도메인

주요 강조 지표

이유

주요 위험 요소

의료 진단

재현율

거짓 음성은 치료 기회 상실로 이어질 수 있음

질병을 놓침

스팸 필터링

정밀도

거짓 양성은 중요한 메일 유실을 초래함

정상 메일을 스팸으로 분류

사기 탐지

상황에 따라 다름 (균형 중요)

재현율(사기 놓침)과 정밀도(고객 불편) 사이의 절충 필요

사기 거래 놓침 또는 정상 거래 차단

불량품 검출

초기: 재현율, 후기: 균형

불량품 유출 방지가 최우선, 이후 생산성 향상을 위해 정밀도 개선

불량품 유출 또는 과도한 폐기

7.1. 의료 진단

의료 분야에서 정밀도와 재현율은 진단 검사의 성능을 평가하는 핵심 지표로 활용된다. 특히 암 검진이나 감염병 진단과 같이 위양성과 위음성 결과가 환자에게 미치는 영향이 큰 상황에서 두 지표의 균형을 고려하는 것은 매우 중요하다.

예를 들어, 유방암 조기 검진을 위한 영상의학 판독 알고리즘을 평가할 때, 높은 재현율은 실제 환자를 놓치지 않도록(위음성 감소) 설계 목표가 된다. 반면, 높은 정밀도는 건강한 사람을 불필요한 추가 검사나 불안감으로부터 보호(위양성 감소)하는 데 중점을 둔다. 이는 진단 검사의 목적에 따라 강조점이 달라짐을 보여준다.

다음 표는 의료 진단 맥락에서 정밀도와 재현율의 중요성을 도메인별로 비교한 것이다.

진단 분야

중점 지표

주요 고려사항

COVID-19 같은 중증 감염병 선별

높은 재현율

감염자를 최대한 찾아내어 격리시키는 것이 공중보건상 절대적[2]

조직 검사 기반 암 최종 진단

높은 정밀도

확실한 증거 없이 암으로 오진하는 것은 환자에게 큰 심리적, 신체적 부담을 줌

건강 검진용 종양 표지자 검사

균형 잡힌 수치

과도한 위양성은 불필요한 정밀 검사 유발, 과도한 위음성은 위험한 질병 놓침

이러한 특성 때문에 의료용 인공지능 모델을 개발할 때는 단순한 정확도보다 PR 곡선을 분석하거나 F1-Score와 같은 조화 평균을 참고하여 임계값을 조정한다. 결국, 임상적 유용성은 통계적 성능 이상으로 실제 의료 현장에서의 결과를 고려하여 판단해야 한다.

7.2. 스팸 필터링

스팸 필터링은 정밀도와 재현율의 상충 관계를 고려해야 하는 대표적인 응용 분야이다. 이메일 시스템에서 스팸 메일을 정확하게 걸러내는 동시에 정상 메일(햄)이 잘못 차단되지 않도록 하는 것이 핵심 목표이다.

일반적으로 스팸 필터링에서는 정밀도를 더 높게 유지하는 것이 중요하다. 정밀도가 낮으면 너무 많은 정상 메일이 스팸으로 분류되어 중요한 업무 메일을 놓치는 문제가 발생한다. 사용자 입장에서는 스팸 몇 개가 들어오는 것보다 중요한 메일이 스팸함으로 가는 것이 더 치명적인 오류로 인식된다. 따라서 필터는 확실한 스팸만을 걸러내도록 설계되어, 재현율이 다소 낮아지는 대신 정밀도를 높이는 방향으로 임계값이 조정된다.

반면, 특정 보안이 중요한 환경이나 매우 공격적인 스팸 유입이 우려되는 경우에는 재현율을 높이는 설정을 고려할 수 있다. 이는 가능한 많은 스팸을 차단하는 것을 최우선으로 하여, 일부 정상 메일의 오탐지를 감수하는 전략이다. 최적의 성능을 위해 F1-Score와 같은 조화 평균 지표를 사용하여 두 측정치의 균형을 평가하거나, PR 곡선을 분석하여 적절한 운영 포인트를 선택한다.

측정치 우선순위

주요 목표

잠재적 문제점

높은 정밀도

정상 메일의 오탐지 최소화

일부 스팸이 수신함으로 유입될 수 있음

높은 재현율

스팸 메일의 최대한 차단

정상 메일이 스팸함으로 잘못 필터링될 수 있음

7.3. 이상 탐지

이상 탐지는 정상적인 패턴에서 벗어나는 데이터 포인트나 사건을 식별하는 작업이다. 이 분야에서 정밀도와 재현율은 모델의 성능을 평가하는 핵심 지표로, 그 중요성은 구체적인 응용 분야와 비용 구조에 따라 크게 달라진다.

재현율이 높은 모델은 가능한 많은 이상을 포착하려 하므로, 거짓 음성을 최소화하는 데 중점을 둔다. 이는 놓치면 심각한 결과를 초래하는 상황에서 필수적이다. 예를 들어, 금융 사기 탐지에서 사기 거래를 놓치는 것(거짓 음성)은 즉각적인 금전적 손실로 이어질 수 있다. 반면, 정밀도가 높은 모델은 탐지된 이상 중 실제 이상인 비율이 높도록, 즉 거짓 양성을 줄이는 데 중점을 둔다. 제조업의 결함 검출 시스템에서 거짓 양성이 많으면 정상 제품을 불필요하게 폐기하거나 재검사하는 데 막대한 비용이 발생한다.

이상 탐지 모델의 임계값 조정은 이 상충 관계를 관리하는 주요 방법이다. 임계값을 낮추면 모델이 더 민감해져 재현율이 증가하지만, 동시에 정밀도는 일반적으로 하락한다. 반대로 임계값을 높이면 모델이 더 보수적으로 변해 정밀도는 향상되지만, 일부 실제 이상을 놓칠 위험이 있다. 따라서 최적의 임계값은 거짓 양성과 거짓 음성에 각각 부여된 비용(금전적, 안전적, 평판적)을 종합적으로 고려하여 결정된다.

응용 분야

중점 지표

주요 이유

의료 진단(중증 질환)

재현율

질병을 놓치는 것(거짓 음성)의 위험이 매우 큼

네트워크 침입 탐지

재현율

보안 위반을 미탐지하는 것의 피해가 큼

제조업 품질 관리

정밀도

거짓 양성으로 인한 생산 중단 및 검사 비용이 큼

금융 사기 탐지

균형 필요[3]

고객 경험과 금전적 손실 사이의 균형이 중요

이상 탐지의 난이도는 정상 데이터에 비해 이상 사례가 극도로 적은 불균형 데이터 환경에서 작업해야 한다는 점에 있다. 이러한 조건에서는 단순한 정확도 지표는 무의미할 수 있으며, 정밀도-재현율 곡선이나 F1 점수와 같은 종합적 지표가 모델 비교에 더 유용하다.

8. 관련 문서

  • Wikipedia - Precision and recall

  • Wikipedia - 정밀도와 재현율

  • Scikit-learn - Precision-Recall

  • Google Developers - Classification: Precision and Recall

  • Towards Data Science - Precision vs. Recall

리비전 정보

버전r1
수정일2026.02.14 21:26
편집자unisquads
편집 요약AI 자동 생성