문서의 각 단락이 어느 리비전에서 마지막으로 수정되었는지 확인할 수 있습니다. 왼쪽의 정보 칩을 통해 작성자와 수정 시점을 파악하세요.

최소 제곱 오차 추정 | |
이름 | 최소 제곱 오차 추정 |
영문명 | Least Squares Error Estimation |
분류 | |
핵심 개념 | |
주요 응용 분야 | |
수학적 표현 | min Σ(y_i - f(x_i; θ))² |
상세 정보 | |
다른 이름 | 최소 자승법, 최소 평균 제곱 오차 (MMSE)와 구별 |
기본 원리 | |
선형 모델 | |
비선형 모델 | 비선형 최소 제곱법: 경사 하강법, 가우스-뉴턴법 등 반복적 수치 최적화 기법 사용 |
통신 분야 적용 | |
가중 최소 제곱법 | 각 데이터 포인트에 신뢰도에 따른 가중치를 부여한 변형 |
정규 방정식 | (XᵀX)θ = Xᵀy (선형 모델에서) |
장점 | 구현이 비교적 간단, 가우스-마르코프 정리 하에서 최선의 선형 불편 추정량(BLUE) 제공 |
단점 | 이상치에 민감, 모델 가정이 잘못되면 편향된 추정 초래 |
관련 추정기 | 최대우도추정(MLE), 칼만 필터, 재귀적 최소 제곱법(RLS) |
계산적 고려사항 | |

최소 제곱 오차 추정은 통계학과 신호 처리 분야에서 널리 사용되는 매개변수 추정 기법이다. 이 방법은 관측된 데이터와 추정 모델 간의 차이, 즉 오차의 제곱합을 최소화하는 방식으로 미지의 매개변수 값을 결정한다. 네트워크 및 통신 시스템에서는 채널 응답, 위치 좌표, 송신 신호와 같은 미지의 정보를 잡음이 포함된 관측 데이터로부터 정확하게 추정하는 핵심 도구로 활용된다.
기본 원리는 간단하면서도 강력하다. 주어진 데이터 포인트들을 가장 잘 설명할 수 있는 함수나 모델을 찾고, 이 모델의 예측값과 실제 관측값 사이의 거리를 유클리드 거리의 제곱으로 정의한다. 그런 다음 이 거리들의 합, 즉 잔차 제곱합을 최소화하는 모델의 매개변수를 계산한다. 이는 기하학적으로 데이터 점들에 가장 가까운 초평면이나 곡선을 찾는 문제로 해석될 수 있다[1].
이 추정 기법은 19세기 초 카를 프리드리히 가우스와 아드리앵마리 르장드르에 의해 독립적으로 개발 및 공표되었다. 특히 가우스는 천체 역학에서 행성의 궤도를 계산하는 데 이 방법을 성공적으로 적용했다. 네트워크 및 통신 분야에서는 선형 시스템에 대한 해를 제공하는 효율적인 수학적 구조 덕분에, 채널 추정, 빔포밍, GPS 기반 측위 등 다양한 실시간 신호 처리 문제의 표준 솔루션이 되었다.

최소 제곱 오차 추정의 핵심은 관측된 데이터와 추정 모델 간의 차이, 즉 오차의 제곱합을 최소화하는 파라미터를 찾는 것이다. 이 방법은 선형 모델을 가정하는 경우에 특히 강력한 해석적 해를 제공한다.
기본적인 선형 모델은 $y = X\beta + \epsilon$ 형태로 표현된다. 여기서 $y$는 관측값 벡터, $X$는 설계 행렬 또는 회귀 변수 행렬, $\beta$는 추정하고자 하는 미지의 파라미터 벡터, $\epsilon$은 관측 오차 벡터이다. 목표는 오차 제곱합 $S(\beta) = \| y - X\beta \|^2$을 최소화하는 $\hat{\beta}$를 찾는 것이다. 이 함수 $S(\beta)$를 비용 함수 또는 목적 함수라고 부른다.
해를 찾기 위해 $S(\beta)$를 $\beta$에 대해 미분하고 그 값을 0으로 설정하면, 다음과 같은 정규 방정식을 유도할 수 있다.
$$ X^T X \hat{\beta} = X^T y $$
$X^T X$ 행렬이 가역적이라면, 최소 제곱 추정치는 다음과 같은 명시적인 해를 갖는다.
$$ \hat{\beta} = (X^T X)^{-1} X^T y $$
이 해는 기하학적으로 관측 벡터 $y$를 $X$의 열 공간으로 정사영한 결과로 해석할 수 있다. 추정된 모델에 의한 예측값 $\hat{y} = X\hat{\beta}$는 $y$의 정사영에 해당한다.
용어 | 수학적 표현 | 설명 |
|---|---|---|
관측 벡터 | $y$ | 실제로 측정된 $n$개의 데이터 포인트를 포함하는 벡터 |
설계 행렬 | $X$ | 독립 변수 또는 기저 함수 값을 포함하는 $n \times p$ 행렬 |
파라미터 벡터 | $\beta$ | 추정 대상인 $p$개의 미지 계수 |
최소 제곱 추정치 | $\hat{\beta}$ | 오차 제곱합을 최소화하는 $\beta$의 추정값 |
정규 방정식 | $X^T X \hat{\beta} = X^T y$ | $\hat{\beta}$를 구하기 위해 풀어야 하는 선형 방정식 시스템 |
최소 제곱 오차 추정의 핵심은 관측된 데이터와 추정 모델 간의 불일치를 정량화하는 오차 함수를 정의하고, 이 함수의 값을 최소화하는 모델 매개변수를 찾는 것이다. 일반적으로 사용되는 오차 함수는 잔차의 제곱합이다. 잔차란 각 관측 데이터 포인트와 모델이 예측하는 값 사이의 차이를 의미한다.
구체적으로, n개의 관측 데이터 쌍 (x_i, y_i)가 주어졌을 때, 모델은 매개변수 벡터 θ를 사용하여 y_i ≈ f(x_i; θ) 형태로 데이터를 설명하려고 한다. 이때 오차 함수 E(θ)는 다음과 같이 정의된다.
E(θ) = Σ_{i=1}^{n} [ y_i - f(x_i; θ) ]^2
이 함수를 비용 함수 또는 목적 함수라고도 부른다. 추정의 목표는 이 제곱 오차의 합 E(θ)를 최소화하는 매개변수 벡터 ^θ를 찾는 것이다. 이렇게 찾은 ^θ를 최소 제곱 추정량이라고 한다.
제곱 오차를 사용하는 주된 이유는 수학적 처리의 편리함과 통계적 특성에 있다. 제곱 함수는 미분 가능하며, 이로 인해 해를 구하는 과정이 선형 대수 문제로 귀결되는 경우가 많다. 또한, 오차가 정규 분포를 따른다는 가정 하에 최소 제곱 추정량은 최대 우도 추정량과 일치한다는 통계적 의미를 가진다. 제곱을 함으로써 양의 오차와 음의 오차가 상쇄되지 않고 누적되며, 큰 오차에 대해 더 큰 페널티를 부여하는 효과도 있다.
관측 데이터와 선형 모델의 예측값 사이의 잔차 제곱합을 최소화하는 문제는 행렬 표기법을 사용하여 간결하게 표현할 수 있다. 선형 모델을 y = Xβ + ε로 나타낼 때, y는 n×1 관측 벡터, X는 n×p 설계 행렬(또는 회귀 행렬), β는 p×1 미지의 모수 벡터, ε는 n×1 오차 벡터이다. 이때 목표 함수인 잔차 제곱합(RSS)은 ||y - Xβ||²로 쓸 수 있다.
이 목표 함수를 최소화하는 모수 추정값 β̂는 정규 방정식을 풀어 구한다. 정규 방정식은 XᵀX β̂ = Xᵀy의 형태를 가진다. 이 방정식은 목표 함수를 β에 대해 미분하고 그 기울기를 0으로 설정하여 유도된다. XᵀX 행렬이 가역적(역행렬이 존재)이라면, 최소 제곱 추정치는 β̂ = (XᵀX)⁻¹Xᵀy라는 명시적 해를 가진다. 이 해는 유클리드 노름 기준으로 관측값 y를 열공간(column space)에 사영(projection)시킨 기하학적 해석을 가진다.
용어 | 행렬 차원 | 설명 |
|---|---|---|
관측 벡터 y | n × 1 | 종속 변수 또는 응답 변수의 n개 관측값 |
설계 행렬 X | n × p | p개 설명 변수(독립 변수)의 n개 관측값. 일반적으로 첫 열은 절편 항을 위한 1로 구성됨 |
모수 벡터 β | p × 1 | 추정할 회귀 계수 (기울기 및 절편) |
최소 제곱 추정치 β̂ | p × 1 | 정규 방정식을 풀어 얻은 모수 추정값 |
해튼 행렬 XᵀX | p × p | 정규 방정식의 계수 행렬. 대칭적이고 양의 준정부호 성질을 가짐 |
정규 방정식의 해는 선형 최소 제곱 문제의 대표적인 해법이지만, XᵀX의 조건수가 크거나 직접 역행렬을 계산하는 것이 수치적으로 불안정할 수 있다는 단점이 있다. 이러한 경우 QR 분해나 특이값 분해(SVD)와 같은 다른 알고리즘이 실제 계산에 더 선호된다.

네트워크 및 통신 시스템에서 최소 제곱 오차 추정은 불완전한 관측 데이터로부터 원하는 정보를 추출하는 핵심 기법으로 널리 활용된다. 이 방법은 관측된 신호와 모델 신호 사이의 오차 제곱합을 최소화하는 파라미터를 찾아, 채널 특성, 단말 위치, 송신 신호 등을 추정한다.
채널 추정 분야에서, 최소 제곱법은 파일럿 신호 또는 훈련 시퀀스를 이용한 채널 응답 추정에 자주 사용된다. 송신기가 알려진 파일럿 신호를 보내면, 수신기는 왜곡된 수신 신호와 원본 파일럿 신호를 비교한다. 두 신호 사이의 오차 제곱합을 최소화하는 채널 이득을 계산함으로써, 다중 경로 페이딩이나 주파수 선택적 페이딩과 같은 채널의 영향을 모델링할 수 있다. 이렇게 추정된 채널 정보는 이후 데이터 구간에서 등화나 최대 우도 검출을 수행하는 데 필수적이다.
위치 추정 및 측위에서는 최소 제곱 오차 추정이 삼각측량이나 다변량 측위 문제를 푸는 데 적용된다. 예를 들어, 이동 단말이 여러 기지국으로부터 수신한 신호의 도착 시간 또는 신호 강도를 측정한다. 이 측정값과 기지국의 알려진 위치를 바탕으로, 실제 단말 위치와 예측 위치 사이의 오차 제곱합을 최소화하는 점을 단말의 추정 위치로 결정한다. 이 방법은 GPS나 셀룰러 네트워크 기반 위치 서비스의 기본 원리를 이룬다.
신호 검출 및 복원에도 이 기법이 중요하게 쓰인다. 잡음이 섞인 수신 신호에서 원래의 송신 신호를 복원할 때, 가능한 송신 신호 후보들과 수신 신호 사이의 유클리드 거리를 계산한다. 최소 제곱 기준은 이 거리의 제곱을 최소화하는 신호를 최적의 추정값으로 선택한다. 이는 디지털 변조 방식(예: QAM, PSK)에서 검출기를 설계하는 기본 접근법이 되며, 간섭 제거나 압축 센싱을 통한 신호 복원 등 고급 기법의 기초를 제공한다.
무선 통신 시스템에서 채널 추정은 송신기와 수신기 사이의 전파 채널 특성을 파악하는 핵심 과정이다. 채널은 신호 감쇠, 다중 경로 페이딩, 주파수 선택적 페이딩, 도플러 확산과 같은 현상을 유발하여 수신 신호를 왜곡한다. 최소 제곱 오차 추정은 이러한 채널의 임펄스 응답이나 주파수 응답을 추정하는 데 널리 사용되는 간단하면서도 효과적인 방법이다. 송신기가 알려진 훈련 심볼 또는 파일럿 신호를 보내면, 수신기는 수신된 신호와 원본 훈련 신호 사이의 오차 제곱합을 최소화하는 방식으로 채널 계수를 추정한다.
기본적인 선형 채널 모델에서, 수신 신호 벡터 y는 송신 신호 행렬 X와 채널 계수 벡터 h의 곱에 잡음 벡터 n이 더해진 형태로 표현된다(y = Xh + n). 최소 제곱 채널 추정기는 이 모델에서 오차 벡터 e = y - Xĥ의 노름 제곱(||e||²)을 최소화하는 추정값 ĥ를 찾는다. 이 해는 ĥ = (X^H X)^(-1) X^H y라는 잘 알려진 정규 방정식의 해로 구해진다. 여기서 X^H는 X의 켤레 전치 행렬을 의미한다.
이 방식의 주요 장점은 구현이 비교적 간단하고 계산 효율이 높다는 점이다. 특히 훈련 신호 행렬 X가 직교 행렬(예: Walsh-Hadamard 코드)로 설계된 경우, X^H X가 단위 행렬의 스칼라 배가 되어 역행렬 계산이 매우 간단해진다. 그러나 최소 제곱 추정치는 수신 신호에 포함된 잡음의 영향을 그대로 받으며, 이로 인해 추정 오차가 발생할 수 있다. 또한, 사용 가능한 대역폭과 전송 전력의 제약으로 인해 훈련 심볼의 길이와 개수가 제한될 수 있어 추정 정확도에 한계가 생긴다.
특징 | 설명 |
|---|---|
주요 입력 | 알려진 훈련 심볼(X), 수신된 신호(y) |
핵심 연산 | 정규 방정식 ĥ = (X^H X)^(-1) X^H y 풀이 |
장점 | 개념과 구현이 단순, 계산 부하가 상대적으로 낮음 |
단점 | 잡음에 민감, 최적의 통계적 효율성을 보장하지 않음[2] |
대표적 응용 |
따라서 최소 제곱 기반 채널 추정은 높은 신호 대 잡음비 환경이나 복잡도를 낮추어야 하는 시스템에서 기본적인 방법으로 자주 채택된다. 성능을 더욱 개선하기 위해 잡음의 통계적 특성을 고려한 최대우도 추정이나 최소 평균 제곱 오차 추정 등의 기법이 사용되기도 한다.
위치 추정 및 측위 분야에서 최소 제곱 오차 추정은 관측된 신호로부터 송신기나 수신기의 지리 좌표를 결정하는 핵심 기법이다. GPS, Wi-Fi 핑거프린팅, 셀룰러 네트워크 기반 측위 등 다양한 시스템에서 활용된다. 기본 원리는 여러 기준점(기지국, 위성, 액세스 포인트)으로부터 측정된 거리나 도착 시간 차이와 같은 관측 데이터와 예상 위치 간의 오차 제곱합을 최소화하는 점을 추정 위치로 계산하는 것이다.
구체적으로, 도착 시간 기반 측위에서는 신호가 전파되는 데 걸리는 시간을 거리 정보로 변환한다. 각 기준점 i에 대해 측정된 거리 r_i와 추정 위치 (x, y, z)와 기준점 위치 (x_i, y_i, z_i) 사이의 기하학적 거리 차이의 제곱을 최소화하는 문제로 설정된다. 이 방정식은 일반적으로 비선형이므로, 선형 근사를 통해 정규 방정식 형태로 변환하여 해를 구하거나 가우스-뉴턴 방법과 같은 반복 알고리즘을 사용한다.
측위 기술 | 주요 관측량 | 최소 제곱법 적용 형태 |
|---|---|---|
비선형 방정식 시스템의 해를 구하기 위한 반복적 최소 제곱법 | ||
두 기준점 간 신호 도착 시간 차이 | 쌍곡선 방정식 시스템을 선형화하여 해결 | |
여러 액세스 포인트의 신호 강도 벡터 | 데이터베이스 내 사전 측정된 벡터와의 유클리드 거리 오차 최소화 |
성능은 기준점의 기하학적 배치, 측정 오차의 통계적 특성, 그리고 다중 경로 페이딩과 같은 채널 손실에 크게 영향을 받는다. 측정 오차가 가우스 분포를 따른다고 가정할 때, 최소 제곱 추정치는 최대 우도 추정과 일치하며 효율적인 추정을 제공한다. 그러나 실제 환경에서는 오차가 비가우스적이거나 이상치가 존재할 수 있어, 이 경우 로버스트 추정 기법이나 가중 최소 제곱법이 대안으로 고려된다.
신호 검출 및 복원에서 최소 제곱 오차 추정은 수신된 왜곡된 신호로부터 원래의 송신 신호를 복원하거나, 잡음이 섞인 관측치에서 유용한 정보 신호를 검출하는 핵심 도구로 사용된다. 이 과정은 기본적으로 알려진 시스템 모델(예: 채널 응답) 하에서, 관측된 신호와 모델을 통해 재생성된 추정 신호 사이의 제곱 오차 합을 최소화하는 송신 신호의 값을 찾는 문제로 귀결된다. 통신 시스템에서는 심볼 간 간섭이나 다중 경로 페이딩과 같은 채널 왜곡을 보상하는 등화기 설계에 널리 적용된다.
구체적으로, 수신 신호 벡터 y가 채널 행렬 H와 송신 신호 벡터 s 및 잡음 벡터 n에 의해 y = Hs + n으로 표현될 때, 최소 제곱 기준에 의한 신호 검출은 다음의 비용 함수를 최소화하는 송신 신호 벡터 ŝ를 찾는 것이다.
|| ŝ = arg min ||y - Hŝ||²
이 해는 정규 방정식 HᵀHŝ = Hᵀy를 풀어 구하며, 이를 통해 채널의 역변환을 근사적으로 수행하여 원래의 신호를 추정한다. 이 방법은 계산이 비교적 간단하지만, 잡음이 증폭될 수 있는 단점이 있다.
신호 복원 문제에서는 부분적으로 손실되거나 압축된 신호를 원본에 가깝게 재구성하는 데 활용된다. 예를 들어, 영상 처리에서 블러링(흐림) 현상을 모델링하는 점 확산 함수가 알려져 있다면, 최소 제곱법을 사용하여 선명한 원본 영상을 추정할 수 있다. 또한, OFDM 시스템에서 파일럿 심볼을 이용한 주파수 영역 등화나, 스펙트럼 감산 기법을 통한 음성 향상에서도 유사한 원리가 적용된다. 이러한 응용에서 성능은 시스템 모델 H의 정확도와 관측 잡음의 통계적 특성에 크게 의존한다.

최소 제곱 오차 추정 문제를 해결하기 위한 알고리즘은 크게 직접 계산법과 반복적 방법으로 나눌 수 있다. 선택은 문제의 규모, 조건수, 실시간 처리 요구사항 등에 따라 달라진다.
가장 기본적인 방법은 정규 방정식을 구성하고 해를 구하는 것이다. 관측 행렬 A와 관측 벡터 b가 주어졌을 때, 추정 파라미터 벡터 x̂는 다음 방정식의 해이다.
AᵀA x̂ = Aᵀb
이를 직접 풀기 위해 AᵀA의 역행렬을 계산하면 x̂ = (AᵀA)⁻¹Aᵀb를 얻는다. 이 방법은 직관적이지만, AᵀA 행렬의 조건수가 A 행렬 조건수의 제곱이 되어 수치적 불안정성이 커질 수 있다는 단점이 있다[3]. 이를 완화하기 위해 QR 분해나 특이값 분해를 활용한 방법이 선호된다. QR 분해는 행렬 A를 정규직교 행렬 Q와 상삼각 행렬 R의 곱으로 분해하여, 더 안정적으로 정규 방정식을 풀 수 있게 한다.
방법 | 핵심 아이디어 | 장점 | 단점 |
|---|---|---|---|
정규 방정식 | (AᵀA)⁻¹Aᵀb 직접 계산 | 구현이 간단, 이론적 이해 용이 | 수치적 불안정성 가능성 높음 |
QR 분해 | A=QR로 분해 후 Rx=Qᵀb 풀이 | 정규 방정식보다 수치적으로 안정적 | 계산량이 정규 방정식보다 다소 많음 |
특이값 분해(SVD) | A=UΣVᵀ로 분해 후 x̂=VΣ⁺Uᵀb 계산 | 조건이 나쁜 문제에서도 안정적, 의사역행렬 계산 가능 | 계산 비용이 가장 큼 |
대규모 문제나 실시간으로 데이터가 순차적으로 들어오는 온라인 학습 상황에서는 직접 계산법이 부적합할 수 있다. 이때는 초기 추정값에서 시작해 오차 함수를 줄이는 방향으로 추정값을 반복적으로 갱신하는 방법을 사용한다. 대표적인 알고리즘으로 경사 하강법이 있다. 이 방법은 오차 함수의 경사도(기울기)를 계산하고, 그 반대 방향으로 파라미터를 조금씩 이동시켜 최소점에 접근한다. 학습률 매개변수의 선택이 수렴 속도와 안정성에 중요한 영향을 미친다. 데이터가 순차적으로 입력될 때는 확률적 경사 하강법을 사용할 수도 있다. 한편, 재귀 최소 제곱법은 새로운 데이터가 도착할 때마다 이전 추정치를 효율적으로 갱신하는 알고리즘으로, 채널 추정이나 적응 필터링 같은 통신 신호 처리 분야에서 널리 쓰인다.
직접 계산법은 정규 방정식을 해석적으로 풀어 최소 제곱 오차 추정의 파라미터를 구하는 방법이다. 이 방법은 관측 데이터를 기반으로 구성된 설계 행렬 \( X \)와 관측 벡터 \( y \)가 주어졌을 때, 추정하고자 하는 파라미터 벡터 \( \hat{\beta} \)를 \( \hat{\beta} = (X^T X)^{-1} X^T y \) 공식을 통해 직접 계산한다. 여기서 \( X^T \)는 \( X \)의 전치 행렬을, \( (X^T X)^{-1} \)은 \( X^T X \)의 역행렬을 의미한다. 이 공식은 오차 제곱합을 최소화하는 조건에서 유도되며, 해가 유일하게 존재하기 위해서는 \( X^T X \) 행렬이 가역 행렬이어야 한다.
계산 과정은 일반적으로 다음과 같은 단계로 진행된다.
단계 | 설명 | 수학적 표현 |
|---|---|---|
1. 설계 행렬 구성 | 관측 데이터와 모델 구조에 따라 \( X \)를 구성한다. | \( X \in \mathbb{R}^{n \times p} \) |
2. 정규 방정식 형성 | \( X^T X \)와 \( X^T y \)를 계산한다. | \( X^T X \beta = X^T y \) |
3. 역행렬 계산 | \( X^T X \)의 역행렬을 구한다. | \( (X^T X)^{-1} \) |
4. 파라미터 추정 | 역행렬과 \( X^T y \)를 곱해 \( \hat{\beta} \)를 얻는다. | \( \hat{\beta} = (X^T X)^{-1} X^T y \) |
이 방법의 주요 장점은 해를 한 번의 계산으로 명시적으로 얻을 수 있다는 점이다. 또한, 이론적 분석에 용이하며, 데이터 세트의 크기가 중간 정도일 때 효율적이다. 그러나 직접 계산법은 \( X^T X \)의 역행렬을 계산해야 하므로 몇 가지 한계를 가진다. 행렬 \( X^T X \)의 조건수가 나쁘면[4], 역행렬 계산 과정에서 수치적 불안정성이 발생하여 추정치의 정확도가 크게 떨어질 수 있다. 또한, 데이터 포인트 수 \( n \)과 파라미터 수 \( p \)가 매우 클 경우, \( X^T X \) 행렬(\( p \times p \) 크기)의 역행렬을 계산하는 데 드는 \( O(p^3) \)의 계산 복잡도는 실용적이지 않을 수 있다. 이러한 경우에는 반복적 방법이나 특이값 분해와 같은 다른 알고리즘이 선호된다.
최소 제곱 오차 추정 문제를 해결하기 위한 직접적인 방법(예: 정규 방정식의 해를 구하는 것)은 데이터 행렬의 크기가 클 때 계산 비용이 높거나 수치적으로 불안정할 수 있다. 이러한 경우, 해를 점진적으로 근사시키는 반복적 방법이 유용하게 사용된다.
반복적 방법은 초기 추정값에서 시작하여, 각 반복 단계에서 현재 추정치를 오차 함수를 최소화하는 방향으로 업데이트한다. 대표적인 알고리즘으로는 경사 하강법과 가우스-뉴턴 방법이 있다. 경사 하강법은 목적 함수의 기울기(gradient) 반대 방향으로 파라미터를 조정하는 간단한 방법이다. 반면 가우스-뉴턴 방법은 비선형 최소 제곱 문제에 특화된 방법으로, 각 반복에서 문제를 선형 최소 제곱 문제로 근사하여 해를 구한다.
이러한 방법들의 선택은 문제의 규모, 비선형성, 수렴 속도 요구사항에 따라 달라진다. 반복적 방법은 일반적으로 다음과 같은 장단점을 가진다.
방법 | 주요 특징 | 장점 | 단점 |
|---|---|---|---|
기울기 방향으로 파라미터 업데이트 | 구현이 간단, 메모리 사용량 적음 | 수렴 속도가 느림, 학습률 선택 중요 | |
비선형 문제의 국소적 선형 근사 | 경사 하강법보다 빠른 수렴 (선형에 가까울 때) | 각 반복에서 야코비안 행렬 계산 필요, 초기값 민감 |
실제 네트워크 및 통신 시스템에서는 재귀 최소 제곱법과 같은 온라인 알고리즘이 실시간으로 변화하는 채널이나 신호 파라미터를 추정하는 데 널리 사용된다. 이는 새로운 데이터가 도착할 때마다 이전 추정치를 반복적으로 개선하는 방식으로 작동한다[5].

성능 분석은 최소 제곱 오차 추정이 추정치의 정확도와 신뢰성을 어떻게 보장하는지 평가하는 과정이다. 핵심 지표는 추정량의 편향과 분산이며, 이론적 성능 한계인 크라메르-라오 하한과의 비교를 통해 최적성을 판단한다.
편향은 추정값의 기대값이 참값과 얼마나 차이나는지를 나타낸다. 최소 제곱법에서 오차는 가우스-마르코프 정리에 따라 선형 불편 추정량 중에서 최소 분산을 가진다. 즉, 오차의 평균이 0이고 입력 데이터와 무관할 때, 추정치는 편향되지 않는다. 그러나 모델이 잘못 지정되었거나 측정 노이즈가 시스템 입력과 상관관계를 가질 경우 편향이 발생할 수 있다.
분산은 추정값이 기대값 주변에서 얼마나 흩어져 있는지를 측정한다. 최소 제곱 추정치의 분산은 관측 노이즈의 분산과 설계 행렬의 조건수에 크게 의존한다. 일반적으로 더 많은 데이터를 사용할수록 추정치의 분산은 감소한다. 편향과 분산은 종종 편향-분산 트레이드오프 관계에 있으며, 과적합을 방지하기 위해 정규화 기법을 도입하면 약간의 편향을 증가시켜 분산을 크게 줄일 수 있다.
이론적 성능 한계는 크라메르-라오 하한으로 평가한다. 이 하한은 어떤 불편 추정량이 가질 수 있는 분산의 최소값을 제공한다. 가우스 노이즈 하에서의 최소 제곱 추정량은 이 하한에 도달하는, 즉 최소 분산을 가진 효율적 추정량이 된다. 따라서 성능 분석은 주어진 모델과 노이즈 조건 하에서 실제 추정치의 분산이 이 하한에 얼마나 근접하는지를 확인하는 과정을 포함한다.
성능 지표 | 설명 | 최소 제곱법에서의 특성 |
|---|---|---|
편향 | 추정값의 기대값과 참값의 차이 | 가우스-마르코프 조건 하에서 불편성을 가짐 |
분산 | 추정값의 흩어짐 정도 | 노이즈 분산과 데이터 양에 반비례함 |
평균 제곱 오차 | 편향의 제곱과 분산의 합 | 편향-분산 트레이드오프를 보여줌 |
효율성 | 크라메르-라오 하한 대비 분산 | 가우스 조건에서 점근적으로 효율적임 |
최소 제곱 오차 추정의 성능은 추정량의 편향과 분산으로 분석할 수 있다. 편향은 추정량의 기댓값이 모수와 얼마나 다른지를 나타내며, 분산은 추정값이 평균 주위에서 얼마나 퍼져 있는지를 나타낸다. 이상적인 추정량은 편향이 없으면서도 분산이 최소인 경우이다.
가우스-마르코프 정리에 따르면, 선형 모델에서 오차가 평균이 0이고 등분산이며 서로 무상관일 때, 최소 제곱 추정량은 편향이 없으면서도 분산이 최소인 선형 불편 추정량이 된다[6]. 이는 최소 제곱법이 이러한 조건 하에서 최적의 성질을 가짐을 의미한다.
그러나 실제 네트워크 및 통신 환경에서는 모델의 오차나 입력 데이터에 노이즈가 존재할 수 있으며, 이는 편향과 분산에 영향을 미친다. 일반적으로 모델이 정확하고 노이즈가 가우시안 분포를 따를 때 최소 제곱 추정량은 편향되지 않은 효율적인 추정치를 제공한다. 하지만 모델이 부정확하거나(예: 선형 관계가 아닌 경우) 노이즈의 통계적 특성이 가정과 다를 경우 추정량에 편향이 발생할 수 있다.
편향과 분산은 종종 상충 관계에 있다. 과도하게 복잡한 모델을 사용하면 훈련 데이터에 과적합되어 분산은 커지지만 편향은 작아질 수 있다. 반대로 너무 단순한 모델은 편향은 커지지만 분산은 작아진다. 이는 편향-분산 트레이드오프로 알려져 있으며, 최소 제곱법을 기반으로 한 모델 선택 시 중요한 고려 사항이 된다.
최소 제곱 오차 추정의 성능을 평가하는 중요한 척도는 추정량의 분산이 이론적으로 도달할 수 있는 하한과 얼마나 가까운지 비교하는 것이다. 이 이론적 하한이 바로 크라메르-라오 하한이다. CRLB는 불편 추정량의 분산이 가질 수 있는 최소값을 제공하며, 어떤 추정 방법이 통계적으로 얼마나 효율적인지를 판단하는 기준이 된다.
최소 제곱법 추정량은 일반적으로 편향되지 않았을 때, 즉 추정량의 기대값이 참값과 일치할 때 가장 효율적이다. 이 경우, 가우시안 잡음 환경 하에서 최소 제곱법 추정량은 최대우도추정과 동일해지며, 이는 CRLB를 도달할 수 있는 효율적인 추정량이 된다. 다음 표는 주요 비교 요소를 정리한 것이다.
비교 요소 | 최소 제곱 오차 추정량 | 크라메르-라오 하한 (CRLB) |
|---|---|---|
의미 | 관측 데이터와 모델의 오차 제곱합을 최소화하는 구체적인 추정 방법 | 불편 추정량의 분산이 가질 수 있는 이론적 최소 한계 |
관계 | 추정량의 실제 분산을 계산 가능 | 추정량의 분산에 대한 하한선 제공 |
도달 조건 | 잡음이 가우시안이고 모델이 선형일 때, 불편 추정량이라면 CRLB에 도달 가능 | 모든 불편 추정량의 분산은 CRLB보다 크거나 같음 |
그러나 모델이 정확하지 않거나(모델 불일치), 관측 잡음이 비가우시안일 경우, 최소 제곱법 추정량은 더 이상 CRLB를 도달하지 못할 수 있다. 또한 유한한 샘플 수를 사용하는 실제 상황에서는 추정량의 분산이 CRLB보다 약간 큰 것이 일반적이다. 따라서 CRLB와의 비교는 주어진 문제 설정 하에서 최소 제곱법이 이론적 최적 성능에 얼마나 근접하는지를 분석하는 도구로 사용된다.

제약 조건이 있는 최소 제곱법은 추정하고자 하는 매개변수 벡터에 특정 선형 또는 비선형 제약 조건이 부과된 상황에서 최소 제곱 오차를 최소화하는 문제를 다룬다. 이러한 접근법은 순수한 최소 제곱 오차 추정이 물리적 법칙, 사전 지식, 또는 시스템의 특성으로 인해 부자연스러운 해를 낼 수 있을 때, 해가 반드시 만족해야 할 조건을 문제 정의 단계에 명시적으로 포함시킨다. 예를 들어, 추정해야 할 채널 계수의 합이 일정하거나, 스펙트럼 추정에서 전력이 음수가 되지 않아야 하는 경우에 적용된다.
가장 일반적으로 다루어지는 형태는 선형 등식 제약 조건을 가진 최소 제곱 문제이다. 이 문제는 다음과 같이 공식화된다: 측정 벡터 $\mathbf{y}$와 관측 행렬 $\mathbf{H}$가 주어졌을 때, $\|\mathbf{y} - \mathbf{H}\mathbf{x}\|^2$를 최소화하는 매개변수 벡터 $\mathbf{x}$를 찾되, $\mathbf{A}\mathbf{x} = \mathbf{b}$라는 선형 제약 조건을 만족시켜야 한다. 이 문제의 해는 라그랑주 승수법을 사용하여 유도할 수 있으며, 최종 해는 정규 방정식과 제약 조건 방정식을 연립하여 구한다. 해는 무제약 최소 제곱 해에 제약 조건을 만족시키기 위한 보정 항이 추가된 형태로 나타난다.
제약 조건 유형 | 수학적 형식 | 주요 해법 | 주요 응용 분야 |
|---|---|---|---|
선형 등식 제약 | $\mathbf{A}\mathbf{x} = \mathbf{b}$ | 라그랑주 승수법, 정사영 | 채널 추정, 빔형성 |
선형 부등식 제약 | $\mathbf{A}\mathbf{x} \leq \mathbf{b}$ | 활성 집합법, 내점법 | 신호 복원, 양자 제약 추정 |
비선형 제약 | $g(\mathbf{x}) = 0$ | 순차적 최소 제곱법, 반복적 선형화 | 비선형 시스템 식별 |
보다 복잡한 경우, 선형 부등식 제약(예: $\mathbf{x} \geq 0$)이나 비선형 제약이 부과되기도 한다. 이러한 문제들은 일반적으로 무제약 문제보다 풀이가 복잡하며, 활성 집합법이나 내점법과 같은 최적화 알고리즘이 사용된다. 네트워크 및 통신 분야에서는 특히 양의 값을 가져야 하는 전력이나 감쇠 계수를 추정할 때, 또는 어레이 안테나의 빔형성 가중치에 특정 부폭(null)을 형성하도록 제약을 걸 때 널리 활용된다. 제약 조건의 도입은 추정치의 분산을 증가시킬 수 있지만, 편향을 유발하며 사전 정보를 통합함으로써 특정 응용에서 전반적인 추정 성능을 향상시킬 수 있다.

실제 시스템에서 최소 제곱 오차 추정 알고리즘을 구현할 때는 수치적 안정성과 계산 효율성을 반드시 고려해야 한다. 특히 행렬 연산 과정에서 발생할 수 있는 문제를 사전에 방지하는 것이 중요하다.
수치적 안정성은 정규 방정식을 풀 때 가장 큰 문제가 된다. 정규 방정식 $A^T A \hat{x} = A^T b$에서 설계 행렬 $A$의 조건수가 클 경우, $A^T A$ 행렬의 조건수는 그 제곱으로 증가하여 계산 과정에서 반올림 오차가 크게 증폭될 수 있다[7]. 이로 인해 추정값 $\hat{x}$이 실제 해에서 크게 벗어날 수 있다. 이러한 문제를 완화하기 위해 QR 분해나 특이값 분해와 같은 안정적인 행렬 분해 기법을 직접 적용하는 방법이 선호된다. 또한, 데이터 스케일링이나 정규화 기법을 적용하여 입력 데이터의 범위를 조정하는 것도 수치적 안정성을 높이는 일반적인 실무 방법이다.
계산 복잡도는 처리해야 할 데이터의 규모와 실시간성 요구사항에 따라 달라진다. 표준 최소 제곱법의 해를 구하는 데 필요한 계산 복잡도는 일반적으로 $O(mn^2)$ 수준이며, 여기서 $m$은 관측치 수, $n$은 추정 파라미터 수이다. 대규모 데이터셋이나 고차원 문제에서는 이 계산 부담이 커질 수 있다. 이를 해결하기 위해 점진적으로 데이터를 처리하는 재귀 최소 제곱법이나, 켤레 기울기법과 같은 반복적 최적화 알고리즘이 활용된다. 또한, 분산 컴퓨팅 환경을 위해 문제를 블록 단위로 나누어 병렬 처리하는 방법도 연구되고 적용된다.
고려사항 | 주요 문제점 | 일반적인 해결 방안 |
|---|---|---|
수치적 안정성 | $A^T A$의 조건수 악화로 인한 오차 증폭 | |
계산 복잡도 | 대규모/고차원 데이터에서의 계산 부담 | 재귀 최소 제곱법, 반복적 알고리즘, 병렬 처리 |
하드웨어 구현 시에는 고정소수점 연산과 부동소수점 연산 사이의 선택도 중요한 결정 사항이다. 고정소수점 연산은 자원 소모가 적고 속도가 빠르지만, 동적 범위가 제한되어 수치적 정밀도 문제가 발생할 수 있다. 부동소수점 연산은 정밀도가 높지만 더 많은 계산 자원과 전력을 소모한다. 따라서 목표 시스템의 제약 조건과 요구되는 정확도를 종합적으로 평가하여 적절한 연산 방식을 선택해야 한다.
수치적 안정성은 최소 제곱 오차 추정 문제를 컴퓨터로 해결할 때, 계산 과정에서 발생할 수 있는 오차의 증폭이나 불안정성을 최소화하는 것을 의미한다. 특히 정규 방정식 $\mathbf{A}^T\mathbf{A}\mathbf{x} = \mathbf{A}^T\mathbf{b}$을 직접 푸는 방법은 행렬 $\mathbf{A}$의 조건수가 클 경우 수치적으로 매우 불안정해질 수 있다. $\mathbf{A}^T\mathbf{A}$를 계산하면 원래 행렬 $\mathbf{A}$의 조건수의 제곱에 해당하는 조건수를 가지게 되어, 반올림 오차가 크게 증폭될 위험이 있다.
이러한 문제를 완화하기 위해 QR 분해나 특이값 분해와 같은 안정적인 행렬 분해 기법이 널리 사용된다. 예를 들어, $\mathbf{A} = \mathbf{QR}$로 분해하면 정규 방정식은 $\mathbf{Rx} = \mathbf{Q}^T\mathbf{b}$로 단순화되어, 조건수가 $\mathbf{A}$와 동일한 상삼각행렬 $\mathbf{R}$을 이용해 안정적으로 해를 구할 수 있다. 조건수가 매우 크거나 행렬 $\mathbf{A}$가 랭크 결핍인 경우에는 특이값 분해를 기반으로 한 의사역행렬 계산이 더욱 강건한 해를 제공한다.
또한, 문제의 스케일링은 수치적 안정성에 중요한 영향을 미친다. 입력 데이터나 관측값의 단위 차이로 인해 변수 간 스케일이 크게 다르면 계산 정확도가 떨어질 수 있다. 따라서 계산 전에 변수를 표준화하거나 정규화하는 전처리 과정이 권장된다. 반복적 방법을 사용할 때도 수렴 속도와 안정성을 보장하기 위해 전처리 조건자를 적용하는 경우가 많다.
계산 복잡도는 최소 제곱 오차 추정 문제를 해결하는 알고리즘의 효율성을 평가하는 핵심 지표이다. 복잡도는 일반적으로 문제의 크기, 즉 관측 데이터의 수 n과 추정해야 할 모델 파라미터의 수 p에 대한 함수로 표현된다.
직접적인 해법인 정규 방정식 (X^T X) β = X^T y를 푸는 방법의 복잡도는 주로 행렬 곱셈 X^T X (O(np²) 복잡도)와 p x p 크기의 정방행렬의 역행렬 계산 또는 선형 시스템 해법 (O(p³) 복잡도)에 의해 결정된다[8]. 따라서 전체 복잡도는 대략 O(np² + p³) 수준이다. 이 방법은 p가 상대적으로 작을 때 효율적이지만, p가 커지면 p³ 항으로 인해 계산 부하가 급격히 증가한다.
대규모 문제나 실시간 처리가 필요한 응용 분야에서는 QR 분해나 특이값 분해와 같은 수치적으로 안정적인 방법이 선호된다. QR 분해를 이용한 방법의 복잡도는 O(np²) 수준으로, 정규 방정식 접근법과 유사하거나 약간 더 높을 수 있지만, 수치적 안정성이 훨씬 우수하다. 반복적 방법인 재귀 최소 제곱법은 각 새로운 데이터 포인트가 도착할 때마다 O(p²)의 복잡도로 파라미터를 갱신할 수 있어, 데이터가 순차적으로 입력되는 온라인 학습이나 실시간 시스템에 적합하다.
방법 | 계산 복잡도 (점근적) | 주요 특징 |
|---|---|---|
정규 방정식 (역행렬 이용) | O(np² + p³) | 구현이 간단하지만, |
QR 분해 | O(np²) | 수치적으로 안정적이며, 중간 규모 문제에 널리 사용됨 |
재귀 최소 제곱법 (RLS) | O(p²) (갱신당) | 순차 데이터 처리에 적합한 온라인 알고리즘 |
따라서 응용 분야의 요구사항(배치 처리 대 실시간 처리, 파라미터 수 p의 크기, 수치적 정밀도 요구도)에 따라 적절한 알고리즘과 그에 따른 계산 복잡도를 고려하여 구현 방법을 선택해야 한다.

최소 제곱 오차 추정의 기본 원리를 다양한 조건과 요구사항에 맞게 확장한 여러 기법이 존재한다. 이 중 대표적인 것으로 가중 최소 제곱법과 재귀 최소 제곱법을 들 수 있다.
가중 최소 제곱법은 모든 관측 데이터에 동일한 중요도를 부여하는 기본 최소 제곱법의 한계를 보완한다. 각 관측값의 오차에 서로 다른 가중치를 부여하여, 더 신뢰도가 높은 데이터가 추정 결과에 미치는 영향을 크게 만든다. 이는 측정 노이즈의 분산이 관측값마다 다른 이분산성 상황이나, 특정 데이터의 정확도를 사전에 알고 있는 경우에 유용하게 적용된다. 가중치 행렬을 어떻게 설계하느냐에 따라 추정 성능이 크게 달라질 수 있다.
재귀 최소 제곱법은 새로운 데이터가 순차적으로 도착하는 온라인 추정 환경에 적합한 알고리즘이다. 기존의 모든 데이터를 다시 계산할 필요 없이, 이전 시점의 추정값과 새로 입력된 데이터만으로 추정값을 업데이트한다. 이 방식은 고정된 메모리 사용량으로 실시간 처리가 가능하며, 적응 필터링이나 추적 시스템과 같은 네트워크 및 통신 분야에서 널리 사용된다. 재귀적 업데이트 과정은 계산 효율성을 높이지만, 수치적 안정성을 유지하기 위해 주의가 필요하다.
이 외에도, 제약 조건 하에서 최적해를 찾는 제약 최소 제곱법, 오차 함수에 L1 노름을 사용하여 희소성 해를 유도하는 라쏘 회귀, 그리고 비선형 관계를 모델링하기 위한 비선형 최소 제곱법 등 다양한 확장 기법이 개발되어 각자의 문제 영역에 적용되고 있다.
가중 최소 제곱법은 최소 제곱 오차 추정의 일반화된 형태로, 각 관측 데이터 포인트에 서로 다른 중요도(가중치)를 부여하여 추정을 수행하는 기법이다. 표준 최소 제곱법은 모든 관측값의 오차를 동등하게 취급하지만, 실제 데이터에는 측정 신뢰도나 잡음 분산이 다른 경우가 많다. 가중 최소 제곱법은 이러한 이질성을 반영하여, 신뢰도가 높은 관측값에는 큰 가중치를, 신뢰도가 낮은 관측값에는 작은 가중치를 부여함으로써 더 효율적이고 정확한 추정 결과를 제공한다.
이 방법의 수학적 목표는 가중된 오차 제곱합을 최소화하는 것이다. 관측 벡터 $\mathbf{y}$, 설계 행렬 $\mathbf{X}$, 추정하고자 하는 파라미터 벡터 $\boldsymbol{\beta}$가 주어졌을 때, 가중치 행렬 $\mathbf{W}$는 일반적으로 양의 정부호 대각 행렬로 구성된다. 이때 목적 함수는 $S(\boldsymbol{\beta}) = (\mathbf{y} - \mathbf{X}\boldsymbol{\beta})^T \mathbf{W} (\mathbf{y} - \mathbf{X}\boldsymbol{\beta})$가 되며, 이를 최소화하는 추정값 $\hat{\boldsymbol{\beta}}_{WLS}$는 정규 방정식 $\mathbf{X}^T \mathbf{W} \mathbf{X} \hat{\boldsymbol{\beta}}_{WLS} = \mathbf{X}^T \mathbf{W} \mathbf{y}$의 해로 구할 수 있다. 가중치 행렬 $\mathbf{W}$의 대각 원소 $w_i$는 $i$번째 관측값의 분산 $\sigma_i^2$에 반비례하도록 설정($w_i = 1 / \sigma_i^2$)하는 것이 일반적이다.
방법 | 목적 함수 | 가중치 역할 | 주요 적용 상황 |
|---|---|---|---|
표준 최소 제곱법 (OLS) | $\sum (y_i - \hat{y}_i)^2$ | 모든 $w_i = 1$ (동일 가중치) | 등분산성 오차 가정이 성립할 때 |
가중 최소 제곱법 (WLS) | $\sum w_i (y_i - \hat{y}_i)^2$ | $w_i \propto 1/\sigma_i^2$ (가변 가중치) | 이분산성 오차 또는 신뢰도가 다른 데이터 |
네트워크 및 통신 분야에서는 이 기법이 널리 활용된다. 예를 들어, 채널 추정에서 수신된 파일럿 신호의 전력이나 신호 대 잡음비가 시간에 따라 변할 수 있다. 이 경우 각 파일럿 심볼에 대한 추정 신뢰도가 달라지므로, 가중 최소 제곱법을 적용하여 더 정확한 채널 응답을 추정할 수 있다. 또한, 위치 추정 및 측위에서도 각 기준국(Anchor Node)으로부터의 거리 측정값은 전파 환경에 따라 오차의 분산이 다르다. 가중 최소 제곱법은 측정 오차의 분산을 기반으로 가중치를 조정하여, 보다 정밀한 단말기의 위치 좌표를 계산하는 데 사용된다.
재귀 최소 제곱법은 새로운 데이터가 순차적으로 도착할 때마다 최소 제곱 오차 추정 해를 효율적으로 갱신하는 적응 알고리즘이다. 배치 방식의 최소 제곱법은 모든 데이터를 한 번에 처리해야 하지만, 재귀 최소 제곱법은 이전까지의 추정 결과를 바탕으로 새 데이터만을 사용해 추정값을 업데이트한다. 이 방식은 실시간 처리가 요구되는 통신 시스템, 적응 필터링, 추적 시스템 등에서 널리 사용된다.
알고리즘의 핵심은 추정하고자 하는 파라미터 벡터 $\hat{\mathbf{w}}$와 공분산 행렬 $\mathbf{P}$를 재귀적으로 갱신하는 것이다. $k$번째 시점에서 새로운 입력 벡터 $\mathbf{x}_k$와 관측값 $d_k$가 도착하면, 다음과 같은 순서로 계산이 이루어진다.
1. 칼만 이득 계산: $\mathbf{g}_k = \frac{\mathbf{P}_{k-1} \mathbf{x}_k}{\lambda + \mathbf{x}_k^T \mathbf{P}_{k-1} \mathbf{x}_k}$
2. 오차 계산: $e_k = d_k - \mathbf{x}_k^T \hat{\mathbf{w}}_{k-1}$
3. 파라미터 갱신: $\hat{\mathbf{w}}_k = \hat{\mathbf{w}}_{k-1} + \mathbf{g}_k e_k$
4. 공분산 행렬 갱신: $\mathbf{P}_k = \lambda^{-1} (\mathbf{P}_{k-1} - \mathbf{g}_k \mathbf{x}_k^T \mathbf{P}_{k-1})$
여기서 $\lambda$는 망각 인자로, 1에 가까운 값(예: 0.99)을 사용하여 과거 데이터의 영향을 점차 감소시킨다. 이를 통해 시스템의 시간에 따른 변화를 추적할 수 있다.
재귀 최소 제곱법은 계산 효율성이 뛰어나지만, 수치적 안정성과 관련된 주의가 필요하다. 공분산 행렬 $\mathbf{P}$가 양정치성을 잃거나 수치적으로 불안정해질 수 있어, 제곱근 필터나 UD 분해와 같은 수치적으로 안정한 구현 방식이 종종 사용된다. 또한, 알고리즘의 초기화는 $\hat{\mathbf{w}}_0 = \mathbf{0}$, $\mathbf{P}_0 = \delta^{-1} \mathbf{I}$ (여기서 $\delta$는 작은 양수)와 같이 수행된다.

최소 제곱 오차 추정은 칼 프리드리히 가우스와 아드리앵마리 르장드르가 각각 독립적으로 개발한 기법으로, 그 우선권을 둘러싼 논쟁이 있었다. 르장드르는 1805년 자신의 저서에서 이 방법을 처음 발표했지만, 가우스는 1801년 소행성 세레스의 궤도를 계산하는 데 이미 이 방법을 사용했다고 주장했다[9].
이 방법은 단순히 수학적 도구를 넘어 과학적 사고 방식의 변화를 반영한다. 관측 데이터에 내재된 불확실성을 체계적으로 처리하고, '가장 그럴듯한' 해를 찾는다는 철학은 이후 통계학과 기계 학습의 근간이 되었다. 특히 선형 회귀 분석은 최소 제곱법의 가장 잘 알려진 응용 사례이다.
흥미롭게도, 최소 제곱법의 아이디어는 다양한 문화권에서 오래전부터 직관적으로 사용된 것으로 보인다. 예를 들어, 중세의 항해사들은 별의 위치를 측정할 때 비슷한 원리를 적용했을 가능성이 있다. 그러나 르장드르와 가우스가 이를 엄밀한 수학적 형식으로 체계화함으로써 현대 과학의 핵심 도구로 자리 잡게 했다.