머신러닝 분석/회귀 분석

회귀 모델의 성능지표

Data Jun 2025. 3. 25. 14:04

회귀분석을 할 때 모델이 얼마나 타겟 변수 Y를 잘 설명하는지 평가하는 것이 중요합니다.
이를 위해 다양한 성능지표가 사용되는데, 오늘은 그 중에서도 가장 대표적인 4가지 지표를 정리해보겠습니다:

  • 결정계수 R²
  • 조정 결정계수 Adjusted R²
  • AIC (Akaike Information Criterion)
  • BIC (Bayesian Information Criterion)

 

결정계수 R2

정의

  • 모델이 전체 변동성(SST) 중에서 얼마나 설명 가능한지를 나타내는 비율
  • 수식:R2=SSR / SST=1 − SSE / SST
    • SST: Y의 총 변동성 (총 제곱합)
    • SSR: 회귀모델이 설명한 변동성
    • SSE: 회귀모델이 설명하지 못한 오차

해석

  • R2 = 0.9  → 모델이 Y의 변동성 중 90%를 설명하고 있다.
  • 값이 클수록 좋은 모델처럼 보이지만, 변수를 많이 넣으면 자연스럽게 R²는 커집니다 (주의!)

 

조정 결정계수 Adjusted R2

왜 필요한가?

  • 변수 수를 늘릴수록 R²는 무조건 커지기 때문에, 모델 성능 비교에 오해가 생김
  • 그래서 변수 개수에 대한 패널티를 주는 조정 지표가 필요함

수식

Adjusted R2 = 1− {SSE/(n−p)} / {SST/(n−1)

  • n: 샘플 수
  • p: 독립변수 수

해석

  • 불필요한 변수를 추가하면 Adjusted R²는 오히려 감소할 수 있음
  • 모델 복잡도를 고려한 R²의 업그레이드 버전

 

AIC (Akaike Information Criterion)

목적

  • 모델의 예측 성능뿐 아니라 복잡도까지 함께 고려하는 지표

수식

AIC=n⋅ln⁡(SSEn)+2(p+1)

  • 첫 번째 항: 모델의 오류(MSE)
  • 두 번째 항: 변수 수에 따른 패널티

특징

  • 작을수록 좋은 모델
  • 모델 선택(Model Selection)에 매우 자주 사용
  • 과적합 방지를 도와줌

 

BIC (Bayesian Information Criterion)

BIC는 AIC의 보완판

  • AIC는 샘플 수가 클 때 덜 정확한 경향
  • BIC는 샘플 수(n)가 많을수록 패널티를 더 강하게 부여

수식

BIC=n⋅ln⁡(SSEn)+(p+1)⋅ln⁡(n)

 

차이점 요약

 

어떤 지표를 써야 할까?

 

 

마무리

모델의 성능은 단순히 R²만 보고 판단할 수 없습니다.
과적합을 방지하고, 의미 있는 예측 모델을 만들기 위해선 Adjusted R², AIC, BIC와 같은 보조 지표들이 꼭 필요합니다.