회귀분석을 할 때 모델이 얼마나 타겟 변수 Y를 잘 설명하는지 평가하는 것이 중요합니다.
이를 위해 다양한 성능지표가 사용되는데, 오늘은 그 중에서도 가장 대표적인 4가지 지표를 정리해보겠습니다:
- 결정계수 R²
- 조정 결정계수 Adjusted R²
- AIC (Akaike Information Criterion)
- BIC (Bayesian Information Criterion)
결정계수 R2
정의
- 모델이 전체 변동성(SST) 중에서 얼마나 설명 가능한지를 나타내는 비율
- 수식:R2=SSR / SST=1 − SSE / SST
- SST: Y의 총 변동성 (총 제곱합)
- SSR: 회귀모델이 설명한 변동성
- SSE: 회귀모델이 설명하지 못한 오차
해석
- R2 = 0.9 → 모델이 Y의 변동성 중 90%를 설명하고 있다.
- 값이 클수록 좋은 모델처럼 보이지만, 변수를 많이 넣으면 자연스럽게 R²는 커집니다 (주의!)
조정 결정계수 Adjusted R2
왜 필요한가?
- 변수 수를 늘릴수록 R²는 무조건 커지기 때문에, 모델 성능 비교에 오해가 생김
- 그래서 변수 개수에 대한 패널티를 주는 조정 지표가 필요함
수식
Adjusted R2 = 1− {SSE/(n−p)} / {SST/(n−1)
- n: 샘플 수
- p: 독립변수 수
해석
- 불필요한 변수를 추가하면 Adjusted R²는 오히려 감소할 수 있음
- 모델 복잡도를 고려한 R²의 업그레이드 버전
AIC (Akaike Information Criterion)
목적
- 모델의 예측 성능뿐 아니라 복잡도까지 함께 고려하는 지표
수식
AIC=n⋅ln(SSEn)+2(p+1)
- 첫 번째 항: 모델의 오류(MSE)
- 두 번째 항: 변수 수에 따른 패널티
특징
- 작을수록 좋은 모델
- 모델 선택(Model Selection)에 매우 자주 사용
- 과적합 방지를 도와줌
BIC (Bayesian Information Criterion)
BIC는 AIC의 보완판
- AIC는 샘플 수가 클 때 덜 정확한 경향
- BIC는 샘플 수(n)가 많을수록 패널티를 더 강하게 부여함
수식
BIC=n⋅ln(SSEn)+(p+1)⋅ln(n)
차이점 요약
어떤 지표를 써야 할까?
마무리
모델의 성능은 단순히 R²만 보고 판단할 수 없습니다.
과적합을 방지하고, 의미 있는 예측 모델을 만들기 위해선 Adjusted R², AIC, BIC와 같은 보조 지표들이 꼭 필요합니다.
'머신러닝 분석 > 회귀 분석' 카테고리의 다른 글
모델 성능지표 한눈에 정리 – 예측력부터 분류 성능까지 (0) | 2025.03.25 |
---|---|
왜 SSR은 예측값에서 평균을 빼서 계산할까? (0) | 2025.03.25 |
다중공선성 진단 방법 (0) | 2025.03.17 |
다중 공선성이란? (0) | 2025.03.04 |
회귀계수의 검정 (0) | 2025.02.25 |