머신러닝이나 통계 모델링을 할 때, 너무 많은 변수는 오히려 독이 될 수 있습니다. 회귀계수 축소법은 불필요한 변수는 제거하고 중요한 변수만 남겨 모델을 더 간결하고 예측력 있게 만드는 기법입니다. 이 글에서는 회귀계수 축소의 개념, 이유, 좋은 변수의 조건, 그리고 대표적인 방법들까지 정리해봅니다.
회귀분석에서의 이상적인 데이터 조건
- 독립변수 X끼리는 상관관계가 작아야 이상적입니다. (Multicollinearity 최소화)
- 반면, 독립변수 X와 종속변수 Y 간에는 강한 상관관계가 있어야 합니다.
- 즉, 적은 수의 독립변수로도 Y를 잘 설명할 수 있어야 이상적입니다.
데이터가 많다고 무조건 좋은 것은 아닙니다. "Long and Thin" 구조보다는, 필요한 변수만 모은 "Short and Fat" 구조가 더 유리할 수 있습니다.
변수 선택 (Variable Selection)
좋은 변수란?
- 서로 중복되지 않고 (Minimal Redundancy)
- 종속변수 Y와는 잘 연관되어 있어야 합니다 (Maximal Relevance)
예를 들어 사람 키를 예측할 때, 다리길이와 팔길이를 동시에 사용하는 것은 중복 가능성이 큽니다. 둘 중 하나만 사용해도 충분할 수 있습니다.
회귀계수를 축소하는 이유
- 노이즈 제거: 영향 없는 변수 제거 → 예측 정확도 향상
- 속도 향상: 계산 효율성 증가
- 다중공선성 완화: 상관관계 높은 변수들로 인한 문제 해소
예: 입력변수로 나이, 잔고액, 생년이 있다면, 나이와 생년은 같은 의미이므로 하나는 제거해야 합니다.
좋은 변수란?
Y의 분산(변동성)을 잘 설명하면서도 다른 X들과는 상관관계가 적은 변수가 좋은 변수입니다.
위와 같이 Y의 분산을 잘 설명하면서, 서로 겹치지 않는 X1, X2가 바람직합니다.
계수 축소 방법의 종류
회귀계수 축소법은 기본적으로 다중선형회귀와 비슷한 구조지만, 여기에 패널티(penalty) 항을 추가하여 일부 회귀계수를 0에 가깝게 만듭니다.
🔹 대표적인 세 가지 기법
- Ridge 회귀 (L2 패널티)
- Lasso 회귀 (L1 패널티)
- ElasticNet 회귀 (L1 + L2 결합)
정리
회귀계수 축소는 단순히 모델 성능만이 아니라 해석력과 현업 적용 가능성까지 고려해야 할 때 매우 유용한 도구입니다.
'머신러닝 분석 > 회귀 분석' 카테고리의 다른 글
Lasso와 ElasticNet: 회귀계수 축소의 정교한 전략 (0) | 2025.03.26 |
---|---|
Ridge 회귀: 다중공선성을 해결하는 정규화 회귀 (0) | 2025.03.26 |
로지스틱 회귀분석 (0) | 2025.03.26 |
랜덤포레스트 회귀는 "회귀" 모델일까? (0) | 2025.03.26 |
다항 회귀분석 (0) | 2025.03.26 |