ML Insights/Regression Analysis

다중 공선성이란?

Data Jun 2025. 3. 4. 14:26

다중 공선성이란?

다중공선성(Multicollinearity)은 회귀 분석에서 독립 변수들 간의 강한 상관관계로 인해 발생하는 문제를 의미합니다. 일반적으로 회귀 모델에서 독립 변수들은 서로 독립적이어야 하지만, 다중공선성이 존재하면 변수 간의 중복 정보가 많아지고, 회귀 계수의 해석이 어려워지며 모델의 예측력이 감소할 수 있습니다.

 

다중 공선성의 영향

  • 변수 간의 변동성이 겹쳐서 독립적인 효과를 분리하기 어려움
  • 회귀 계수의 신뢰성이 낮아지고, 해석이 왜곡될 가능성이 높음
  • 특정 변수의 p-value가 높아져서 유의하지 않다고 나타날 수 있음
  • 모델의 예측 성능 저하

 

위 그림에서 보면, 각각의 단순 회귀 분석에서는 radionewspaper가 sales에 유의미한 영향을 미치는 것처럼 보입니다. 하지만, 다중 회귀 분석에서는 newspaper 변수의 계수가 거의 0에 가깝고 p-value가 높아져 통계적으로 유의하지 않은 것처럼 나타납니다.

왜 이런 현상이 발생할까?

이는 radio, newspaper, TV 변수 간의 다중공선성 때문입니다. 즉, newspaper 변수는 독립적인 정보라기보다는 TV나 radio 변수와 강한 상관관계를 가지므로, 추가적인 설명력을 제공하지 못하는 것입니다. 따라서 다중 회귀 분석에서는 newspaper 변수가 의미 있는 변수로 해석되지 않게 됩니다.

 

변수 간 중복 정보로 인해 개별 변수의 기여도를 명확히 측정할 수 없음

다중공선성이 존재하면, 여러 독립 변수가 종속 변수를 설명하는 변동(분산)을 공유하게 됩니다. 즉, 특정 변수가 설명하는 내용이 다른 변수에서도 포함되어 있기 때문에 각 변수의 개별적인 영향력을 정확히 분리하기 어려워집니다.

예를 들어, 매출을 예측하는데 TV 광고, 라디오 광고, 신문 광고를 독립 변수로 사용한다고 가정하면,

  • TV 광고와 라디오 광고가 높은 상관관계를 가지면, 두 변수가 함께 변하며 매출에 영향을 미칩니다.
  • 하지만, 회귀 분석은 각각의 변수의 독립적인 효과를 측정하려고 하기 때문에, 두 변수가 겹치는 영향력을 어떻게 분배해야 할지 애매해집니다.
  • 결과적으로 회귀 계수의 값이 불안정해지고, 작은 변화에도 크게 변동할 수 있습니다.

회귀 계수의 표준 오차 증가 → 신뢰 구간이 넓어지고 p-value가 증가

다중공선성이 있으면, 특정 변수의 회귀 계수를 추정할 때 해당 변수가 설명하는 변동성이 다른 변수와 겹치므로 표본에서 불안정한 값이 나올 가능성이 높아집니다.

  • 표준 오차(standard error)가 커지고,
  • 신뢰 구간이 넓어지며,
  • t-값이 작아져서 (t = coefficient / standard error)
  • 결과적으로 p-value가 증가하여 유의하지 않은 것처럼 보이게 됩니다.

즉, 다중공선성이 있으면 회귀 분석에서 "이 변수가 정말 중요한가?"를 판단하기 어려워지고, 모델의 해석력이 떨어지는 문제가 발생합니다.  다중공선성이 있으면 독립 변수들이 서로 엮여 있어서, 표본이 바뀔 때마다 모델이 "어떤 변수를 더 중요하게 볼지" 결정하기 어려워짐 → 그래서 회귀 계수가 불안정하게 변하는 것

 

  • 다중공선성이 있으면 변수들이 겹쳐서 개별 기여도를 명확히 알 수 없으며, 회귀 계수의 표준 오차가 커지고 신뢰 구간이 넓어져 신뢰도가 낮아진다.
  • 회귀 분석에서는 각 변수의 독립적인 영향을 측정하려 하지만, 다중공선성이 있으면 어떤 변수가 실제로 기여했는지 명확히 판단하기 어려워진다.

이런 점이 다중공선성이 회귀 모델에서 중요한 문제가 되는 이유입니다

 

다중공선성을 진단하는 방법

VIF(Variance Inflation Factor) 식의 유도 과정

VIF(분산 팽창 계수, Variance Inflation Factor)는 독립 변수 간의 다중공선성을 측정하는 지표입니다.
VIF 값이 높을수록 해당 독립 변수가 다른 독립 변수들과 강한 상관관계를 가지며, 다중공선성이 크다는 것을 의미합니다.

 

여기서,

  • Ri2는 독립 변수 XiX_i를 다른 독립 변수들로 회귀 분석했을 때의 결정 계수(R-squared) 값입니다.
  • 1−Ri2는 해당 독립 변수의 독립성이며, 이 값이 작을수록 다중공선성이 크다는 의미입니다
  • → 다중공선성이 없음 (즉, Ri2=0R_i^2 = 0)
  • VIF>5→ 다중공선성이 존재할 가능성이 높음
  • VIF>10 → 심각한 다중공선성이 존재하므로 변수 제거를 고려해야 함
  • 값이 클수록 (즉, 독립 변수들 간의 상관관계가 클수록) VIFVIF 값이 커지고, 다중공선성 문제가 커진다.

변수 선택 (Feature Selection)

  • 중요한 변수만 선택하여 다중공선성을 줄이는 방법
  • 대표적인 기법:
    • 변수 제거: 상관계수가 높은 변수 중 하나를 제거
    • Lasso Regression: L1 정규화를 통해 중요하지 않은 변수를 자동으로 제거
    • Stepwise Selection: 순차적으로 변수를 추가 또는 제거하여 최적의 조합을 찾음
    • 유전 알고리즘 등의 최적화 기법 활용

변수를 줄이지 않고 활용하는 방법

  • 모든 변수를 유지하면서 다중공선성을 완화하는 방법
  • 대표적인 기법:
    • AutoEncoder: 딥러닝 기반의 Feature Extraction 기법 활용
    • PCA (주성분 분석): 변수를 선형 결합하여 공선성이 없는 새로운 변수로 변환
    • Ridge Regression: L2 정규화를 통해 회귀 계수의 크기를 줄여 다중공선성을 완화

데이터 분석에서 Feature Selection의 중요성

중요한 변수를 선택하는 방법은 데이터 분석 및 머신러닝에서 현재까지도 중요한 이슈입니다. 다중공선성이 높은 데이터를 그대로 사용할 경우 예측 모델의 성능이 저하되고 해석 가능성이 낮아질 수 있으므로, 적절한 변수 선택이 필수적입니다.

'ML Insights > Regression Analysis' 카테고리의 다른 글

회귀 모델의 성능지표  (0) 2025.03.25
다중공선성 진단 방법  (0) 2025.03.17
회귀계수의 검정  (0) 2025.02.25
회귀계수 추정  (0) 2025.02.21
회귀분석이란  (0) 2025.02.21