머신러닝 분석/회귀 분석

회귀분석 심화: 교호작용과 명목형 변수 처리

Data Jun 2025. 3. 26. 10:48

회귀분석은 단순히 독립변수들이 종속변수에 영향을 주는 관계를 분석하는 것처럼 보일 수 있지만, 실제 데이터에서는 변수 간 상호작용이나 명목형 변수의 처리 방식이 매우 중요합니다.

이번 포스트에서는 두 가지 중요한 개념인 **교호작용(Interaction)**과 **명목형 변수 처리(Dummy Coding)**에 대해 알아봅니다.

 

교호작용 (Interaction Term)

 교호작용이란?

독립 변수 간의 시너지 효과를 모델에 반영하기 위한 개념

  • 어떤 경우에는 X₁, X₂ 각각은 Y에 큰 영향을 주지 않지만,
  • X₁과 X₂가 결합될 때 Y에 큰 영향을 줄 수 있어요.
  • 이걸 **교호작용(interaction effect)**이라고 부릅니다.

예시:

X₁: 마케팅 예산  
X₂: 매장 수  
Y : 매출
  • X₁만 늘리거나 X₂만 늘려도 큰 효과가 없지만,
  • 둘을 같이 늘렸을 때 매출이 크게 증가할 수 있음
    → 이걸 반영하려면 X₁ * X₂ 항을 모델에 추가해야 합니다.

회귀식 형태:

Y^=β0+β1X1+β2X2+β3X1X2

  • β3: X₁과 X₂의 상호작용 효과
  • 이 항이 없으면 "독립적인 영향"만 모델링됨

주의사항

  • 교호작용은 무작정 추가하지 말고, 도메인 지식 또는 시각화/탐색분석을 통해 의미 있는 조합만 추가하는 것이 좋습니다.

 

명목형 변수 처리 (Dummy Variable)

명목형 변수란?

순서가 없는 범주형 변수 (예: 성별, 지역, 학력 등)

회귀분석에서는 숫자형 데이터만 처리할 수 있기 때문에, 명목형 변수는 반드시 **더미 변수(dummies)**로 전처리해야 합니다.

 

예시: 학력 → 연봉

회귀계수 해석

  • β1=800 대학교 졸업자는 고졸 대비 평균 800 더 벌어요
  • β2=2800 대학원 졸업자는 고졸 대비 평균 2,800 더 벌어요

→ 이렇게 명목형 변수도 수치화해서 회귀모델에 포함시킬 수 있습니다!

 

 

마무리 요약