회귀분석은 단순히 독립변수들이 종속변수에 영향을 주는 관계를 분석하는 것처럼 보일 수 있지만, 실제 데이터에서는 변수 간 상호작용이나 명목형 변수의 처리 방식이 매우 중요합니다.
이번 포스트에서는 두 가지 중요한 개념인 **교호작용(Interaction)**과 **명목형 변수 처리(Dummy Coding)**에 대해 알아봅니다.
교호작용 (Interaction Term)
교호작용이란?
독립 변수 간의 시너지 효과를 모델에 반영하기 위한 개념
- 어떤 경우에는 X₁, X₂ 각각은 Y에 큰 영향을 주지 않지만,
- X₁과 X₂가 결합될 때 Y에 큰 영향을 줄 수 있어요.
- 이걸 **교호작용(interaction effect)**이라고 부릅니다.
예시:
X₁: 마케팅 예산
X₂: 매장 수
Y : 매출
- X₁만 늘리거나 X₂만 늘려도 큰 효과가 없지만,
- 둘을 같이 늘렸을 때 매출이 크게 증가할 수 있음
→ 이걸 반영하려면 X₁ * X₂ 항을 모델에 추가해야 합니다.
회귀식 형태:
Y^=β0+β1X1+β2X2+β3X1X2
- β3: X₁과 X₂의 상호작용 효과
- 이 항이 없으면 "독립적인 영향"만 모델링됨
주의사항
- 교호작용은 무작정 추가하지 말고, 도메인 지식 또는 시각화/탐색분석을 통해 의미 있는 조합만 추가하는 것이 좋습니다.
명목형 변수 처리 (Dummy Variable)
명목형 변수란?
순서가 없는 범주형 변수 (예: 성별, 지역, 학력 등)
회귀분석에서는 숫자형 데이터만 처리할 수 있기 때문에, 명목형 변수는 반드시 **더미 변수(dummies)**로 전처리해야 합니다.
예시: 학력 → 연봉
회귀계수 해석
- β1=800 대학교 졸업자는 고졸 대비 평균 800 더 벌어요
- β2=2800 대학원 졸업자는 고졸 대비 평균 2,800 더 벌어요
→ 이렇게 명목형 변수도 수치화해서 회귀모델에 포함시킬 수 있습니다!
마무리 요약
'머신러닝 분석 > 회귀 분석' 카테고리의 다른 글
다항 회귀분석 (0) | 2025.03.26 |
---|---|
다중회귀의 진단 (0) | 2025.03.26 |
변수 선택법 (0) | 2025.03.26 |
분류 모델 성능지표 심화: 특이도, ROC Curve, G-mean 완전 정리 (0) | 2025.03.25 |
모델 성능지표 한눈에 정리 – 예측력부터 분류 성능까지 (0) | 2025.03.25 |