통계 이론

[확률분포] 왜도와 첨도

Data Jun 2025. 12. 11. 21:13

데이터 분석을 하다 보면 **“이 변수의 분포가 어떤지”**를 확인하는 일이 정말 자주 등장합니다.
정확한 모델링과 올바른 해석을 위해서는 단순한 평균·표준편차만으로는 부족하고,
데이터가 어느 방향으로 치우쳐 있는지, 극단값이 많은지를 이해하는 것이 매우 중요합니다.

 

그 핵심에 있는 개념이 바로 **왜도(skewness)**와 **첨도(kurtosis)**입니다.
두 지표는 숫자 하나로 분포의 성격을 빠르게 파악하게 해주는, 실용적인 ‘분포의 요약 도구’라고 볼 수 있습니다.

 

1. 왜도(Skewness): 데이터가 어느 방향으로 기울었는가?

왜도는 데이터 분포의 비대칭 정도를 나타냅니다.
쉽게 말해, 데이터가 ‘왼쪽으로 기울었는지’, ‘오른쪽으로 기울었는지’를 한눈에 보여주는 지표죠.

 

1️⃣ 왜도가 0에 가까운 경우

 

  • 정규분포와 비슷한 형태
  • 좌우가 거의 대칭
  • 깔끔한 분포라고 볼 수 있어 모델링 시 수정이 거의 필요 없습니다.

2️⃣ 양의 왜도( 오른쪽 꼬리 ↑ )

 

  • 오른쪽 꼬리가 길고, 큰 값들이 일부 존재
  • 평균이 중앙보다 오른쪽으로 끌려감

3️⃣ 음의 왜도(왼쪽 꼬리 ↑)

 

 

  • 왼쪽 꼬리가 길고 작은 값들이 존재
  • 평균은 중앙보다 왼쪽으로 당겨짐
  • 예를 들어 시험 점수처럼 대부분이 잘 봤지만 일부만 매우 낮게 받은 경우 나타남

 

2. 첨도(Kurtosis): 데이터가 얼마나 뾰족하고 극단값이 많은가?

 

첨도는 분포의 뾰족함 또는 꼬리의 두께를 나타냅니다.
즉, 데이터가 평균 근처에 몰려 있는지, 극단값이 많은지를 판단하는 데 유용합니다.

 

1️⃣ 첨도가 0에 가까운 경우

 

  • 정규분포와 비슷한 뾰족함
  • 극단값이 특별히 많지도 적지도 않은 안정적인 분포

 

2️⃣ 양의 첨도(Leptokurtic) — 뾰족함 증가, 꼬리 두꺼움

 

  • 평균 주변에 데이터가 많이 몰림
  • 동시에 꼬리 부분에서 극단값도 자주 발생

3️⃣ 음의 첨도(Platykurtic) — 둥글고 완만한 분포

 

 

 

 

  • 평균 주변에 데이터가 덜 몰림
  • 전체적으로 퍼져 있으며 변동성이 넓게 분포

3. 왜도와 첨도가 왜 중요한가?

1️⃣ 정규성( Normality ) 진단의 핵심 지표

많은 통계 기법과 회귀 모델은 **“데이터가 정규분포에 가깝다”**는 전제를 가지고 있습니다.

왜도와 첨도는 정규성 여부를 빠르게 판단하는 가장 기본적인 체크포인트입니다.

 

2️⃣ 이상치(Outlier) 파악의 단서 제공

특히 첨도가 높으면 극단값의 비중이 높아진다는 의미입니다.
이상치 제거, 윈저라이징(winsorizing), 변환 등의 의사결정을 할 때 참고할 수 있습니다.

 

3️⃣ 도메인 해석에도 직접적으로 연결

예를 들어 보험 데이터에서는

  • 양의 왜도: 고액 보험금 청구가 극소수 존재
  • 높은 첨도: 비정상적으로 큰 사고(큰 금액)의 발생 빈도가 높음
    과 같은 의미를 갖게 되어, 리스크 분석에도 활용됩니다.

 

정리하면

 

왜도와 첨도는 복잡한 모델링을 하기 전에 데이터의 개성을 파악하는 첫 번째 단계라고 할 수 있습니다.
두 지표만으로도 데이터가

  • 균형 잡혀 있는지
  • 극단값이 많은지
  • 변환이 필요한지
    빠르게 감을 잡을 수 있죠.

데이터 분석에서는 이런 작은 차이가 모델의 안정성과 해석에 큰 영향을 줍니다.

 

'통계 이론' 카테고리의 다른 글

[확률분포] 확률변수 개념  (0) 2025.12.13
[확률분포] 포아송 분포  (0) 2025.12.12
[확률분포] 시그마(σ) 이론  (0) 2025.12.10
표준점수란  (0) 2025.12.09
[확률분포] 표준화와 표준정규분포  (0) 2025.12.08