통계 이론

[기술통계] 상관계수 정리

Data Jun 2025. 12. 1. 21:42

통계에서 두 변수가 함께 움직이는 정도를 확인하고 싶을 때 가장 먼저 떠올리는 개념이 바로 **상관관계(correlation)**입니다.
예를 들어 공부시간과 점수, 운동량과 체중, 광고비와 매출 등 두 변수 간 "함께 증가하는지" 혹은 "한쪽이 증가할 때 다른 쪽이 감소하는지"를 알고 싶을 때 사용됩니다.

 

이때 이 관계를 하나의 수치로 표현한 것이 **상관계수(correlation coefficient)**입니다.
그 중 가장 널리 쓰이는 것이 **피어슨 적률상관계수(Pearson correlation coefficient)**인데, 교과서에 나오는 바로 그 공식이죠.

 

1.  피어슨 상관계수는 왜 이런 공식으로 계산될까?

우리가 흔히 보는 공식은 다음과 같습니다.

 

그런데 왜 공식은 처음 보면 꽤 복잡해 보입니다.

왜 단순히 x와 y의 차이를 비교하는 것이 아니라, 평균에서 뺀 값의 곱을 쓰고, 또 분모에 복잡한 루트를 끼워넣었을까?

 

아래에서 하나씩 이유를 설명합니다.

 

1️⃣ 평균을 빼는 이유: “기준점을 동일하게 맞추기 위해”

 

각 데이터는 x와 y 각각의 평균을 기준으로 얼마나 위/아래에 있는지를 나타내야 합니다.
왜냐하면 단순히 값 자체로 비교하면 다음 문제가 생기기 때문이죠.

  • x는 100~120 사이
  • y는 1~5 사이

이럴수록 스케일이 다르기 때문에 직접 비교가 어려워집니다.

그래서

 

2️⃣ 편차들의 곱을 쓰는 이유: “방향성을 파악하기 위해”

 

편차들의 곱인

은 단순한 수치가 아니라 두 변수가 같은 방향으로 움직이는지/반대로 움직이는지를 알려주는 핵심 지표입니다.

x 편차 y 편차 의미
+ +
+
함께 증가 → 양의 상관
- - 함께 감소 → 양의 상관
+ - - 반대로 움직임 → 음의 상관
- + - 반대로 움직임 → 음의 상관

즉,

  • 곱의 **부호(sign)**가 방향(양 or 음)을 알려주고
  • 곱의 **크기(magnitude)**가 그 강도를 알려줍니다.

이 때문에 분자에 단순 합이 아닌 편차들의 곱의 합을 쓰는 것입니다.

 

3️⃣ 그런데 단순히 분자만 보면 안 된다: “스케일에 따라 값이 무한히 커질 수 있음”

 

예를 들어 x, y의 단위가 바뀌면(원 → 만원) 값의 범위도 달라지죠.
그러면 편차들의 곱도 함께 커져서 상관계수가 엉뚱한 값이 됩니다.

그래서 피어슨은 다음과 같은 생각을 했습니다:

 

"값의 크기(scale)의 영향을 없애려면 표준화된 형태로 만들어야겠다!"

 

그래서 분모에는 다음 두 개가 들어갑니다.

이는 각각 x와 y의 표준편차의 근사 형태이며,
결국 분모 전체는 두 변수의 변동성(scale)을 표준화(정규화)하는 역할을 합니다.

 

즉, 상관계수 r이 항상 -1 ~ 1 사이 값을 갖도록 만들어 줍니다.

 

 

 

정리하면

피어슨 상관계수 공식은

“두 변수가 평균 대비 같은 방향으로 얼마나 함께 움직이는지를,
각 변수의 스케일을 제거한 상태에서 비교한 값”
입니다.

 

그 결과

  • +1이면 완전한 양의 직선관계
  • -1이면 완전한 음의 직선관계
  • 0이면 직선적 관련성이 없음
    을 의미하게 됩니다.

 

피어슨 상관계수 공식을 보면 어렵게 느껴지지만
사실 다음 세 질문만 이해하면 자연스럽게 받아들여집니다.

  • 평균에서 얼마나 벗어났는가? → 편차 사용
  • 두 편차가 같은 방향인가? → 편차 곱 사용
  • 단위 차이를 없애려면? → 표준화(분모)

즉 “방향성 + 강도 + 표준화”를 결합한 매우 논리적인 공식입니다.