통계에서 두 변수가 함께 움직이는 정도를 확인하고 싶을 때 가장 먼저 떠올리는 개념이 바로 **상관관계(correlation)**입니다.
예를 들어 공부시간과 점수, 운동량과 체중, 광고비와 매출 등 두 변수 간 "함께 증가하는지" 혹은 "한쪽이 증가할 때 다른 쪽이 감소하는지"를 알고 싶을 때 사용됩니다.
이때 이 관계를 하나의 수치로 표현한 것이 **상관계수(correlation coefficient)**입니다.
그 중 가장 널리 쓰이는 것이 **피어슨 적률상관계수(Pearson correlation coefficient)**인데, 교과서에 나오는 바로 그 공식이죠.
1. 피어슨 상관계수는 왜 이런 공식으로 계산될까?
우리가 흔히 보는 공식은 다음과 같습니다.

그런데 왜 공식은 처음 보면 꽤 복잡해 보입니다.
왜 단순히 x와 y의 차이를 비교하는 것이 아니라, 평균에서 뺀 값의 곱을 쓰고, 또 분모에 복잡한 루트를 끼워넣었을까?
아래에서 하나씩 이유를 설명합니다.
1️⃣ 평균을 빼는 이유: “기준점을 동일하게 맞추기 위해”
각 데이터는 x와 y 각각의 평균을 기준으로 얼마나 위/아래에 있는지를 나타내야 합니다.
왜냐하면 단순히 값 자체로 비교하면 다음 문제가 생기기 때문이죠.
- x는 100~120 사이
- y는 1~5 사이
이럴수록 스케일이 다르기 때문에 직접 비교가 어려워집니다.
그래서
2️⃣ 편차들의 곱을 쓰는 이유: “방향성을 파악하기 위해”
편차들의 곱인

은 단순한 수치가 아니라 두 변수가 같은 방향으로 움직이는지/반대로 움직이는지를 알려주는 핵심 지표입니다.
| x 편차 | y 편차 | 곱 | 의미 |
| + | + | + |
함께 증가 → 양의 상관 |
| - | - | + | 함께 감소 → 양의 상관 |
| + | - | - | 반대로 움직임 → 음의 상관 |
| - | + | - | 반대로 움직임 → 음의 상관 |
즉,
- 곱의 **부호(sign)**가 방향(양 or 음)을 알려주고
- 곱의 **크기(magnitude)**가 그 강도를 알려줍니다.
이 때문에 분자에 단순 합이 아닌 편차들의 곱의 합을 쓰는 것입니다.
3️⃣ 그런데 단순히 분자만 보면 안 된다: “스케일에 따라 값이 무한히 커질 수 있음”
예를 들어 x, y의 단위가 바뀌면(원 → 만원) 값의 범위도 달라지죠.
그러면 편차들의 곱도 함께 커져서 상관계수가 엉뚱한 값이 됩니다.
그래서 피어슨은 다음과 같은 생각을 했습니다:
"값의 크기(scale)의 영향을 없애려면 표준화된 형태로 만들어야겠다!"
그래서 분모에는 다음 두 개가 들어갑니다.

이는 각각 x와 y의 표준편차의 근사 형태이며,
결국 분모 전체는 두 변수의 변동성(scale)을 표준화(정규화)하는 역할을 합니다.
즉, 상관계수 r이 항상 -1 ~ 1 사이 값을 갖도록 만들어 줍니다.
정리하면
피어슨 상관계수 공식은
“두 변수가 평균 대비 같은 방향으로 얼마나 함께 움직이는지를,
각 변수의 스케일을 제거한 상태에서 비교한 값”
입니다.
그 결과
- +1이면 완전한 양의 직선관계
- -1이면 완전한 음의 직선관계
- 0이면 직선적 관련성이 없음
을 의미하게 됩니다.
피어슨 상관계수 공식을 보면 어렵게 느껴지지만
사실 다음 세 질문만 이해하면 자연스럽게 받아들여집니다.
- 평균에서 얼마나 벗어났는가? → 편차 사용
- 두 편차가 같은 방향인가? → 편차 곱 사용
- 단위 차이를 없애려면? → 표준화(분모)
즉 “방향성 + 강도 + 표준화”를 결합한 매우 논리적인 공식입니다.
'통계 이론' 카테고리의 다른 글
| [확률분포] 사상, 확률 및 확률분포 (0) | 2025.12.03 |
|---|---|
| 스피어만·켄달 순위상관 개념 (0) | 2025.12.02 |
| [기술통계] 분산 및 변동계수 (0) | 2025.11.30 |
| [기술통계] 평균의 종류 (0) | 2025.11.29 |
| 통계학으로 할 수 있는 것들 정리하기 (0) | 2025.11.29 |