[기술통계] 상관계수 정리

통계 이론

[기술통계] 상관계수 정리

Data Jun 2025. 12. 1. 21:42

통계에서 두 변수가 함께 움직이는 정도를 확인하고 싶을 때 가장 먼저 떠올리는 개념이 바로 **상관관계(correlation)**입니다.
예를 들어 공부시간과 점수, 운동량과 체중, 광고비와 매출 등 두 변수 간 "함께 증가하는지" 혹은 "한쪽이 증가할 때 다른 쪽이 감소하는지"를 알고 싶을 때 사용됩니다.

이때 이 관계를 하나의 수치로 표현한 것이 **상관계수(correlation coefficient)**입니다.
그 중 가장 널리 쓰이는 것이 **피어슨 적률상관계수(Pearson correlation coefficient)**인데, 교과서에 나오는 바로 그 공식이죠.

1. 피어슨 상관계수는 왜 이런 공식으로 계산될까?

우리가 흔히 보는 공식은 다음과 같습니다.

그런데 왜 공식은 처음 보면 꽤 복잡해 보입니다.

왜 단순히 x와 y의 차이를 비교하는 것이 아니라, 평균에서 뺀 값의 곱을 쓰고, 또 분모에 복잡한 루트를 끼워넣었을까?

아래에서 하나씩 이유를 설명합니다.

1️⃣ 평균을 빼는 이유: “기준점을 동일하게 맞추기 위해”

각 데이터는 x와 y 각각의 평균을 기준으로 얼마나 위/아래에 있는지를 나타내야 합니다.
왜냐하면 단순히 값 자체로 비교하면 다음 문제가 생기기 때문이죠.

x는 100~120 사이
y는 1~5 사이

이럴수록 스케일이 다르기 때문에 직접 비교가 어려워집니다.

그래서

2️⃣ 편차들의 곱을 쓰는 이유: “방향성을 파악하기 위해”

편차들의 곱인

은 단순한 수치가 아니라 두 변수가 같은 방향으로 움직이는지/반대로 움직이는지를 알려주는 핵심 지표입니다.

x 편차	y 편차	곱	의미
+	+	+	함께 증가 → 양의 상관
-	-	+	함께 감소 → 양의 상관
+	-	-	반대로 움직임 → 음의 상관
-	+	-	반대로 움직임 → 음의 상관

즉,

곱의 **부호(sign)**가 방향(양 or 음)을 알려주고
곱의 **크기(magnitude)**가 그 강도를 알려줍니다.

이 때문에 분자에 단순 합이 아닌 편차들의 곱의 합을 쓰는 것입니다.

3️⃣ 그런데 단순히 분자만 보면 안 된다: “스케일에 따라 값이 무한히 커질 수 있음”

예를 들어 x, y의 단위가 바뀌면(원 → 만원) 값의 범위도 달라지죠.
그러면 편차들의 곱도 함께 커져서 상관계수가 엉뚱한 값이 됩니다.

그래서 피어슨은 다음과 같은 생각을 했습니다:

"값의 크기(scale)의 영향을 없애려면 표준화된 형태로 만들어야겠다!"

그래서 분모에는 다음 두 개가 들어갑니다.

이는 각각 x와 y의 표준편차의 근사 형태이며,
결국 분모 전체는 두 변수의 변동성(scale)을 표준화(정규화)하는 역할을 합니다.

즉, 상관계수 r이 항상 -1 ~ 1 사이 값을 갖도록 만들어 줍니다.

정리하면

피어슨 상관계수 공식은

“두 변수가 평균 대비 같은 방향으로 얼마나 함께 움직이는지를,
각 변수의 스케일을 제거한 상태에서 비교한 값”
입니다.

그 결과

+1이면 완전한 양의 직선관계
-1이면 완전한 음의 직선관계
0이면 직선적 관련성이 없음
을 의미하게 됩니다.

피어슨 상관계수 공식을 보면 어렵게 느껴지지만
사실 다음 세 질문만 이해하면 자연스럽게 받아들여집니다.

평균에서 얼마나 벗어났는가? → 편차 사용
두 편차가 같은 방향인가? → 편차 곱 사용
단위 차이를 없애려면? → 표준화(분모)

즉 “방향성 + 강도 + 표준화”를 결합한 매우 논리적인 공식입니다.

'통계 이론' 카테고리의 다른 글

[확률분포] 사상, 확률 및 확률분포 (0)	2025.12.03
스피어만·켄달 순위상관 개념 (0)	2025.12.02
[기술통계] 분산 및 변동계수 (0)	2025.11.30
[기술통계] 평균의 종류 (0)	2025.11.29
통계학으로 할 수 있는 것들 정리하기 (0)	2025.11.29

현재글[기술통계] 상관계수 정리

Data Mastery: From Analysis to System De

span, 커피박 프로젝트(서울 행정동 별 카페 매출), 호박너구리, grid-row #, grid-template-areas, 카페 매출 분석(배달 서비스), Fast_Campus, grid-column #,

Today :
Yesterday :

일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

Data Mastery: From Analysis to System De