통계 이론

통계학으로 할 수 있는 것들 정리하기

Data Jun 2025. 11. 29. 18:27

우리가 일상에서 쓰는 수많은 서비스 뒤에는 항상 통계학이 숨어 있습니다.
“숫자 몇 개 요약하는 기술일 뿐 아니야?” 라고 생각하기 쉽지만, 실제로는

  • 현상을 요약하고(기술)
  • 표본에서 모집단을 추론하고(추측)
  • 실험을 설계하고(실험계획)
  • 여러 변수를 한꺼번에 다루고(중회귀·다변량 분석)
  • 기존 지식과 새로운 데이터를 통합해 판단하는(베이즈 통계)

등, 꽤 넓은 세계를 가지고 있습니다.

 

1. 기술통계학: 데이터를 “한눈에 보이게” 만드는 기술

기술통계(descriptive statistics) 는 말 그대로
데이터를 보기 좋게 정리하고 요약하는 통계입니다.

  • 평균, 중앙값, 최빈값
  • 분산, 표준편차, 범위
  • 히스토그램, 막대그래프, 상자그림(boxplot) 등

을 활용해, 데이터의 전반적인 분포와 경향을 파악합니다.

 

예를 들면,

  • 고객 연령대 분포를 보고 “우리 서비스의 핵심 타깃은 20~30대구나”
  • 점포별 매출의 평균과 분산을 비교해 “어디가 안정적으로 팔리는지” 확인
  • 설문조사 결과를 요약해서 “전반적 만족도”를 숫자로 표현

같은 것들이 모두 기술통계의 영역입니다.

 

포인트

기술통계는 ‘이미 모아진 데이터’를
요약·정리해서 의미를 뽑아내는 단계라고 보면 됩니다.

 

2. 추측통계학: 일부만 보고 전체를 추론하는 기술

추측통계(inferential statistics)
표본 데이터를 이용해서 보이지 않는 모집단의 특성을 추정하는 통계입니다.

 

현실에서 우리는 전체를 다 조사할 수 없기 때문에,
일부만 뽑아서 조사한 뒤 그 결과로 전체를 추측해야 합니다.

 

여기서는 주로 이런 개념들이 등장합니다.

  • 추정: 모집단 평균, 비율 등을 추정
  • 신뢰구간: “평균이 이 구간 안에 있을 것 같다”는 범위
  • 가설검정: 효과가 ‘진짜 있는지’ vs ‘우연인지’ 판단

예시를 생각해보면,

  • 보험 사고 데이터를 표본으로 보고, 향후 사고 발생 확률 추정
  • 새로운 광고 캠페인 이후의 매출 변화를 보고, 정말 광고 효과인지 검정
  • 특정 신약이 기존 약보다 효과가 좋은지, 임상시험 결과로 판단

등이 있습니다.

 

포인트

추측통계는 “표본만 가지고”
보이지 않는 전체의 성질을 역으로 추론하는 단계입니다.

 

3. 실험계획법: 제대로 비교하고, 제대로 결론 내리기

실험계획법(Experimental Design)
“어떻게 실험을 설계해야 결과를 믿을 수 있는가?”에 대한 분야입니다.

 

예를 들어,

  • 신제품 A와 기존 제품 B의 만족도를 비교할 때,
  • 어떤 사람들을, 어떻게 나누고,
  • 어떤 조건을 동일하게 맞춰야,
  • “A가 더 좋다 / 차이가 없다”는 결론을 믿을 수 있을까요?

실험계획법에서는

  • 무작위 배정(Randomization)
  • 반복(Replication)
  • 블로킹(Blocking, 조건 통제)
  • 요인설계(Factorial design)

같은 개념을 통해 신뢰할 수 있는 실험 구조를 만드는 데 집중합니다.

품질관리, 공정개선, 임상시험, 마케팅 A/B 테스트 등에서
실험계획법은 거의 필수로 등장합니다.

 

포인트

실험계획법은 *“데이터를 어떻게 모을 것인가”*에 대한 통계학입니다.
잘못 모은 데이터는, 아무리 고급 분석을 해도 소용이 없습니다.

 

4. 중회귀분석 · 다변량 분석: 여러 변수를 한 번에 다루는 통계

현실의 문제는 대부분

“하나의 결과(Y)가 여러 원인(X1, X2, X3…)의 영향을 함께 받는 상황”

입니다.


이럴 때 사용하는 대표적인 도구가 중회귀분석(multiple regression) 입니다.

 

예를 들면,

  • 집값 = 입지 + 평수 + 연식 + 학군 + 역세권 여부 …
  • 고객 이탈 여부 = 이용 기간 + 최근 사용 빈도 + 문의 이력 + 요금제 …

같은 식으로 여러 설명변수의 영향력을 동시에 추정합니다.

여기서 더 나아가,

  • 군집분석
  • 주성분분석(PCA)
  • 판별분석 등

여러 변수를 한꺼번에 처리하는 방법들을 묶어
다변량 분석(multivariate analysis) 이라고 부릅니다.

 

포인트

중회귀·다변량 분석은
‘여러 요인이 동시에 작용하는 복잡한 현실’을 모델로 단순화하는 역할을 합니다.

 

 

5. 베이즈 통계학: 기존 지식과 새로운 데이터를 합치는 사고방식

마지막으로 책에서는 베이즈 통계학(Bayesian statistics) 도 소개합니다.

베이즈 통계는,

  • 사전 정보(기존 지식)
  • 새로 관측된 데이터

를 결합해서,
사후 확률을 갱신하는 방식으로 세상을 보는 관점입니다.

 

예를 들어,

  • 스팸 메일 필터:
    • “원래 스팸일 확률” + “이 메일에 등장한 단어들”을 함께 고려해
      스팸 여부의 확률을 계속 업데이트
  • 추천 시스템:
    • “이 사용자는 이런 장르를 좋아한다”는 이전 정보 +
      최근 클릭/구매 데이터를 합쳐 취향을 갱신
  • 베이즈 A/B 테스트:
    • 기존 캠페인 성과 + 새로운 실험 결과를 결합해
      어느 쪽이 더 나은지 확률로 평가

같은 것들이 대표적인 베이즈적 사고입니다.

 

포인트

베이즈 통계는 “새로운 데이터를 받아들일 때,
기존 믿음을 어떻게 업데이트해야 하는가” 를 수학적으로 정의한 틀입니다.

 

 

정리하면

 

통계학은

  • 기술통계로 데이터를 요약하고
  • 추측통계로 보이지 않는 전체를 추론하고
  • 실험계획법으로 믿을 수 있는 데이터를 모으고
  • 중회귀·다변량 분석으로 여러 요인을 동시에 다루고
  • 베이즈 통계학으로 기존 지식과 새 데이터를 통합하는

꽤 넓고 강력한 도구입니다.

 

'통계 이론' 카테고리의 다른 글

[기술통계] 분산 및 변동계수  (0) 2025.11.30
[기술통계] 평균의 종류  (0) 2025.11.29
통계학이란???  (0) 2025.11.28
평균에도 종류가 있다고요?  (1) 2025.04.20
분할표(Contingency Table)란?  (0) 2025.03.31