우리가 일상에서 쓰는 수많은 서비스 뒤에는 항상 통계학이 숨어 있습니다.
“숫자 몇 개 요약하는 기술일 뿐 아니야?” 라고 생각하기 쉽지만, 실제로는
- 현상을 요약하고(기술)
- 표본에서 모집단을 추론하고(추측)
- 실험을 설계하고(실험계획)
- 여러 변수를 한꺼번에 다루고(중회귀·다변량 분석)
- 기존 지식과 새로운 데이터를 통합해 판단하는(베이즈 통계)
등, 꽤 넓은 세계를 가지고 있습니다.
1. 기술통계학: 데이터를 “한눈에 보이게” 만드는 기술
기술통계(descriptive statistics) 는 말 그대로
데이터를 보기 좋게 정리하고 요약하는 통계입니다.
- 평균, 중앙값, 최빈값
- 분산, 표준편차, 범위
- 히스토그램, 막대그래프, 상자그림(boxplot) 등
을 활용해, 데이터의 전반적인 분포와 경향을 파악합니다.
예를 들면,
- 고객 연령대 분포를 보고 “우리 서비스의 핵심 타깃은 20~30대구나”
- 점포별 매출의 평균과 분산을 비교해 “어디가 안정적으로 팔리는지” 확인
- 설문조사 결과를 요약해서 “전반적 만족도”를 숫자로 표현
같은 것들이 모두 기술통계의 영역입니다.
포인트
기술통계는 ‘이미 모아진 데이터’를
요약·정리해서 의미를 뽑아내는 단계라고 보면 됩니다.
2. 추측통계학: 일부만 보고 전체를 추론하는 기술
추측통계(inferential statistics) 는
표본 데이터를 이용해서 보이지 않는 모집단의 특성을 추정하는 통계입니다.
현실에서 우리는 전체를 다 조사할 수 없기 때문에,
일부만 뽑아서 조사한 뒤 그 결과로 전체를 추측해야 합니다.
여기서는 주로 이런 개념들이 등장합니다.
- 추정: 모집단 평균, 비율 등을 추정
- 신뢰구간: “평균이 이 구간 안에 있을 것 같다”는 범위
- 가설검정: 효과가 ‘진짜 있는지’ vs ‘우연인지’ 판단
예시를 생각해보면,
- 보험 사고 데이터를 표본으로 보고, 향후 사고 발생 확률 추정
- 새로운 광고 캠페인 이후의 매출 변화를 보고, 정말 광고 효과인지 검정
- 특정 신약이 기존 약보다 효과가 좋은지, 임상시험 결과로 판단
등이 있습니다.
포인트
추측통계는 “표본만 가지고”
보이지 않는 전체의 성질을 역으로 추론하는 단계입니다.
3. 실험계획법: 제대로 비교하고, 제대로 결론 내리기
실험계획법(Experimental Design) 은
“어떻게 실험을 설계해야 결과를 믿을 수 있는가?”에 대한 분야입니다.
예를 들어,
- 신제품 A와 기존 제품 B의 만족도를 비교할 때,
- 어떤 사람들을, 어떻게 나누고,
- 어떤 조건을 동일하게 맞춰야,
- “A가 더 좋다 / 차이가 없다”는 결론을 믿을 수 있을까요?
실험계획법에서는
- 무작위 배정(Randomization)
- 반복(Replication)
- 블로킹(Blocking, 조건 통제)
- 요인설계(Factorial design)
같은 개념을 통해 신뢰할 수 있는 실험 구조를 만드는 데 집중합니다.
품질관리, 공정개선, 임상시험, 마케팅 A/B 테스트 등에서
실험계획법은 거의 필수로 등장합니다.
포인트
실험계획법은 *“데이터를 어떻게 모을 것인가”*에 대한 통계학입니다.
잘못 모은 데이터는, 아무리 고급 분석을 해도 소용이 없습니다.
4. 중회귀분석 · 다변량 분석: 여러 변수를 한 번에 다루는 통계
현실의 문제는 대부분
“하나의 결과(Y)가 여러 원인(X1, X2, X3…)의 영향을 함께 받는 상황”
입니다.
이럴 때 사용하는 대표적인 도구가 중회귀분석(multiple regression) 입니다.
예를 들면,
- 집값 = 입지 + 평수 + 연식 + 학군 + 역세권 여부 …
- 고객 이탈 여부 = 이용 기간 + 최근 사용 빈도 + 문의 이력 + 요금제 …
같은 식으로 여러 설명변수의 영향력을 동시에 추정합니다.
여기서 더 나아가,
- 군집분석
- 주성분분석(PCA)
- 판별분석 등
여러 변수를 한꺼번에 처리하는 방법들을 묶어
다변량 분석(multivariate analysis) 이라고 부릅니다.
포인트
중회귀·다변량 분석은
‘여러 요인이 동시에 작용하는 복잡한 현실’을 모델로 단순화하는 역할을 합니다.
5. 베이즈 통계학: 기존 지식과 새로운 데이터를 합치는 사고방식
마지막으로 책에서는 베이즈 통계학(Bayesian statistics) 도 소개합니다.
베이즈 통계는,
- 사전 정보(기존 지식) 와
- 새로 관측된 데이터
를 결합해서,
사후 확률을 갱신하는 방식으로 세상을 보는 관점입니다.
예를 들어,
- 스팸 메일 필터:
- “원래 스팸일 확률” + “이 메일에 등장한 단어들”을 함께 고려해
스팸 여부의 확률을 계속 업데이트
- “원래 스팸일 확률” + “이 메일에 등장한 단어들”을 함께 고려해
- 추천 시스템:
- “이 사용자는 이런 장르를 좋아한다”는 이전 정보 +
최근 클릭/구매 데이터를 합쳐 취향을 갱신
- “이 사용자는 이런 장르를 좋아한다”는 이전 정보 +
- 베이즈 A/B 테스트:
- 기존 캠페인 성과 + 새로운 실험 결과를 결합해
어느 쪽이 더 나은지 확률로 평가
- 기존 캠페인 성과 + 새로운 실험 결과를 결합해
같은 것들이 대표적인 베이즈적 사고입니다.
포인트
베이즈 통계는 “새로운 데이터를 받아들일 때,
기존 믿음을 어떻게 업데이트해야 하는가” 를 수학적으로 정의한 틀입니다.
정리하면
통계학은
- 기술통계로 데이터를 요약하고
- 추측통계로 보이지 않는 전체를 추론하고
- 실험계획법으로 믿을 수 있는 데이터를 모으고
- 중회귀·다변량 분석으로 여러 요인을 동시에 다루고
- 베이즈 통계학으로 기존 지식과 새 데이터를 통합하는
꽤 넓고 강력한 도구입니다.
'통계 이론' 카테고리의 다른 글
| [기술통계] 분산 및 변동계수 (0) | 2025.11.30 |
|---|---|
| [기술통계] 평균의 종류 (0) | 2025.11.29 |
| 통계학이란??? (0) | 2025.11.28 |
| 평균에도 종류가 있다고요? (1) | 2025.04.20 |
| 분할표(Contingency Table)란? (0) | 2025.03.31 |