통계학으로 할 수 있는 것들 정리하기

통계 이론

통계학으로 할 수 있는 것들 정리하기

Data Jun 2025. 11. 29. 18:27

우리가 일상에서 쓰는 수많은 서비스 뒤에는 항상 통계학이 숨어 있습니다.
“숫자 몇 개 요약하는 기술일 뿐 아니야?” 라고 생각하기 쉽지만, 실제로는

현상을 요약하고(기술)
표본에서 모집단을 추론하고(추측)
실험을 설계하고(실험계획)
여러 변수를 한꺼번에 다루고(중회귀·다변량 분석)
기존 지식과 새로운 데이터를 통합해 판단하는(베이즈 통계)

등, 꽤 넓은 세계를 가지고 있습니다.

1. 기술통계학: 데이터를 “한눈에 보이게” 만드는 기술

기술통계(descriptive statistics) 는 말 그대로
데이터를 보기 좋게 정리하고 요약하는 통계입니다.

평균, 중앙값, 최빈값
분산, 표준편차, 범위
히스토그램, 막대그래프, 상자그림(boxplot) 등

을 활용해, 데이터의 전반적인 분포와 경향을 파악합니다.

예를 들면,

고객 연령대 분포를 보고 “우리 서비스의 핵심 타깃은 20~30대구나”
점포별 매출의 평균과 분산을 비교해 “어디가 안정적으로 팔리는지” 확인
설문조사 결과를 요약해서 “전반적 만족도”를 숫자로 표현

같은 것들이 모두 기술통계의 영역입니다.

포인트

기술통계는 ‘이미 모아진 데이터’를
요약·정리해서 의미를 뽑아내는 단계라고 보면 됩니다.

2. 추측통계학: 일부만 보고 전체를 추론하는 기술

추측통계(inferential statistics) 는
표본 데이터를 이용해서 보이지 않는 모집단의 특성을 추정하는 통계입니다.

현실에서 우리는 전체를 다 조사할 수 없기 때문에,
일부만 뽑아서 조사한 뒤 그 결과로 전체를 추측해야 합니다.

여기서는 주로 이런 개념들이 등장합니다.

추정: 모집단 평균, 비율 등을 추정
신뢰구간: “평균이 이 구간 안에 있을 것 같다”는 범위
가설검정: 효과가 ‘진짜 있는지’ vs ‘우연인지’ 판단

예시를 생각해보면,

보험 사고 데이터를 표본으로 보고, 향후 사고 발생 확률 추정
새로운 광고 캠페인 이후의 매출 변화를 보고, 정말 광고 효과인지 검정
특정 신약이 기존 약보다 효과가 좋은지, 임상시험 결과로 판단

등이 있습니다.

포인트

추측통계는 “표본만 가지고”
보이지 않는 전체의 성질을 역으로 추론하는 단계입니다.

3. 실험계획법: 제대로 비교하고, 제대로 결론 내리기

실험계획법(Experimental Design) 은
“어떻게 실험을 설계해야 결과를 믿을 수 있는가?”에 대한 분야입니다.

예를 들어,

신제품 A와 기존 제품 B의 만족도를 비교할 때,
어떤 사람들을, 어떻게 나누고,
어떤 조건을 동일하게 맞춰야,
“A가 더 좋다 / 차이가 없다”는 결론을 믿을 수 있을까요?

실험계획법에서는

무작위 배정(Randomization)
반복(Replication)
블로킹(Blocking, 조건 통제)
요인설계(Factorial design)

같은 개념을 통해 신뢰할 수 있는 실험 구조를 만드는 데 집중합니다.

품질관리, 공정개선, 임상시험, 마케팅 A/B 테스트 등에서
실험계획법은 거의 필수로 등장합니다.

포인트

실험계획법은 *“데이터를 어떻게 모을 것인가”*에 대한 통계학입니다.
잘못 모은 데이터는, 아무리 고급 분석을 해도 소용이 없습니다.

4. 중회귀분석 · 다변량 분석: 여러 변수를 한 번에 다루는 통계

현실의 문제는 대부분

“하나의 결과(Y)가 여러 원인(X1, X2, X3…)의 영향을 함께 받는 상황”

입니다.

이럴 때 사용하는 대표적인 도구가 중회귀분석(multiple regression) 입니다.

예를 들면,

집값 = 입지 + 평수 + 연식 + 학군 + 역세권 여부 …
고객 이탈 여부 = 이용 기간 + 최근 사용 빈도 + 문의 이력 + 요금제 …

같은 식으로 여러 설명변수의 영향력을 동시에 추정합니다.

여기서 더 나아가,

군집분석
주성분분석(PCA)
판별분석 등

여러 변수를 한꺼번에 처리하는 방법들을 묶어
다변량 분석(multivariate analysis) 이라고 부릅니다.

포인트

중회귀·다변량 분석은
‘여러 요인이 동시에 작용하는 복잡한 현실’을 모델로 단순화하는 역할을 합니다.

5. 베이즈 통계학: 기존 지식과 새로운 데이터를 합치는 사고방식

마지막으로 책에서는 베이즈 통계학(Bayesian statistics) 도 소개합니다.

베이즈 통계는,

사전 정보(기존 지식) 와
새로 관측된 데이터

를 결합해서,
사후 확률을 갱신하는 방식으로 세상을 보는 관점입니다.

예를 들어,

스팸 메일 필터:
- “원래 스팸일 확률” + “이 메일에 등장한 단어들”을 함께 고려해
  스팸 여부의 확률을 계속 업데이트
추천 시스템:
- “이 사용자는 이런 장르를 좋아한다”는 이전 정보 +
  최근 클릭/구매 데이터를 합쳐 취향을 갱신
베이즈 A/B 테스트:
- 기존 캠페인 성과 + 새로운 실험 결과를 결합해
  어느 쪽이 더 나은지 확률로 평가

같은 것들이 대표적인 베이즈적 사고입니다.

포인트

베이즈 통계는 “새로운 데이터를 받아들일 때,
기존 믿음을 어떻게 업데이트해야 하는가” 를 수학적으로 정의한 틀입니다.

정리하면

통계학은

기술통계로 데이터를 요약하고
추측통계로 보이지 않는 전체를 추론하고
실험계획법으로 믿을 수 있는 데이터를 모으고
중회귀·다변량 분석으로 여러 요인을 동시에 다루고
베이즈 통계학으로 기존 지식과 새 데이터를 통합하는

꽤 넓고 강력한 도구입니다.

'통계 이론' 카테고리의 다른 글

[기술통계] 분산 및 변동계수 (0)	2025.11.30
[기술통계] 평균의 종류 (0)	2025.11.29
통계학이란??? (0)	2025.11.28
평균에도 종류가 있다고요? (1)	2025.04.20
분할표(Contingency Table)란? (0)	2025.03.31

현재글통계학으로 할 수 있는 것들 정리하기

Data Mastery: From Analysis to System De

카페 매출 분석(배달 서비스), grid-column #, span, 호박너구리, grid-row #, 커피박 프로젝트(서울 행정동 별 카페 매출), Fast_Campus, grid-template-areas,

Today :
Yesterday :

일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

Data Mastery: From Analysis to System De