통계 이론 15

평균에도 종류가 있다고요?

– 가중평균, 기하평균, 조화평균 쉽게 이해하기"평균"이라고 하면 대부분 떠올리는 건 바로 산술 평균일 거예요.하지만 상황에 따라, 이보다 더 적절한 평균 계산 방법들이 존재합니다.오늘은 그중에서도 실생활과 통계에서 자주 사용되는 세 가지 평균을 살펴볼게요:📌 가중평균 (Weighted Mean)📌 기하평균 (Geometric Mean)📌 조화평균 (Harmonic Mean) 핵심 개념:"평균"이란 결국 '전체 값을 균등하게 나누면 얼마가 되나'를 묻는 질문이다.하지만, 무엇을 어떻게 '균등하게' 나눌지에 따라 방식이 달라질 수 있어요! 가중평균 – 중요도를 반영하는 평균📌 "더 중요한 값을 더 크게 반영하고 싶을 때" 사용하는 평균입니다.예를 들어, 중간고사(30%)와 기말고사(70%)로 성적이..

통계 이론 2025.04.20

분할표(Contingency Table)란?

두 개 이상의 범주형 변수 간의 관계를 분석할 때 사용하는 대표적인 통계 도구! 분할표란?범주형 변수들 간의 교차 빈도를 보여주는 표각각의 조합별로 **관측된 데이터의 개수(빈도수)**를 표시함예를 들어, 성별(남/여)과 제품 구매 여부(구매/비구매)에 대해 조사했다면:어디에 쓰일까?두 변수 사이의 연관성 파악예:성별에 따라 제품 구매율이 다를까?교육 수준에 따라 투표 성향이 달라질까?분석 방법분할표를 만들고 나면, 다음과 같은 분석이 가능해:행/열 비율 비교→ 어느 범주가 더 많은지 비율로 비교카이제곱 검정 (Chi-square test)→ 두 범주형 변수 간에 통계적으로 연관성이 있는지 확인  용어 정리  요약분할표는 범주형 변수 간의 관계를 파악하는 기본 도구쉽게 만들 수 있고, 통계 분석(카이제곱..

통계 이론 2025.03.31

그래프의 중요성

데이터 분석에서 그래프는 단순한 시각화 도구 그 이상이다.이 포스트에서는 그래프의 필요성과 활용 방법, 그리고 좋은 그래프를 그리기 위한 조건들을 하나씩 살펴본다.  그래프의 중요성  그래프란?인간이 가진 시각적 인지 능력을 활용하여 복잡한 현상을 직관적으로 이해하게 해주는 도구다.기능통계 데이터를 요약해 시각적으로 표현함으로써 그 특징이나 경향을 쉽게 파악할 수 있다.주의할 점그래프는 실제 데이터뿐만 아니라 시각적 인상을 강하게 주기 때문에,과도한 해석의 오류가 발생할 수 있음에 주의해야 한다.활용데이터를 시각화함으로써 이상치 탐지, 분석 방향 설정, 이후 통계 분석 준비에 도움을 준다.  Minard’s 그래프 - 역사적 사례  Minard’s graphic diagram (1868)나폴레옹의 러시아..

통계 이론 2025.03.30

[기술통계분석] 도수분포표

처음 통계 데이터를 다룰 때, 수많은 원자료(raw data)만 보고는 어떤 특징이나 분포를 파악하기 어려워요. 이럴 때 가장 유용한 것이 바로 **도수분포표(Frequency Table)**입니다.  도수분포표란?도수분포표는 데이터를 일정한 계급으로 나누고, 그 계급에 속하는 **데이터 개수(도수)**를 정리한 표입니다. 이를 통해 자료의 분포를 정돈된 형식으로 파악할 수 있어요.  위 데이터를 시각화하면 오른쪽과 같은 **막대그래프(Bar Chart)**로 표현할 수 있어요. 한눈에 어떤 학점이 많고 적은지, 분포는 어떤지 바로 파악 가능하죠! 누적비율이란?누적비율은 말 그대로 앞에서부터 해당 항목까지의 비율을 누적해서 더한 값입니다.도수분포표나 막대그래프 등에서 데이터를 순서대로 쌓아가며 얼마나 누..

통계 이론 2025.03.23

[기술통계분석] 자료와 척도

데이터 분석을 시작할 때 가장 먼저 확인해야 하는 것은 바로 자료의 종류와 척도입니다. 왜냐하면 자료의 특성에 따라 사용할 수 있는 분석 방법이 달라지기 때문이죠. 이번 글에서는 자료의 종류와 척도에 대해 간단하게 정리해보겠습니다. 자료의 두 가지 큰 분류자료는 크게 **범주형(Categorical)**과 **수치형(Numerical)**으로 나눌 수 있습니다.  1. 범주형 자료 (Qualitative / Categorical)명목형(Nominal): 순서가 없는 분류형 데이터예: 성별(M/F), 혈액형, 직업, 지역순서형(Ordinal): 순서가 있는 범주형 데이터예: 학력(고졸 보통 > 나쁨)2. 수치형 자료 (Quantitative / Numerical)등간척도(Interval): 일정한 간격은..

통계 이론 2025.03.23

[기술통계분석] 자료와 분석방법

자료 분석에서 가장 중요한 요소 중 하나는 바로 자료의 유형입니다. 자료의 유형에 따라 분석 방법이 달라지며, 분석 목적에 맞는 올바른 방법을 선택하는 것이 성공적인 분석의 첫 걸음입니다. 자료의 유형에 따라 어떤 통계 분석 방법을 사용할지 결정되므로, 자료의 성격을 명확하게 이해하는 것이 중요합니다.   자료의 유형과 분석 방법 자료의 유형에 따라 적합한 분석 방법이 달라집니다. 이미지에서처럼, 자료 유형에 맞춰 분석 방법을 선택할 수 있습니다.범주형 자료 분석 방법교차분석 (Chi-square test): 범주형 자료를 두 가지 이상의 그룹으로 나누어 비교할 때 사용합니다. (예: 성별에 따른 구매 패턴 비교)t-test: 두 개의 그룹 간 평균 차이를 비교할 때 유용한 방법입니다. (예: 남성과 여..

통계 이론 2025.03.16

[기술통계분석] 데이터 분석의 기본 개념: 개체, 요인, 변수, 척도, 자료

데이터 분석을 수행할 때, **개체(Subject), 요인(Factor), 변수(Variable), 척도(Measurement), 자료(Data)**와 같은 개념을 이해하는 것은 매우 중요합니다. 이 개념들이 어떻게 연결되는지 알아보고, 실제 분석에서 어떻게 활용되는지 살펴보겠습니다.개체 (Subject)관찰되는 대상을 의미합니다. 즉, 연구나 조사의 대상이 되는 사람, 사물, 현상 등을 뜻합니다.  예시"고등학교 3학년 학생"이 개체가 될 수 있음.기업 분석에서는 "한 회사"가 개체가 될 수 있음.요인 (Factor)연구자가 관심을 가지는 개체의 특정 특성을 의미합니다.요인은 연구 목적에 따라 다르게 정의될 수 있습니다.  예시대학입시 연구에서는 **"대학수학능력"**이 요인이 될 수 있음.마케팅 조사..

통계 이론 2025.03.09

표본 조사의 방법 Part2

표본추출은 모집단에서 일부를 선택하여 연구를 수행하는 과정에서 중요한 역할을 합니다. 표본이 모집단을 잘 대표하도록 하는 것이 핵심이며, **확률추출(Probability Sampling)**과 비확률추출(Non-Probability Sampling) 두 가지 방식이 주로 사용됩니다. 이번 글에서는 각 방법의 특징과 사례를 살펴보겠습니다. 확률추출 (Probability Sampling)확률추출은 모집단 내 모든 개체가 동일한 확률로 표본으로 선택될 수 있도록 하는 방식입니다. 이는 연구자의 주관이 개입되지 않도록 설계되며, 대표성을 높이기 위해 사용됩니다.  (1) 계통추출법 (Systematic Sampling)모집단에서 일정한 간격(k번째)마다 하나씩 표본을 선택하는 방법모집단이 크고 균등한 간격으..

통계 이론 2025.03.02

표본 조사의 방법

통계학에서 **모집단(population)**과 **표본(sample)**의 개념을 이해하는 것은 매우 중요합니다. 모집단은 우리가 관심을 갖는 연구 대상 전체의 집합을 의미하며, 표본은 모집단에서 일부를 선택한 것입니다. 모집단에서 표본을 어떻게 추출하느냐에 따라 결과의 신뢰성이 달라집니다.표본추출 방법의 차이와 사례Literary Digest vs. Gallup (1936년 미국 대선 예측)Literary Digest는 전화기, 자동차 보유자를 대상으로 한 대규모 표본(1,000만 명 중 236만 명 응답)을 사용했지만, 이는 주로 상위 계층에 속하는 사람들로 구성되어 모집단을 대표하지 못했습니다. 결과적으로 실제 선거 결과와 크게 어긋난 예측을 했습니다.Gallup은 무작위 할당 추출(Quota S..

통계 이론 2025.03.02

모집단과 표본

통계학에서 **모집단(population)**과 **표본(sample)**의 개념을 이해하는 것은 매우 중요합니다. 모집단은 우리가 관심을 갖는 연구 대상 전체의 집합을 의미하며, 표본은 모집단에서 일부를 선택한 것입니다. 모집단에서 표본을 어떻게 추출하느냐에 따라 결과의 신뢰성이 달라집니다. 모집단과 모수(Parameter)와 표본과 추정량(Estimator)모집단은 **상수(Constant)**의 성격을 가지며, 특정한 값이 변하지 않습니다. 모집단의 특성을 나타내는 수치를 **모수(parameter)**라고 하며, 대표적으로 다음과 같은 값들이 있습니다.평균(뮤): 모집단의 평균값비율(파이): 모집단 내 특정 특성을 가진 개체의 비율표준편차(시그마): 모집단의 데이터 분포를 나타내는 척도표본은 **..

통계 이론 2025.03.02