데이터 엔지니어링(정리)

데이터 레이크, 웨어하우스, 마트의 구조와 데이터 거버넌스 이해

Data Jun 2026. 2. 18. 22:49

데이터 아키텍처를 이해할 때 가장 많이 등장하는 개념이
데이터 레이크, 데이터 웨어하우스, 데이터 마트다.

 

이 세 가지는 서로 다른 기술이 아니라
데이터를 저장하고 활용하는 방식에 대한 개념적 구조다.

 

비유하면,

  • 데이터 레이크는 “원재료 창고”
  • 데이터 웨어하우스는 “정리된 중앙 창고”
  • 데이터 마트는 “부서별 소형 매장”

이다.

 

1. 빅데이터의 등장과 한계

빅데이터는
기존 방식으로 다루기 어려울 만큼 방대하고 다양한 데이터다.

 

3V 개념으로 설명된다.

  • Volume(규모)
  • Velocity(속도)
  • Variety(다양성)

기존 데이터 웨어하우스는
정형 데이터 중심 구조였기 때문에
로그, 이미지, 영상 같은 다양한 형식에는 비효율적이었다.

 

2. 데이터 레이크

데이터 레이크는
구조화 여부와 관계없이 데이터를 그대로 저장하는 공간이다.

  • 구조화된 데이터
  • 로그
  • 이미지
  • 비디오

모든 데이터를 우선 모아두는 거대한 저장소다.

 

즉,
“가공 전 원시 데이터의 집합 장소”다.

데이터 레이크 설명 예

3. 데이터 웨어하우스

데이터 웨어하우스는
정제·변환된 구조화 데이터를 중앙에서 관리하는 시스템이다

 

특징은 다음과 같다.

  • 정형화된 데이터
  • 통합된 스키마
  • 분석에 최적화된 구조
  • 조직 전체 기준 데이터 관리

즉,
“분석을 위한 정리된 중앙 저장소”다.

 

4. 데이터 마트

데이터 마트는
데이터 웨어하우스에서 특정 부서 목적에 맞게 추출한 소규모 저장소다.

 

예를 들어,

  • 마케팅 팀용
  • 영업 팀용
  • 인사 팀용

처럼 부서별 분석 환경을 제공한다.

“목적 중심의 부서 전용 데이터 공간”이다.

데이터 마트 설명 예

 

5. 데이터 계층화 방법론

 

데이터는 보통 다음 구조로 흐른다.

 

데이터 레이크 → 정제·변환 → 데이터 웨어하우스 → 부서별 데이터 마트

 

이 구조를 데이터 계층화라고 한다.

 

이 계층화의 목적은

  • 원시 데이터 보존
  • 분석 효율성 확보
  • 부서별 맞춤 활용

을 동시에 달성하는 것이다.

데이터 계층화 방법론 예

 

6. 데이터 거버넌스

 

데이터 거버넌스는
데이터를 체계적으로 관리하기 위한 정책과 통제 체계다.

 

핵심 요소는 다음과 같다.

  • 품질 관리
  • 보안 관리
  • 접근 권한 통제
  • 표준 정의
  • 데이터 사용 규칙

데이터 레이크·웨어하우스·마트 구조가 잘 설계되어도
거버넌스가 없으면 신뢰할 수 없다.

데이터 거버넌스 예

 

7. 정리 

 

  • 데이터 레이크 → 원시 데이터 저장
  • 데이터 웨어하우스 → 정제된 통합 데이터
  • 데이터 마트 → 부서별 활용 데이터
  • 데이터 거버넌스 → 전체 관리 체계

데이터 레이크·웨어하우스·마트는 데이터를 단계적으로 정제하고 활용하기 위한 개념적 계층 구조이며, 거버넌스는 이를 신뢰 가능하게 만드는 관리 체계다.