데이터 아키텍처를 이해할 때 가장 많이 등장하는 개념이
데이터 레이크, 데이터 웨어하우스, 데이터 마트다.
이 세 가지는 서로 다른 기술이 아니라
데이터를 저장하고 활용하는 방식에 대한 개념적 구조다.
비유하면,
- 데이터 레이크는 “원재료 창고”
- 데이터 웨어하우스는 “정리된 중앙 창고”
- 데이터 마트는 “부서별 소형 매장”
이다.
1. 빅데이터의 등장과 한계
빅데이터는
기존 방식으로 다루기 어려울 만큼 방대하고 다양한 데이터다.
3V 개념으로 설명된다.
- Volume(규모)
- Velocity(속도)
- Variety(다양성)
기존 데이터 웨어하우스는
정형 데이터 중심 구조였기 때문에
로그, 이미지, 영상 같은 다양한 형식에는 비효율적이었다.
2. 데이터 레이크
데이터 레이크는
구조화 여부와 관계없이 데이터를 그대로 저장하는 공간이다.
- 구조화된 데이터
- 로그
- 이미지
- 비디오
모든 데이터를 우선 모아두는 거대한 저장소다.
즉,
“가공 전 원시 데이터의 집합 장소”다.

3. 데이터 웨어하우스
데이터 웨어하우스는
정제·변환된 구조화 데이터를 중앙에서 관리하는 시스템이다
특징은 다음과 같다.
- 정형화된 데이터
- 통합된 스키마
- 분석에 최적화된 구조
- 조직 전체 기준 데이터 관리
즉,
“분석을 위한 정리된 중앙 저장소”다.
4. 데이터 마트
데이터 마트는
데이터 웨어하우스에서 특정 부서 목적에 맞게 추출한 소규모 저장소다.
예를 들어,
- 마케팅 팀용
- 영업 팀용
- 인사 팀용
처럼 부서별 분석 환경을 제공한다.
“목적 중심의 부서 전용 데이터 공간”이다.


5. 데이터 계층화 방법론
데이터는 보통 다음 구조로 흐른다.
데이터 레이크 → 정제·변환 → 데이터 웨어하우스 → 부서별 데이터 마트
이 구조를 데이터 계층화라고 한다.
이 계층화의 목적은
- 원시 데이터 보존
- 분석 효율성 확보
- 부서별 맞춤 활용
을 동시에 달성하는 것이다.


6. 데이터 거버넌스
데이터 거버넌스는
데이터를 체계적으로 관리하기 위한 정책과 통제 체계다.
핵심 요소는 다음과 같다.
- 품질 관리
- 보안 관리
- 접근 권한 통제
- 표준 정의
- 데이터 사용 규칙
데이터 레이크·웨어하우스·마트 구조가 잘 설계되어도
거버넌스가 없으면 신뢰할 수 없다.

7. 정리
- 데이터 레이크 → 원시 데이터 저장
- 데이터 웨어하우스 → 정제된 통합 데이터
- 데이터 마트 → 부서별 활용 데이터
- 데이터 거버넌스 → 전체 관리 체계
데이터 레이크·웨어하우스·마트는 데이터를 단계적으로 정제하고 활용하기 위한 개념적 계층 구조이며, 거버넌스는 이를 신뢰 가능하게 만드는 관리 체계다.
'데이터 엔지니어링(정리)' 카테고리의 다른 글
| OLTP와 OLAP의 개념 차이와 역할 구분 (0) | 2026.02.18 |
|---|---|
| 분산 처리, 분산 저장, 분산 컴퓨팅의 개념과 장단점 이해 (0) | 2026.02.18 |
| 데이터, 정보, 메타데이터 정리 (0) | 2026.02.18 |
| 데이터 엔지니어링이 중요한 이유: 효율성과 신뢰를 만드는 기반 구조 (0) | 2026.02.18 |
| 데이터 엔지니어링의 개념과 수명 주기 구조 (0) | 2026.02.18 |