데이터 엔지니어링은
데이터를 수집하고, 가공하고, 활용 가능하게 제공하는 전 과정을 설계하고 구축하는 영역이다.
단순히 데이터를 옮기는 작업이 아니라,
데이터가 안정적으로 흐르도록 길을 만드는 일에 가깝다.
비유하면,
데이터 사이언티스트가 요리사라면
데이터 엔지니어는 주방과 물류 시스템을 설계하는 사람이다.
1. 데이터 엔지니어링의 개념
데이터 엔지니어링은 다음을 포함한다.
- 다양한 소스에서 데이터 수집
- 저장 구조 설계
- 처리·변환 파이프라인 구축
- 분석 및 서비스에 적합한 형태로 제공
- 인프라 및 자동화 시스템 운영
즉,
데이터 활용을 가능하게 만드는 기반 기술과 인프라 전반이 범위에 포함된다.
2. 데이터 엔지니어링의 수명 주기
데이터는 다음 단계를 거친다.
1) 생성 (Generate)
로그, IoT, 트랜잭션, API 등
다양한 소스에서 데이터가 만들어진다.
이 단계의 데이터는 형식이 제각각이다.
2) 수집 (Ingest)
여러 소스의 데이터를 한곳으로 모은다.
스트리밍 또는 배치 방식이 사용된다.
3) 저장 (Store)
수집된 데이터를 저장소에 보관한다.
데이터베이스, 데이터 레이크, 클라우드 스토리지 등이 활용된다.
4) 변환 (Transform)
정제, 정규화, 집계 등을 통해
분석 가능한 구조로 가공한다.
ETL/ELT 과정이 여기에 해당한다.
5) 서빙 (Serve)
가공된 데이터를 사용자에게 제공한다.
대시보드, API, AI 모델 학습 등이 이 단계에 포함된다.
6) 관리 (Govern & Monitor)
데이터 품질, 보안, 접근 권한, 무결성 등을 관리한다.
지속적인 모니터링과 신뢰성 확보가 핵심이다.
데이터 엔지니어링은 데이터가 생성부터 활용까지 안정적으로 흐르도록 설계하는 전 과정의 기술과 인프라 영역이다.
'데이터 엔지니어링(정리)' 카테고리의 다른 글
| OLTP와 OLAP의 개념 차이와 역할 구분 (0) | 2026.02.18 |
|---|---|
| 분산 처리, 분산 저장, 분산 컴퓨팅의 개념과 장단점 이해 (0) | 2026.02.18 |
| 데이터 레이크, 웨어하우스, 마트의 구조와 데이터 거버넌스 이해 (0) | 2026.02.18 |
| 데이터, 정보, 메타데이터 정리 (0) | 2026.02.18 |
| 데이터 엔지니어링이 중요한 이유: 효율성과 신뢰를 만드는 기반 구조 (0) | 2026.02.18 |