데이터가 커질수록
한 대의 서버로는 처리하기 어려워진다.
이때 등장하는 개념이
분산 처리, 분산 저장, 분산 컴퓨팅이다.
핵심은 단순하다.
한 대가 아니라 여러 대가 나눠서 일한다는 구조다.
비유하면,
혼자 문제를 푸는 것이 아니라
러 명이 문제를 나눠 풀고 결과를 합치는 방식이다.
1. 분산 저장 (Distributed Storage)
데이터를 여러 서버에 나누어 저장하는 구조다.
대용량 데이터를 하나의 디스크에 저장하지 않고
여러 노드에 분산해 저장한다.
대표 도구
- Hadoop HDFS
- Amazon S3
- Google Cloud Storage
목적
대용량 저장, 장애 발생 시 데이터 손실 방지, 확장성
2. 분산 처리 (Distributed Processing)
나누어 저장된 데이터를
여러 노드에서 동시에 처리하는 방식이다.
작업을 병렬로 수행하여 속도를 높인다.
대표 도구
- Apache Spark
- Hadoop MapReduce
- Flink
데이터를 나누는 것(저장)과
계산을 나누는 것(처리)은 다르다
3. 분산 컴퓨팅 (Distributed Computing)
여러 컴퓨터 자원을 연결해
하나의 시스템처럼 계산하는 구조다.
분산 저장 + 분산 처리까지 포함하는
상위 개념에 가깝다.
예시
- 클러스터 컴퓨팅
- 클라우드 인프라
- Kubernetes 기반 시스템
등이 있다
4. 분산 컴퓨팅의 장점
- 확장성
서버를 추가하면 성능 확장이 가능하다. - 장애 대응
일부 노드가 죽어도 전체 시스템은 유지된다. - 대용량 처리 가능
빅데이터 분석에 적합하다.
장점은 다음과 같음
5. 분산 컴퓨팅의 단점
- 설계 복잡성 증가
네트워크, 동기화, 데이터 일관성 문제가 발생한다. - 비용 증가
여러 서버를 운영해야 한다. - 디버깅 어려움
장애 원인 파악이 복잡하다.
단점은 다음과 같음
6. 정리
- 분산 저장 → 데이터를 나눠 저장
- 분산 처리 → 계산을 나눠 수행
- 분산 컴퓨팅 → 전체 시스템을 나눠 구성
분산 컴퓨팅은 여러 서버가 협력해 대용량 데이터를 처리하는 구조이며, 확장성과 안정성을 얻는 대신 설계와 운영 복잡성이 증가한다.
'데이터 엔지니어링(정리)' 카테고리의 다른 글
| 배치 처리와 스트리밍 처리란 (0) | 2026.02.19 |
|---|---|
| OLTP와 OLAP의 개념 차이와 역할 구분 (0) | 2026.02.18 |
| 데이터 레이크, 웨어하우스, 마트의 구조와 데이터 거버넌스 이해 (0) | 2026.02.18 |
| 데이터, 정보, 메타데이터 정리 (0) | 2026.02.18 |
| 데이터 엔지니어링이 중요한 이유: 효율성과 신뢰를 만드는 기반 구조 (0) | 2026.02.18 |