데이터 엔지니어링(정리)

분산 처리, 분산 저장, 분산 컴퓨팅의 개념과 장단점 이해

Data Jun 2026. 2. 18. 23:17

데이터가 커질수록
한 대의 서버로는 처리하기 어려워진다.

 

이때 등장하는 개념이
분산 처리, 분산 저장, 분산 컴퓨팅이다.

 

핵심은 단순하다.

한 대가 아니라 여러 대가 나눠서 일한다는 구조다.

 

비유하면,

혼자 문제를 푸는 것이 아니라
러 명이 문제를 나눠 풀고 결과를 합치는 방식이다.

 

1. 분산 저장 (Distributed Storage)

데이터를 여러 서버에 나누어 저장하는 구조다.

 

대용량 데이터를 하나의 디스크에 저장하지 않고
여러 노드에 분산해 저장한다.

 

대표 도구

  • Hadoop HDFS
  • Amazon S3
  • Google Cloud Storage

목적

 

대용량 저장, 장애 발생 시 데이터 손실 방지, 확장성

 

2. 분산 처리 (Distributed Processing)

나누어 저장된 데이터를
여러 노드에서 동시에 처리하는 방식이다.

 

작업을 병렬로 수행하여 속도를 높인다.

 

대표 도구

  • Apache Spark
  • Hadoop MapReduce
  • Flink

데이터를 나누는 것(저장)과

계산을 나누는 것(처리)은 다르다

 

3. 분산 컴퓨팅 (Distributed Computing)

여러 컴퓨터 자원을 연결해
하나의 시스템처럼 계산하는 구조다.

 

분산 저장 + 분산 처리까지 포함하는
상위 개념에 가깝다.

 

예시

  • 클러스터 컴퓨팅
  • 클라우드 인프라
  • Kubernetes 기반 시스템

등이 있다

 

4. 분산 컴퓨팅의 장점

  • 확장성
    서버를 추가하면 성능 확장이 가능하다.
  • 장애 대응
    일부 노드가 죽어도 전체 시스템은 유지된다.
  • 대용량 처리 가능
    빅데이터 분석에 적합하다.

장점은 다음과 같음

 

5. 분산 컴퓨팅의 단점

  • 설계 복잡성 증가
    네트워크, 동기화, 데이터 일관성 문제가 발생한다.
  • 비용 증가
    여러 서버를 운영해야 한다.
  • 디버깅 어려움
    장애 원인 파악이 복잡하다.

단점은 다음과 같음

 

6. 정리

  • 분산 저장 → 데이터를 나눠 저장
  • 분산 처리 → 계산을 나눠 수행
  • 분산 컴퓨팅 → 전체 시스템을 나눠 구성

분산 컴퓨팅은 여러 서버가 협력해 대용량 데이터를 처리하는 구조이며, 확장성과 안정성을 얻는 대신 설계와 운영 복잡성이 증가한다.