본문 바로가기
데이터베이스

빅데이터 플랫폼과 분산처리(Hadoop·Spark) 정리

by 매일기술사 2026. 4. 9.
Database · 한장정리

[기술사토픽] 빅데이터 플랫폼 & 파이프라인 완벽 정리 - 한장정리

Hadoop·Spark 비교, Lambda·Kappa 아키텍처, Kafka 스트림처리, 데이터 레이크까지 기술사 빈출 주제를 완벽 정리합니다.

빅데이터HadoopSparkLambda아키텍처Kafka데이터레이크정보관리기술사

Ⅰ.빅데이터 3V & 플랫폼

개념: 빅데이터는 기존 DB로 처리 불가능한 대규모·고속·다양한 데이터를 말합니다. Gartner의 3V(Volume·Velocity·Variety)로 정의합니다.

특성설명해결 기술
Volume(규모)테라바이트→페타바이트 데이터분산 저장(HDFS·S3)
Velocity(속도)실시간·스트림 데이터Kafka·Flink·Spark Streaming
Variety(다양성)정형·반정형·비정형 데이터NoSQL·데이터레이크
Veracity(정확성)데이터 품질·신뢰성 (4V)데이터 거버넌스·품질 관리
Value(가치)비즈니스 인사이트 창출 (5V)ML·분석·시각화
나. Hadoop vs Spark
구분Hadoop (MapReduce)Spark
처리 방식디스크 기반 배치 처리메모리 기반 처리
속도느림100배 빠름 (인메모리)
실시간 처리불가 (배치 전용)가능 (Spark Streaming)
ML 지원약함MLlib 내장
적합대용량 배치·저장실시간·반복 처리·ML

Ⅱ.빅데이터 아키텍처 패턴

구성도
수집
Kafka·Fluentd·Logstash
배치·스트리밍 수집
↓ 저장
저장
HDFS·S3·데이터 레이크
원본 데이터 보존
↓ 처리
배치 처리
Spark·MapReduce
대용량 일괄 처리
스트림 처리
Flink·Spark Streaming
실시간 처리
↓ 분석·시각화
분석·서비스
Hive·Presto·Tableau
ML 모델·대시보드
가. Lambda 아키텍처
레이어역할기술
배치 레이어전체 데이터 고정밀 처리Hadoop·Spark 배치
스피드 레이어실시간 낮은 지연 처리Kafka·Spark Streaming·Flink
서빙 레이어배치+실시간 뷰 병합 제공HBase·Cassandra·ElasticSearch

Lambda 문제점: 배치·스트림 두 코드베이스 유지 부담 → Kappa 아키텍처: 스트림만으로 통일.

나. 데이터 레이크 vs 데이터 웨어하우스
구분데이터 레이크데이터 웨어하우스
데이터 형태원시 데이터 (정형+비정형)정제된 정형 데이터
스키마Schema on Read (읽을 때 정의)Schema on Write (쓸 때 정의)
처리ELTETL
사용자데이터 과학자비즈니스 분석가
대표 기술S3·Azure Data LakeRedshift·Snowflake·BigQuery
시험 포인트

Lambda = 배치+스트림 이중화 / Kappa = 스트림만으로 통일.
데이터 레이크하우스(Lakehouse) = 데이터레이크 + DW 장점 통합 (Delta Lake·Apache Iceberg)

Ⅲ.결론

결론

빅데이터 플랫폼은 데이터의 수집·저장·처리·분석 전 과정을 자동화·최적화합니다.
향후 실시간 AI 추론 파이프라인데이터 메시(Data Mesh)로 발전합니다.

"데이터를 모으는 것은 쉽다. 의미 있는 인사이트를 만드는 것이 어렵다."

블로그: 기술사 학습노트 · imt-log.tistory.com