Database · 한장정리

[기술사토픽] 빅데이터 플랫폼 & 파이프라인 완벽 정리 - 한장정리

Hadoop·Spark 비교, Lambda·Kappa 아키텍처, Kafka 스트림처리, 데이터 레이크까지 기술사 빈출 주제를 완벽 정리합니다.

빅데이터HadoopSparkLambda아키텍처Kafka데이터레이크정보관리기술사

Ⅰ.빅데이터 3V & 플랫폼

개념: 빅데이터는 기존 DB로 처리 불가능한 대규모·고속·다양한 데이터를 말합니다. Gartner의 3V(Volume·Velocity·Variety)로 정의합니다.

특성	설명	해결 기술
Volume(규모)	테라바이트→페타바이트 데이터	분산 저장(HDFS·S3)
Velocity(속도)	실시간·스트림 데이터	Kafka·Flink·Spark Streaming
Variety(다양성)	정형·반정형·비정형 데이터	NoSQL·데이터레이크
Veracity(정확성)	데이터 품질·신뢰성 (4V)	데이터 거버넌스·품질 관리
Value(가치)	비즈니스 인사이트 창출 (5V)	ML·분석·시각화

나. Hadoop vs Spark

구분	Hadoop (MapReduce)	Spark
처리 방식	디스크 기반 배치 처리	메모리 기반 처리
속도	느림	100배 빠름 (인메모리)
실시간 처리	불가 (배치 전용)	가능 (Spark Streaming)
ML 지원	약함	MLlib 내장
적합	대용량 배치·저장	실시간·반복 처리·ML

Ⅱ.빅데이터 아키텍처 패턴

구성도

수집

Kafka·Fluentd·Logstash
배치·스트리밍 수집

↓ 저장

저장

HDFS·S3·데이터 레이크
원본 데이터 보존

↓ 처리

배치 처리

Spark·MapReduce
대용량 일괄 처리

스트림 처리

Flink·Spark Streaming
실시간 처리

↓ 분석·시각화

분석·서비스

Hive·Presto·Tableau
ML 모델·대시보드

가. Lambda 아키텍처

레이어	역할	기술
배치 레이어	전체 데이터 고정밀 처리	Hadoop·Spark 배치
스피드 레이어	실시간 낮은 지연 처리	Kafka·Spark Streaming·Flink
서빙 레이어	배치+실시간 뷰 병합 제공	HBase·Cassandra·ElasticSearch

Lambda 문제점: 배치·스트림 두 코드베이스 유지 부담 → Kappa 아키텍처: 스트림만으로 통일.

나. 데이터 레이크 vs 데이터 웨어하우스

구분	데이터 레이크	데이터 웨어하우스
데이터 형태	원시 데이터 (정형+비정형)	정제된 정형 데이터
스키마	Schema on Read (읽을 때 정의)	Schema on Write (쓸 때 정의)
처리	ELT	ETL
사용자	데이터 과학자	비즈니스 분석가
대표 기술	S3·Azure Data Lake	Redshift·Snowflake·BigQuery

시험 포인트

Lambda = 배치+스트림 이중화 / Kappa = 스트림만으로 통일.
데이터 레이크하우스(Lakehouse) = 데이터레이크 + DW 장점 통합 (Delta Lake·Apache Iceberg)

Ⅲ.결론

결론

빅데이터 플랫폼은 데이터의 수집·저장·처리·분석 전 과정을 자동화·최적화합니다.
향후 실시간 AI 추론 파이프라인과 데이터 메시(Data Mesh)로 발전합니다.

"데이터를 모으는 것은 쉽다. 의미 있는 인사이트를 만드는 것이 어렵다."

블로그: 기술사 학습노트 · imt-log.tistory.com

'데이터베이스' 카테고리의 다른 글

SQL 핵심 문법과 쿼리 최적화 정리 (0)	2026.04.06
NoSQL 데이터베이스 종류와 특징 비교 정리 (0)	2026.03.19
데이터베이스 인덱스 쿼리 최적화 완벽 정리 (0)	2026.03.19
트랜잭션 ACID 동시성 제어 락 개념 정리 (0)	2026.03.19
관계형 데이터베이스 정규화 1NF 2NF 3NF 정리 (0)	2026.03.19

기술사 학습노트

빅데이터 플랫폼과 분산처리(Hadoop·Spark) 정리

[기술사토픽] 빅데이터 플랫폼 & 파이프라인 완벽 정리 - 한장정리

Ⅰ.빅데이터 3V & 플랫폼

Ⅱ.빅데이터 아키텍처 패턴

Ⅲ.결론

'데이터베이스' 카테고리의 다른 글

티스토리툴바

빅데이터 플랫폼과 분산처리(Hadoop·Spark) 정리

Ⅰ.빅데이터 3V & 플랫폼

Ⅱ.빅데이터 아키텍처 패턴

Ⅲ.결론

'데이터베이스' 카테고리의 다른 글

관련글

티스토리툴바