Database · 한장정리
[기술사토픽] 빅데이터 플랫폼 & 파이프라인 완벽 정리 - 한장정리
Hadoop·Spark 비교, Lambda·Kappa 아키텍처, Kafka 스트림처리, 데이터 레이크까지 기술사 빈출 주제를 완벽 정리합니다.
Ⅰ.빅데이터 3V & 플랫폼
개념: 빅데이터는 기존 DB로 처리 불가능한 대규모·고속·다양한 데이터를 말합니다. Gartner의 3V(Volume·Velocity·Variety)로 정의합니다.
| 특성 | 설명 | 해결 기술 |
|---|---|---|
| Volume(규모) | 테라바이트→페타바이트 데이터 | 분산 저장(HDFS·S3) |
| Velocity(속도) | 실시간·스트림 데이터 | Kafka·Flink·Spark Streaming |
| Variety(다양성) | 정형·반정형·비정형 데이터 | NoSQL·데이터레이크 |
| Veracity(정확성) | 데이터 품질·신뢰성 (4V) | 데이터 거버넌스·품질 관리 |
| Value(가치) | 비즈니스 인사이트 창출 (5V) | ML·분석·시각화 |
나. Hadoop vs Spark
| 구분 | Hadoop (MapReduce) | Spark |
|---|---|---|
| 처리 방식 | 디스크 기반 배치 처리 | 메모리 기반 처리 |
| 속도 | 느림 | 100배 빠름 (인메모리) |
| 실시간 처리 | 불가 (배치 전용) | 가능 (Spark Streaming) |
| ML 지원 | 약함 | MLlib 내장 |
| 적합 | 대용량 배치·저장 | 실시간·반복 처리·ML |
Ⅱ.빅데이터 아키텍처 패턴
구성도
수집
Kafka·Fluentd·Logstash
배치·스트리밍 수집
배치·스트리밍 수집
↓ 저장
저장
HDFS·S3·데이터 레이크
원본 데이터 보존
원본 데이터 보존
↓ 처리
배치 처리
Spark·MapReduce
대용량 일괄 처리
대용량 일괄 처리
스트림 처리
Flink·Spark Streaming
실시간 처리
실시간 처리
↓ 분석·시각화
분석·서비스
Hive·Presto·Tableau
ML 모델·대시보드
ML 모델·대시보드
가. Lambda 아키텍처
| 레이어 | 역할 | 기술 |
|---|---|---|
| 배치 레이어 | 전체 데이터 고정밀 처리 | Hadoop·Spark 배치 |
| 스피드 레이어 | 실시간 낮은 지연 처리 | Kafka·Spark Streaming·Flink |
| 서빙 레이어 | 배치+실시간 뷰 병합 제공 | HBase·Cassandra·ElasticSearch |
Lambda 문제점: 배치·스트림 두 코드베이스 유지 부담 → Kappa 아키텍처: 스트림만으로 통일.
나. 데이터 레이크 vs 데이터 웨어하우스
| 구분 | 데이터 레이크 | 데이터 웨어하우스 |
|---|---|---|
| 데이터 형태 | 원시 데이터 (정형+비정형) | 정제된 정형 데이터 |
| 스키마 | Schema on Read (읽을 때 정의) | Schema on Write (쓸 때 정의) |
| 처리 | ELT | ETL |
| 사용자 | 데이터 과학자 | 비즈니스 분석가 |
| 대표 기술 | S3·Azure Data Lake | Redshift·Snowflake·BigQuery |
시험 포인트
Lambda = 배치+스트림 이중화 / Kappa = 스트림만으로 통일.
데이터 레이크하우스(Lakehouse) = 데이터레이크 + DW 장점 통합 (Delta Lake·Apache Iceberg)
Ⅲ.결론
결론
빅데이터 플랫폼은 데이터의 수집·저장·처리·분석 전 과정을 자동화·최적화합니다.
향후 실시간 AI 추론 파이프라인과 데이터 메시(Data Mesh)로 발전합니다.
"데이터를 모으는 것은 쉽다. 의미 있는 인사이트를 만드는 것이 어렵다."
블로그: 기술사 학습노트 · imt-log.tistory.com
'데이터베이스' 카테고리의 다른 글
| SQL 핵심 문법과 쿼리 최적화 정리 (0) | 2026.04.06 |
|---|---|
| NoSQL 데이터베이스 종류와 특징 비교 정리 (0) | 2026.03.19 |
| 데이터베이스 인덱스 쿼리 최적화 완벽 정리 (0) | 2026.03.19 |
| 트랜잭션 ACID 동시성 제어 락 개념 정리 (0) | 2026.03.19 |
| 관계형 데이터베이스 정규화 1NF 2NF 3NF 정리 (0) | 2026.03.19 |