본문 바로가기
데이터베이스

GIGO(Garbage In, Garbage Out) 극복: 결측치 정제부터 스케일링까지 데이터 전처리 핵심 기법

by 매일기술사 2026. 6. 10.
데이터 전처리 - 기술사 학습노트
AI & Big Data · 정보관리기술사 / 컴퓨터시스템응용기술사

데이터 전처리(Data Preprocessing)

원천 데이터의 오류, 결측, 중복, 이상치, 형식 불일치, 스케일 차이, 불균형 문제를 정제·변환하여 분석과 인공지능 학습에 적합한 고품질 데이터셋으로 가공하는 과정

정보관리기술사컴퓨터시스템응용기술사데이터전처리결측치처리이상치처리데이터정제정규화특성공학차원축소데이터품질
Ⅰ.개요 및 등장배경

가. 데이터 전처리의 정의

데이터 전처리(Data Preprocessing)는 수집된 원천 데이터를 분석, 통계 처리, 머신러닝, 딥러닝, 시각화, 의사결정에 적합한 형태로 정리하고 가공하는 일련의 절차를 의미한다. 현실의 데이터는 결측치, 중복 데이터, 이상치, 오타, 단위 불일치, 범주 체계 상이, 날짜 형식 차이, 잡음, 불균형 분포 등 다양한 문제를 포함하는 경우가 많다. 따라서 전처리는 단순한 정리 작업이 아니라 데이터 품질을 확보하고 분석 결과의 신뢰성을 보장하는 기반 활동이다. 동일한 알고리즘을 사용하더라도 입력 데이터 품질에 따라 성능 차이가 크게 나타나므로, 전처리는 모델링 이전 단계에서 가장 많은 시간과 노력이 투입되는 핵심 실무 영역으로 인식된다.

기술사 답안에서는 데이터 전처리를 단순히 “결측치를 채우는 작업” 정도로 축소해서 설명하면 부족하다. 전처리는 데이터 정제, 통합, 변환, 축소, 균형화, 특성 공학, 검증을 포함하는 포괄적 개념이며, 데이터마이닝과 머신러닝의 성공 여부를 좌우하는 중요한 선행 단계이다. 또한 데이터 전처리는 AI 학습뿐 아니라 데이터 웨어하우스 구축, BI 분석, 예측 모델 개발, 품질 관리, 로그 분석, 사기 탐지, 추천 시스템 운영 등 거의 모든 데이터 기반 업무에 공통적으로 적용되는 범용 프로세스이다.

나. 등장배경

  • 데이터 폭증과 다양성 증가: 정형 데이터뿐 아니라 로그, 센서, 텍스트, 이미지, 스트리밍 데이터가 증가하면서 품질 편차가 커졌다.
  • 실데이터의 불완전성: 운영 시스템에서 수집된 데이터에는 누락, 입력 오류, 포맷 불일치, 중복이 빈번하게 존재한다.
  • AI·머신러닝 확산: 학습 데이터 품질이 모델 성능을 좌우하므로 전처리의 중요성이 크게 부각되었다.
  • 업무 자동화와 정량 의사결정 요구: 잘못된 데이터를 기반으로 한 분석은 오판을 유발하므로 사전 정제 체계가 필수화되었다.
  • 데이터 거버넌스 강화: 표준화, 품질관리, 메타데이터 관리, 재현 가능한 분석 프로세스가 요구되면서 전처리가 체계화되었다.

다. 데이터 전처리의 목적

데이터 전처리의 목적은 첫째, 원천 데이터의 오류와 잡음을 제거하여 신뢰 가능한 데이터를 확보하는 것이다. 둘째, 알고리즘이 처리 가능한 형태로 데이터를 변환하여 분석 효율과 모델 성능을 높이는 것이다. 셋째, 다양한 출처의 데이터를 통합하여 일관성 있는 데이터셋을 만드는 것이다. 넷째, 불필요한 속성이나 고차원 문제를 완화하여 계산 비용과 과적합 위험을 줄이는 것이다. 다섯째, 실제 업무에 바로 적용 가능한 데이터 품질 기준을 정립하고 재현 가능한 데이터 파이프라인을 구축하는 것이다.

데이터 전처리는 원천 데이터의 오류와 불완전성을 보정하고 분석·AI 학습에 적합한 형태로 가공하는 과정이다.
답안에서는 정제, 통합, 변환, 축소, 균형화, 특성 공학, 품질검증까지 포함하는 넓은 관점으로 설명해야 고득점형 구성이 된다.

Ⅱ.구성도 및 구성요소

가. 데이터 전처리 파이프라인 구성도

데이터 전처리 파이프라인 구조

원천 데이터를 수집한 뒤 품질을 점검하고 정제·변환·특성 공학을 수행하여 최종적으로 분석용 또는 학습용 데이터셋을 생성하는 흐름이다.

원천 데이터

운영 DB, 로그, 센서, 엑셀, CSV, API, 외부 데이터 등 다양한 출처의 원시 데이터

프로파일링

결측 비율, 분포, 이상값, 타입, 범주 수, 중복률을 진단하여 데이터 상태를 파악

정제(Cleansing)

결측치 보정, 오류 수정, 중복 제거, 이상치 처리, 불일치 데이터 정비

통합(Integration)

여러 시스템의 데이터를 키 기준으로 통합하고 스키마, 단위, 코드체계를 일치시킴

변환·가공

정규화, 표준화, 인코딩, 파생변수 생성, 로그변환, 구간화, 샘플링 수행

특성 공학

중요 변수 추출, 불필요 변수 제거, 차원 축소, 클래스 불균형 조정

검증

품질 기준 충족 여부, 누락 여부, 스키마 일치, 분포 왜곡 여부를 검증

최종 데이터셋

학습/검증/테스트용 또는 분석·리포팅용으로 분리된 고품질 데이터셋 생성

피드백

모델 성능과 현업 검증 결과를 반영하여 전처리 규칙과 품질 기준을 지속 개선

배치 전처리

정기 단위로 대량 데이터를 정제·가공하는 방식으로 ETL/ELT, 데이터 웨어하우스, 모델 재학습에 주로 사용된다.

실시간 전처리

스트리밍 데이터에 대해 즉시 필터링, 변환, 이상값 처리, 스키마 검증을 수행하는 방식으로 실시간 분석과 온라인 추론에 적합하다.

나. 구성요소

구분요소설명
입력원천 데이터운영 시스템, 로그, IoT, 웹, 파일, 외부 API 등 다양한 출처에서 수집된 원시 데이터이다.
진단데이터 프로파일링결측치 비율, 최대·최소값, 빈도분포, 중복률, 데이터 타입, 이상치를 사전에 분석하는 단계이다.
정제데이터 클렌징오류 수정, 중복 제거, 결측치 처리, 이상치 보정, 형식 통일을 수행한다.
통합데이터 통합다양한 출처의 데이터를 병합하고 식별자, 기준 시점, 코드 체계, 단위 체계를 맞춘다.
변환스케일링·인코딩표준화, 정규화, 원-핫 인코딩, 라벨 인코딩, 로그 변환 등을 통해 알고리즘 입력 형식으로 바꾼다.
가공특성 공학파생변수 생성, 특성 선택, 차원 축소, 클래스 불균형 조정 등 모델 성능 향상을 위한 처리를 수행한다.
품질관리검증 및 룰체크스키마 일치 여부, 제약조건 충족 여부, 품질 기준 통과 여부를 확인한다.
출력최종 데이터셋분석용, 학습용, 검증용, 테스트용 등 목적에 맞게 분리된 최종 데이터셋을 생성한다.

데이터 전처리는 원천 데이터, 프로파일링, 정제, 통합, 변환, 특성 공학, 검증, 최종 데이터셋 생성으로 구성된다.
Ⅱ.가 구성도에서는 데이터 품질 점검과 피드백 루프까지 포함해야 실제 운영형 전처리 구조를 잘 설명할 수 있다.

Ⅲ.동작방식 및 아키텍처

가. 전처리 수행 절차

  • 1단계 요구사항 정의: 분석 목적, 모델 목적, 품질 기준, 사용 변수, 목표 지표를 먼저 정의한다.
  • 2단계 데이터 수집: 내부 시스템과 외부 소스에서 관련 데이터를 수집하고 저장 구조를 파악한다.
  • 3단계 데이터 프로파일링: 결측, 중복, 타입 오류, 범주 수, 분포, 상관관계를 점검해 문제를 식별한다.
  • 4단계 정제 처리: 오류와 잡음을 제거하고, 결측치 보정, 이상치 처리, 중복 제거, 형식 일치를 수행한다.
  • 5단계 데이터 통합: 여러 출처의 데이터를 조인, 병합, 매핑하여 공통 기준으로 통합한다.
  • 6단계 변환 및 가공: 정규화, 표준화, 범주형 인코딩, 날짜 파생변수 생성, 로그 변환 등을 수행한다.
  • 7단계 특성 선택 및 축소: 중요 변수만 선별하거나 차원 축소를 통해 계산 효율과 일반화 성능을 높인다.
  • 8단계 학습용 데이터 분리: 학습·검증·테스트 셋으로 분리하고 데이터 누수를 방지한다.
  • 9단계 품질 검증: 전처리 결과가 품질 기준과 업무 기준을 만족하는지 검증한다.
  • 10단계 자동화 및 재사용: 전처리 절차를 파이프라인화하여 반복 작업과 운영 환경에 적용한다.

나. 주요 전처리 기법

기법내용주요 활용 포인트
결측치 처리삭제, 평균/중앙값 대체, 최빈값 대체, 보간, 모델 기반 대체결측 비율과 변수 의미를 고려해 방식을 선택해야 한다.
이상치 처리Z-Score, IQR, 박스플롯, 도메인 기준, 윈저라이징무조건 제거하지 말고 실제 이상현상인지 오류인지 구분해야 한다.
중복 제거완전 중복 또는 유사 중복 데이터를 식별해 제거중복 데이터는 분포 왜곡과 과대평가를 유발할 수 있다.
정규화/표준화Min-Max Scaling, Z-Score Standardization거리 기반 알고리즘이나 경사하강법 기반 학습에서 중요하다.
범주형 인코딩원-핫 인코딩, 라벨 인코딩, 빈도 인코딩, 타깃 인코딩모델 종류와 범주 수에 따라 적절한 방법을 선택한다.
불균형 처리오버샘플링, 언더샘플링, SMOTE, 가중치 조정 소수 클래스 예측 성능 개선에 효과적이다.
특성 선택필터 방식, 래퍼 방식, 임베디드 방식불필요한 변수를 제거해 과적합과 계산량을 줄인다.
차원 축소PCA, t-SNE, UMAP 등고차원 데이터를 저차원으로 압축하여 시각화와 학습 효율을 높인다.
파생변수 생성날짜 파생, 집계값, 비율, 이동평균, 상호작용 변수 생성도메인 지식을 반영하여 모델 설명력과 성능을 높인다.

다. 전처리 아키텍처

실무 전처리 아키텍처는 보통 데이터 수집 계층, 저장 계층, 처리 계층, 검증 계층, 제공 계층으로 구분된다. 데이터 수집 계층은 DB, 로그, API, 파일, 센서 등에서 데이터를 받아오며, 저장 계층은 데이터 레이크, 스테이징 영역, 운영 저장소에 원천 데이터를 적재한다. 처리 계층은 ETL/ELT 도구, 분산 처리 엔진, Python/R 스크립트, Spark, SQL 파이프라인 등을 통해 전처리를 수행한다. 검증 계층은 품질 룰, 스키마 검사, 표본 검토, 테스트 케이스로 전처리 결과를 확인한다. 제공 계층은 BI, 머신러닝 파이프라인, 모델 서빙, 데이터마트, API 형태로 최종 데이터를 전달한다.

라. 데이터 누수와 검증 이슈

전처리 과정에서 자주 발생하는 실무 문제 중 하나가 데이터 누수(Data Leakage)이다. 예를 들어 전체 데이터를 기준으로 평균값을 계산하여 학습 데이터와 테스트 데이터에 동시에 적용하면, 테스트 데이터의 정보가 학습 단계에 유입되어 성능이 과대평가될 수 있다. 따라서 스케일링, 결측치 대체, 특성 선택 등은 반드시 학습 데이터 기준으로 수행하고, 동일한 규칙을 검증·테스트 데이터에 적용해야 한다. 또한 시계열 데이터는 시간 순서를 지켜 분리해야 하며, 무작위 셔플이 오히려 잘못된 평가를 만들 수 있다.

마. 품질평가 지표

전처리 품질은 단순히 “데이터가 깨끗해 보이는지”로 판단할 수 없다. 결측률, 중복률, 오류율, 이상치 비중, 스키마 적합률, 표준 준수율, 분포 안정성, 데이터 일관성, 데이터 완전성 등의 지표를 함께 관리해야 한다. AI 학습 관점에서는 전처리 후 모델 정확도, 재현율, F1-score, ROC-AUC 향상 여부도 중요한 간접 지표가 된다. 따라서 데이터 품질 지표와 모델 성능 지표를 함께 보며 전처리 효과를 평가해야 한다.

데이터 전처리는 요구 정의부터 데이터 수집, 프로파일링, 정제, 통합, 변환, 특성 공학, 검증, 자동화까지 단계적으로 수행된다.
결측치 처리, 이상치 처리, 인코딩, 불균형 조정, 데이터 누수 방지, 품질 지표 관리가 실무 답안의 중요한 포인트이다.

Ⅳ.실무적용 및 사례

가. 분야별 적용 사례

분야전처리 적용 사례효과
금융이상거래 탐지를 위해 거래 로그 결측 보정, 범주 인코딩, 불균형 조정 수행사기 탐지 정확도 향상, 오탐 감소
유통구매 이력 데이터에서 중복 제거, 고객 세그먼트 변수 생성, 결측 보정 수행고객 분석 정밀화, 추천 품질 향상
제조설비 센서 데이터의 잡음 제거, 스무딩, 이상치 처리, 시간 동기화 수행예지보전 모델 안정성 향상
의료환자 데이터의 단위 통일, 누락 기록 처리, 비식별화, 변수 표준화 수행분석 신뢰성 강화, 규제 대응 용이
공공부처별 상이한 코드 체계와 날짜 형식을 통합하고 결측 값을 정비통합 행정 데이터 활용성 향상
보안로그 데이터에서 이상 이벤트 정규화, 중복 이벤트 제거, 세션 단위 파생변수 생성위협 탐지 품질 향상, 분석 속도 개선
AI 서비스텍스트 토큰 정제, 라벨 정합성 검증, 데이터 증강, 클래스 균형 조정 수행모델 일반화 성능 향상, 편향 완화

나. 실무 도입 절차

  • 업무 목적과 품질 목표를 먼저 정하고, 어떤 분석 결과를 얻고 싶은지 명확히 한다.
  • 원천 데이터의 출처와 책임자를 식별하여 수집 체계를 정리한다.
  • 데이터 프로파일링 도구 또는 SQL 분석으로 품질 현황을 수치화한다.
  • 품질 규칙과 전처리 룰을 정의하고, 예외 처리 기준을 문서화한다.
  • 파일럿 데이터를 통해 전처리 성능과 모델 반응을 검증한다.
  • 전처리 스크립트와 파이프라인을 자동화하여 재현 가능성을 확보한다.
  • 운영 단계에서 데이터 드리프트, 품질 저하, 분포 변화 여부를 지속 모니터링한다.

다. 주요 문제점과 대응 방안

문제점원인대응 방안
과도한 삭제결측치나 이상치를 모두 제거하여 데이터 손실 발생삭제 기준을 신중히 정하고 대체·보간 기법을 함께 검토한다.
도메인 무시통계 기준만으로 이상치를 제거하여 중요한 이벤트를 놓침업무 전문가와 협의하여 실제 의미를 판별한다.
데이터 누수전체 데이터를 기준으로 스케일링·선택을 수행학습 데이터 기준 룰 적용과 파이프라인 분리를 철저히 한다.
규칙 불일치팀별로 다른 전처리 기준 사용공통 품질 기준과 표준 전처리 규칙을 수립한다.
운영 미반영 분석용으로만 작성되어 실시간 서비스에 적용되지 않음배치와 실시간 파이프라인을 구분 설계하고 자동화를 강화한다.
재현성 부족수작업 처리와 임시 스크립트 의존버전관리, 파이프라인화, 데이터 라인리지 기록을 적용한다.

라. 실무 운영 포인트

전처리는 분석가 개인의 임시 작업으로 끝나면 안 된다. 조직 차원에서는 데이터 표준, 품질 규칙, 파이프라인 자동화, 재현성, 버전관리, 메타데이터 관리가 함께 체계화되어야 한다. 특히 AI 프로젝트에서는 학습용 데이터셋의 버전과 전처리 규칙이 모델 성능과 직접 연결되므로, 데이터셋 버전과 전처리 코드의 변경 이력을 함께 관리하는 것이 중요하다. 또한 실제 운영 환경에서는 입력 데이터 분포가 변하기 때문에, 최초 구축 이후에도 품질 모니터링과 재전처리 전략이 필요하다.

데이터 전처리는 금융, 유통, 제조, 의료, 공공, 보안, AI 서비스 등 거의 모든 산업 분야에서 필수로 적용된다.
실무에서는 도메인 지식, 품질 기준, 자동화, 재현성, 운영 연계성을 함께 고려해야 전처리 체계가 안정적으로 자리 잡는다.

Ⅴ.비교분석 및 발전전망

가. 데이터 정제·변환·축소 비교

구분목적주요 기법효과
데이터 정제오류, 결측, 이상값, 중복 제거결측 보정, 이상치 처리, 중복 제거, 형식 통일데이터 신뢰성 향상
데이터 변환알고리즘 입력 형식에 맞게 가공정규화, 표준화, 인코딩, 로그 변환, 구간화모델 학습 효율과 정확도 향상
데이터 축소복잡도 감소와 계산 효율 향상특성 선택, 샘플링, 차원 축소과적합 완화, 처리 속도 개선

나. 배치 전처리와 실시간 전처리 비교

구분배치 전처리실시간 전처리
처리 방식정기 단위로 대량 데이터 일괄 처리이벤트 발생 시 즉시 처리
적합 업무데이터 웨어하우스, 모델 재학습, 정산 분석온라인 추천, 실시간 탐지, 스트리밍 분석
장점안정적이고 대량 처리에 유리즉시성 확보와 서비스 반응성 향상
한계최신 반영 지연 가능성복잡한 품질 처리와 연산 비용 관리가 어려움

다. 데이터 전처리와 특성 공학 비교

구분데이터 전처리특성 공학
관점데이터 품질 확보와 형태 변환 중심모델 성능 향상을 위한 변수 설계 중심
범위정제, 통합, 변환, 검증까지 포함파생변수 생성, 특성 선택, 차원 축소 등
관계특성 공학은 데이터 전처리의 하위 또는 확장 활동으로 이해할 수 있으며, 전처리와 결합될 때 가장 큰 효과를 낸다.

라. 발전전망

  • 자동화 확대: AutoML, DataOps, MLOps와 결합되어 전처리 파이프라인 자동 생성과 검증 기능이 강화될 것이다.
  • 실시간 처리 강화: 스트리밍 데이터 기반 전처리와 온라인 피처 스토어 활용이 증가할 것이다.
  • 데이터 품질 지능화: AI가 결측치 보정, 이상탐지, 스키마 매핑, 정합성 검증을 지원하는 방향으로 발전할 것이다.
  • 거버넌스 연계 강화: 메타데이터, 데이터 카탈로그, 데이터 라인리지, 품질관리 체계와 전처리가 밀접하게 연결될 것이다.
  • 설명가능성과 윤리성 중요성 증가: 편향 제거, 공정성 확보, 개인정보 비식별화가 전처리 단계의 필수 항목으로 강화될 것이다.
  • 도메인 특화 전처리 고도화: 의료, 금융, 제조, 보안 분야별 특수 규칙을 반영한 전문 전처리 체계가 발전할 것이다.

마. 기술사 답안 정리

데이터 전처리 답안은 “정의 → 등장배경 → 파이프라인 구성도 → 구성요소 → 수행 절차 → 주요 기법 → 실무 적용 → 문제점 및 대응 → 비교분석 → 발전전망” 순으로 정리하면 안정적이다. 필수 키워드는 결측치 처리, 이상치 처리, 중복 제거, 정규화, 표준화, 인코딩, 특성 선택, 차원 축소, 불균형 처리, 데이터 누수 방지, 품질 검증이다. 또한 전처리는 분석의 부수 작업이 아니라 결과 신뢰도와 모델 성능을 결정하는 출발점이라는 점을 분명히 제시해야 한다. 마지막에는 DataOps, MLOps, 자동화, 스트리밍, 품질 거버넌스와 연결하면 최신성과 실무성을 확보할 수 있다.

답안 암기 포인트: “데이터 전처리 = 프로파일링 → 정제 → 통합 → 변환 → 특성 공학 → 검증 → 최종 데이터셋”으로 정리하면 전체 구조를 기억하기 쉽다.

데이터 전처리는 데이터 기반 분석과 AI 학습의 성패를 좌우하는 기반 활동으로, 품질 확보와 형태 변환을 동시에 수행한다.
향후에는 자동화, 실시간성, 거버넌스, 설명가능성, 윤리성이 결합되며 더욱 정교한 데이터 준비 체계로 발전할 것이다.

블로그: 기술사 학습노트 · imt-log.tistory.com