본문 바로가기
AI빅데이터

데이터의 본질을 추출하다: 주성분 분석(PCA)과 t-SNE를 활용한 차원 축소 원리

by 매일기술사 2026. 5. 26.
차원 축소 Dimensionality Reduction - 기술사 학습노트
Artificial Intelligence · 정보관리기술사 / 컴퓨터시스템응용기술사

차원 축소(Dimensionality Reduction)

고차원 데이터의 희소성·거리 집중·계산량·과적합 문제를 완화하기 위해 정보 손실을 통제하며 저차원 표현으로 변환하는 특징공학 기법

정보관리기술사컴퓨터시스템응용기술사차원축소PCALDAtSNEUMAP오토인코더차원의저주설명분산비율
Ⅰ.개요 및 등장배경

가. 정의

차원 축소는 d개의 고차원 특징을 k개의 저차원 표현으로 변환하여 원본 데이터의 중요한 구조, 분산, 판별 정보, 이웃 관계 또는 잠재 표현을 최대한 보존하는 데이터 변환 기법이다. 문서 데이터의 단어 벡터, 이미지의 픽셀 벡터, 유전체의 유전자 발현값, 고객 행동 로그, 대규모 임베딩처럼 특징 수가 매우 많은 데이터에서는 계산량 증가, 노이즈 누적, 과적합, 거리 기반 알고리즘 성능 저하가 발생한다. 차원 축소는 이러한 문제를 완화하면서 분류, 군집, 이상 탐지, 시각화, 압축, 노이즈 제거의 전처리 단계로 활용된다.

나. 등장배경

  • 차원의 저주: 차원이 증가할수록 데이터 공간의 부피가 급격히 커지고, 동일 밀도를 유지하기 위한 표본 수가 폭발적으로 증가한다.
  • 거리 집중 현상: 고차원 공간에서는 가까운 점과 먼 점의 거리 차이가 줄어들어 KNN, 군집화, 이상 탐지의 분별력이 약해진다.
  • 다중공선성과 중복 특징: 상관성이 큰 변수가 많으면 정보량보다 표현 차원만 커져 모델이 불안정해지고 계산 비용이 증가한다.
  • 시각화 한계: 사람이 이해할 수 있는 공간은 주로 2차원 또는 3차원이므로 고차원 구조를 저차원으로 표현해야 한다.
  • 운영 효율 요구: 저장공간, 학습시간, 추론 지연, 메모리 사용량을 줄이기 위해 압축된 특징 표현이 필요하다.

다. 분류 관점

차원 축소는 크게 특징 선택과 특징 추출로 구분된다. 특징 선택은 원본 변수 중 일부를 선택하여 의미 해석이 쉽고 규제 산업에서 설명이 유리하다. 특징 추출은 여러 원본 변수를 조합해 새로운 축을 만들며, PCA, LDA, t-SNE, UMAP, 오토인코더가 여기에 해당한다. 또한 선형 기법과 비선형 기법, 비지도 기법과 지도 기법으로 나눌 수 있다. PCA는 레이블 없이 분산 보존을 목표로 하는 선형 비지도 기법이고, LDA는 레이블을 활용해 클래스 분리도를 높이는 선형 지도 기법이다. t-SNE와 UMAP은 비선형 이웃 구조 보존에 강하고, 오토인코더는 신경망 기반 잠재 표현 학습에 적합하다.

차원 축소는 고차원 데이터의 희소성, 노이즈, 계산량, 과적합, 시각화 한계를 줄이는 전처리·표현학습 기법이다.
답안에서는 특징 선택과 특징 추출, 선형과 비선형, 비지도와 지도 기법을 구분해 설명해야 한다.

Ⅱ.구성도 및 구성요소

가. 차원 축소 구성도

Dimensionality Reduction Architecture 고차원 특징 행렬을 전처리한 뒤 목적에 맞는 축소 기법을 적용하고, 저차원 표현을 후속 분석·시각화·운영 모델에 활용한다. 고차원 데이터 X ∈ Rⁿˣᵈ 문서·이미지·유전체·센서 전처리 결측·이상치 처리 중심화·표준화 학습/검증 분리 데이터 누수 방지 스케일 점검 차원 축소기 PCA LDA t-SNE UMAP Autoencoder 분산·분리도·이웃구조·재구성오차 최적화 저차원 표현 Z ∈ Rⁿˣᵏ, k≪d 주성분 점수·잠재벡터·임베딩 좌표 평가 및 활용 체계 평가 지표 설명분산·재구성오차 후속 모델 분류·군집·이상탐지 시각화 2D·3D 구조 탐색 운영 관리 재현성·파라미터 기록 선택 기준: 레이블 유무, 선형성, 해석 요구, 시각화 목적, 계산 예산, 데이터 규모, 다운스트림 성능 개선 여부 핵심 흐름: 고차원 특징 행렬 → 표준화·정제 → 목적별 축소 기법 선택 → 저차원 표현 → 평가·시각화·모델 입력·운영 적용

나. 구성요소

구분요소설명
입력특징 행렬 Xn개의 표본과 d개의 특징으로 구성된 행렬이다. 차원이 높을수록 계산량과 과적합 위험이 증가하므로 축소 대상이 된다.
전처리중심화·표준화PCA처럼 분산 기반 기법은 변수 스케일에 민감하므로 평균 제거와 표준화가 중요하다.
축소 방식특징 선택원본 변수 중 일부를 선택하는 방식으로 원변수 의미가 유지되어 해석이 쉽다.
축소 방식특징 추출여러 원본 변수를 조합하여 새로운 저차원 축을 만드는 방식으로 PCA, LDA, 오토인코더 등이 포함된다.
선형 기법PCA·LDAPCA는 분산 보존, LDA는 클래스 분리 극대화를 목표로 선형 투영을 수행한다.
비선형 기법t-SNE·UMAP고차원 이웃 구조를 저차원 공간에 보존하여 시각화와 탐색 분석에 활용한다.
신경망 기법Autoencoder인코더로 잠재 벡터를 만들고 디코더로 원본을 복원하며 재구성 오차를 최소화한다.
평가설명분산·재구성오차·Trustworthiness목적에 따라 분산 보존, 복원 품질, 이웃 구조 보존, 후속 모델 성능을 평가한다.
출력저차원 표현 Z주성분 점수, 판별축, 임베딩 좌표, 잠재 벡터 형태로 후속 분석에 사용된다.
운영재현성·해석성·파라미터 기록random seed, perplexity, n_neighbors, min_dist, 축소 차원 수 등 설정을 기록해야 결과 재현이 가능하다.

차원 축소 구성요소는 입력 특징 행렬, 전처리, 축소 모형, 목적 함수, 평가 지표, 저차원 표현, 후속 활용으로 정리된다.
Ⅱ.가 구성도에서는 고차원 데이터가 전처리와 목적별 축소기를 거쳐 저차원 표현과 후속 분석으로 이어지는 흐름을 보여주는 것이 좋다.

Ⅲ.동작방식 및 아키텍처

가. PCA의 동작 원리

PCA는 데이터의 분산이 가장 큰 방향을 새로운 축으로 선택하는 대표적인 선형 비지도 차원 축소 기법이다. 먼저 데이터의 평균을 제거하고 필요 시 표준화한 뒤 공분산 행렬을 계산한다. 이후 공분산 행렬의 고유값과 고유벡터를 구하고, 고유값이 큰 순서대로 주성분 축을 선택한다. 선택된 상위 k개의 고유벡터로 투영 행렬을 구성하여 원본 데이터를 저차원 공간으로 변환한다. 고유값은 각 주성분이 설명하는 분산의 크기를 의미하고, 설명분산비율은 선택한 주성분이 원본 정보의 어느 정도를 보존하는지 판단하는 기준이 된다.

나. LDA, t-SNE, UMAP의 동작 원리

LDA는 레이블 정보를 활용하여 클래스 간 분산은 크게 하고 클래스 내부 분산은 작게 하는 방향을 찾는 지도학습 기반 차원 축소 기법이다. 분류 성능 향상을 목적으로 사용할 수 있지만 결과 차원 수는 최대 클래스 수에서 1을 뺀 값으로 제한된다. t-SNE는 고차원 공간에서 가까운 이웃 관계를 확률 분포로 표현하고 저차원 공간에서도 유사한 이웃 관계가 유지되도록 최적화한다. 국소 군집 구조를 잘 보여주지만 군집 간 거리나 전체 크기를 정량적으로 해석하는 데는 주의가 필요하다. UMAP은 매니폴드 가정과 근접 그래프를 기반으로 고차원 위상 구조를 저차원에 보존하려는 기법이며, t-SNE보다 대규모 데이터에 비교적 빠르게 적용할 수 있다.

다. 오토인코더 기반 아키텍처

오토인코더는 입력을 압축하는 인코더와 압축 표현으로부터 원본을 복원하는 디코더로 구성된다. 병목층의 잠재 벡터가 저차원 표현이며, 모델은 입력과 복원값의 차이인 재구성 오차를 최소화하도록 학습된다. 선형 오토인코더는 PCA와 유사한 효과를 낼 수 있지만, 비선형 활성화와 깊은 구조를 사용하면 복잡한 매니폴드 구조를 학습할 수 있다. 노이즈 오토인코더는 노이즈에 강한 표현을, 희소 오토인코더는 일부 뉴런만 활성화되는 압축 표현을, 변분 오토인코더는 확률적 잠재 공간을 학습한다.

라. 알고리즘별 목적 함수

기법목적주요 해석
PCA투영 후 분산 최대화 또는 재구성 오차 최소화전체 데이터 변동성을 가장 잘 보존하는 선형 축을 찾는다.
LDA클래스 간 분산 최대화와 클래스 내 분산 최소화분류에 유리한 판별축을 찾는다.
t-SNE고차원과 저차원의 이웃 확률분포 차이 최소화국소 이웃 관계와 군집 구조를 시각적으로 드러낸다.
UMAP근접 그래프의 위상 구조 보존국소 구조와 일부 전역 구조를 균형 있게 표현한다.
Autoencoder입력 복원 오차 최소화비선형 잠재 표현을 학습한다.

PCA는 분산 보존, LDA는 클래스 분리, t-SNE와 UMAP은 이웃 구조 보존, 오토인코더는 재구성 오차 최소화를 목표로 한다.
차원 축소 알고리즘 선택은 데이터 특성보다 먼저 분석 목적과 평가 기준을 명확히 한 뒤 결정해야 한다.

Ⅳ.실무적용 및 사례

가. 적용 분야

분야적용 방식활용 효과
금융 이상탐지거래 특징을 PCA로 압축하거나 오토인코더 재구성 오차로 이상 후보를 탐지한다.중복 특징과 노이즈를 줄이고 이상 거래 후보를 효율적으로 식별한다.
제조 센서 분석다수 센서 채널을 주성분으로 압축해 공정 상태를 모니터링한다.노이즈 완화, 상태 변화 감지, 품질 예측 모델 안정화에 활용한다.
문서 임베딩 분석고차원 문서 임베딩을 UMAP이나 t-SNE로 2차원 시각화한다.주제 군집, 중복 문서, 이상 문서, 검색 품질을 탐색적으로 확인한다.
바이오·의료유전자 발현 데이터나 의료 영상 특징을 축소하여 분류·군집에 활용한다.질환 아형 탐색, 환자군 분리, 고차원 노이즈 감소에 활용한다.
고객 분석행동 변수와 구매 이력을 저차원 잠재 요인으로 변환한다.고객 세분화, 이탈 예측, 마케팅 타깃팅의 안정성을 높인다.
영상·음성 AI특징 벡터나 임베딩을 압축하여 검색과 추론 비용을 줄인다.벡터DB 저장비용 감소, 검색 속도 향상, 모델 경량화에 기여한다.

나. 실무 수행 절차

  • 1단계 목적 정의: 시각화, 압축, 노이즈 제거, 분류 성능 향상, 이상 탐지 중 목적을 명확히 한다.
  • 2단계 데이터 점검: 변수 스케일, 결측치, 이상치, 상관관계, 희소성, 레이블 유무를 확인한다.
  • 3단계 전처리: 학습 데이터 기준으로 표준화기를 적합하고 검증·테스트에는 동일 변환만 적용한다.
  • 4단계 기법 선택: 해석성이 중요하면 PCA/LDA, 시각화는 t-SNE/UMAP, 비선형 잠재 표현은 오토인코더를 고려한다.
  • 5단계 차원 수 결정: PCA는 누적 설명분산비율, LDA는 클래스 수, 오토인코더는 검증 재구성 오차, 시각화는 목적 차원 수를 기준으로 정한다.
  • 6단계 결과 평가: 축소 전후 후속 모델 성능, 군집 품질, 시각화 안정성, 재구성 오차를 확인한다.
  • 7단계 운영 반영: 축소 모델, 표준화기, 파라미터, random seed, 버전을 함께 저장하여 재현성을 확보한다.

다. 운영상 유의사항

  • 데이터 누수 방지: 전체 데이터로 PCA를 학습한 뒤 훈련·테스트를 나누면 테스트 정보가 학습 과정에 유입된다.
  • 표준화 필요성: 분산 기반 기법은 변수 단위 차이에 민감하므로 표준화 여부를 반드시 기록해야 한다.
  • 시각화 오해 방지: t-SNE와 UMAP 결과의 군집 간 거리를 원공간의 실제 거리로 단정하면 안 된다.
  • 재현성 확보: random seed, perplexity, n_neighbors, min_dist, learning rate 등 파라미터를 기록해야 한다.
  • 해석 가능성 검토: 규제 산업에서는 주성분 로딩, 원변수 기여도, 설명분산비율을 함께 제시하는 것이 좋다.

라. 실무 팁

차원 축소는 적용 목적에 따라 평가 기준이 달라진다. 예측 성능 개선이 목적이라면 축소 전후의 검증 성능을 비교해야 하고, 시각화가 목적이라면 국소 이웃 구조가 안정적으로 보존되는지 확인해야 한다. 노이즈 제거가 목적이라면 재구성 오차와 이상 샘플의 분포를 함께 확인해야 한다. 또한 차원 축소를 적용했다고 항상 성능이 좋아지는 것은 아니며, 정보 손실로 인해 후속 모델 성능이 떨어질 수도 있다. 따라서 차원 축소는 “무조건 적용하는 전처리”가 아니라 데이터 구조와 목적에 따라 선택하는 전략적 기법으로 이해해야 한다.

실무에서 차원 축소는 전처리, 시각화, 이상탐지, 압축, 노이즈 제거에 폭넓게 활용된다.
단, 축소 결과가 실제 후속 모델 성능과 업무 해석에 도움이 되는지 별도 검증해야 한다.

Ⅴ.비교분석 및 발전전망

가. 알고리즘 비교

비교 항목PCALDAt-SNEUMAPAutoencoder
학습 방식비지도지도비지도비지도비지도·자기지도
변환 성격선형선형비선형비선형비선형
주요 목적분산 보존, 압축, 노이즈 제거클래스 분리도 향상국소 구조 시각화시각화와 구조 보존잠재 표현 학습
해석성높음중간낮음중간낮음
계산 비용낮음~중간낮음~중간중간~높음중간높음
적합 상황다중공선성 완화, 센서 압축라벨 있는 분류 전처리소·중규모 임베딩 시각화대규모 임베딩 탐색복잡한 비선형 구조 학습
주의점분산이 큰 축이 판별력 있는 축은 아닐 수 있음클래스 수에 따라 축소 차원이 제한됨전역 거리 해석 주의파라미터 민감성 존재데이터와 학습 비용이 많이 필요

나. 특징 선택과 특징 추출 비교

구분특징 선택특징 추출
방식원본 변수 중 일부를 선택원본 변수를 조합해 새로운 축 생성
해석성높음상대적으로 낮음
정보 압축제한적중복 정보를 압축하는 데 유리
대표 기법Filter, Wrapper, Embedded, L1 정규화PCA, LDA, t-SNE, UMAP, Autoencoder
적합 상황규제·감사·변수 의미 설명이 중요한 경우고차원 노이즈 제거와 임베딩 압축이 중요한 경우

다. 발전전망

  • 표현학습과 결합: 자기지도학습, 대조학습, 멀티모달 임베딩과 결합하여 의미 있는 잠재공간을 학습한다.
  • 벡터DB 최적화: 고차원 임베딩을 압축하여 저장비용과 검색 지연을 줄이는 방향으로 활용된다.
  • 설명 가능한 차원 축소: 주성분 로딩, 특징 기여도, 군집 형성 원인을 설명하는 기법이 중요해진다.
  • 온라인 차원 축소: 스트리밍 로그와 센서 데이터에 대해 실시간으로 저차원 표현을 갱신하는 요구가 증가한다.
  • 프라이버시 보존 분석: 원본 민감 데이터를 직접 공유하지 않고 잠재 표현을 활용하는 분석이 확대된다.
  • AI 거버넌스 연계: 축소 과정에서 특정 집단 정보가 손실되거나 편향이 증폭되는지 검증하는 요구가 커진다.

라. 기술사 답안 정리

차원 축소 답안은 “정의 → 차원의 저주 → 특징 선택과 특징 추출 구분 → 구성도 → 구성요소 → PCA/LDA/t-SNE/UMAP/오토인코더 비교 → 실무 적용 → 한계와 전망”의 순서로 작성하면 안정적이다. 구성도에는 고차원 특징 행렬, 전처리, 축소 모형, 목적 함수, 저차원 표현, 후속 활용을 포함해야 한다. PCA 설명에서는 공분산 행렬, 고유값, 고유벡터, 설명분산비율을 언급하고, t-SNE와 UMAP 설명에서는 시각화 결과의 해석 한계를 반드시 제시하는 것이 좋다. 마지막에는 표현학습, 벡터DB, 프라이버시 보존, 설명 가능한 임베딩까지 연결하면 최신성과 확장성이 있는 답안이 된다.

답안 암기 포인트: “고차원 문제 → 전처리 → PCA/LDA/t-SNE/UMAP/Autoencoder 선택 → 저차원 표현 → 평가 → 후속 모델·시각화·운영 적용” 순서로 쓰면 구조가 명확하다.

차원 축소는 고차원 데이터의 정보 손실을 통제하며 계산 효율, 일반화 성능, 시각화, 압축을 개선하는 핵심 전처리 기법이다.
향후 표현학습, 벡터검색, 프라이버시 보존, 설명 가능한 AI와 결합하며 고차원 AI 데이터 처리의 기반 기술로 발전한다.

블로그: 기술사 학습노트 · imt-log.tistory.com