본문 바로가기
AI빅데이터

직관적인 데이터 분류 모델: 의사결정트리의 불순도(Impurity) 지표와 가지치기(Pruning) 기법

by 매일기술사 2026. 5. 25.
의사결정트리 Decision Tree - 기술사 학습노트
Artificial Intelligence · 정보관리기술사 / 컴퓨터시스템응용기술사

의사결정트리(Decision Tree)

데이터를 속성 조건에 따라 반복 분할하여 분류·회귀 결과를 도출하는 규칙 기반 지도학습 모델

정보관리기술사컴퓨터시스템응용기술사의사결정트리DecisionTree엔트로피정보이득지니불순도가지치기CARTXAI
Ⅰ.개요 및 등장배경

가. 정의

의사결정트리는 학습 데이터를 특정 속성의 조건에 따라 반복적으로 분할하여 최종 리프 노드에서 분류값 또는 회귀 예측값을 산출하는 트리 구조의 지도학습 알고리즘이다. 루트 노드에서 전체 데이터가 시작되고, 내부 노드에서는 특정 변수와 임계값을 기준으로 분기하며, 리프 노드에서는 최종 클래스나 수치 예측값을 반환한다. 사람이 “연체 이력이 있는가”, “구매금액이 일정 기준 이상인가”, “검사 수치가 임계값을 초과하는가”와 같이 순차적인 질문으로 판단하는 과정을 모델 구조로 표현한 방식이므로 해석이 쉽고 업무 규칙으로 전환하기 좋다.

나. 등장배경

  • 현실 데이터의 복잡성: 범주형과 연속형 변수가 혼재한 표형 데이터를 직관적으로 처리할 수 있는 분석 기법이 필요하였다.
  • 설명 가능한 모델 요구: 금융, 의료, 공공, 제조 품질 분야에서는 예측 결과뿐 아니라 판단 근거를 제시해야 한다.
  • 비선형 규칙 표현 필요: 선형 모델로 표현하기 어려운 조건 조합과 임계값 기반 규칙을 쉽게 표현할 수 있다.
  • 데이터마이닝 확산: 고객 세분화, 이탈 예측, 위험 점수화, 품질 분류 등에서 현업 친화적 규칙 도출이 중요해졌다.
  • 앙상블 모델 기반: 랜덤포레스트, 그래디언트 부스팅, XGBoost, LightGBM 등 고성능 트리 앙상블의 기초 모델로 활용된다.

다. 주요 특징

의사결정트리의 장점은 해석 가능성, 전처리 부담 감소, 비선형 관계 표현, 변수 중요도 제공이다. 스케일링이 필수적이지 않고, 변수의 임계값 기반 분기를 통해 복잡한 의사결정 규칙을 도출할 수 있다. 그러나 단일 트리는 학습 데이터 변화에 구조가 크게 달라지는 고분산 특성을 갖고, 깊게 성장하면 학습 데이터를 지나치게 외우는 과적합 문제가 발생한다. 따라서 최대 깊이, 최소 샘플 수, 최소 불순도 감소량, 가지치기와 같은 복잡도 제어가 필요하다.

의사결정트리는 조건 분기 기반으로 분류와 회귀를 모두 수행하는 설명 가능한 지도학습 모델이다.
답안에서는 분할 기준, 재귀 분할, 노드 구조, 가지치기, 앙상블 확장까지 연결해야 한다.

Ⅱ.구성도 및 구성요소

가. 의사결정트리 구성도

Decision Tree Architecture : Split Rule + Recursive Partitioning 불순도 감소가 가장 큰 속성과 임계값을 선택하여 데이터를 반복 분할하고, 리프 노드에서 최종 예측값을 반환한다. 학습 데이터 X, y · 표형 데이터 분할 기준 계산 Entropy · Gini · MSE 최적 속성 선택 불순도 감소 최대 재귀 분할 Subtree 생성 가지치기 과적합 억제 Tree Structure 루트 노드에서 시작해 내부 노드 조건을 통과하고, 리프 노드에서 최종 예측을 산출한다. Root Node 연체이력 = Yes? Yes No Internal Node 소득 ≤ 3000? Internal Node 거래기간 ≥ 2년? Leaf: 거절 Leaf: 보류 Leaf: 승인 Leaf: 추가심사 분할 기준: Entropy / Information Gain, Gini Impurity, Variance Reduction · 제어 기준: max_depth, min_samples_split, min_samples_leaf, pruning

나. 구성요소

구분요소설명
입력학습 데이터특징 벡터 X와 정답 y로 구성된다. 결측치, 이상치, 범주 수, 클래스 불균형에 따라 분할 구조가 크게 달라질 수 있다.
노드루트 노드전체 데이터가 처음 도달하는 시작 노드이며 가장 큰 불순도 감소를 만드는 속성 또는 임계값이 선택된다.
노드내부 노드조건 검사를 수행하는 중간 노드이다. 연속형 변수는 특정 임계값 이하와 초과처럼 이진 분할되는 경우가 많다.
노드리프 노드분할이 종료되는 말단 노드이며 분류 문제에서는 다수 클래스, 회귀 문제에서는 평균값 등을 최종 예측으로 반환한다.
분기분할 규칙특정 변수와 조건으로 데이터를 하위 집합으로 나누는 규칙이다. 좋은 분할은 하위 노드의 순수도를 높인다.
분할 기준엔트로피·정보이득분할 전후 불확실성 감소량을 계산하여 가장 정보가 많은 속성을 선택한다. ID3 계열에서 대표적으로 사용된다.
분할 기준지니 불순도임의로 선택한 샘플이 잘못 분류될 가능성을 나타내며 CART에서 대표적으로 사용된다.
분할 기준분산 감소·MSE회귀 트리에서 타깃 값의 분산이나 평균제곱오차를 줄이는 방향으로 분기한다.
제어 요소최대 깊이·최소 샘플 수트리의 성장을 제한하여 과적합을 방지한다. 사전 가지치기의 핵심 하이퍼파라미터이다.
출력예측값·규칙·변수 중요도최종 예측 결과뿐 아니라 어떤 변수와 조건이 판단에 기여했는지 설명 자료로 제공할 수 있다.

의사결정트리의 구성요소는 학습 데이터, 루트 노드, 내부 노드, 리프 노드, 분할 기준, 가지치기, 출력 규칙으로 정리된다.
Ⅱ.가 구성도에서는 “불순도 감소 기준으로 최적 분할을 선택하고 재귀적으로 트리를 확장한다”는 흐름이 보이도록 작성하는 것이 좋다.

Ⅲ.동작방식 및 아키텍처

가. 분할 원리

의사결정트리의 학습은 현재 노드의 데이터를 가장 잘 나누는 속성과 조건을 찾는 과정이다. 분류 트리에서는 노드 안에 여러 클래스가 섞여 있으면 불순도가 높다고 보고, 분할 이후 하위 노드가 특정 클래스 중심으로 순수해질수록 좋은 분할로 판단한다. 엔트로피는 클래스 혼합 정도를 정보이론 관점에서 표현하고, 정보이득은 분할 전 엔트로피에서 분할 후 가중 평균 엔트로피를 뺀 값이다. 정보이득이 크다는 것은 분할을 통해 불확실성이 크게 줄었다는 의미이다. 지니 불순도는 임의 샘플을 현재 노드의 클래스 분포에 따라 분류했을 때 잘못 분류될 가능성으로 해석할 수 있으며 계산이 단순하여 CART에서 많이 활용된다.

나. 회귀 트리의 동작

회귀 트리는 클래스 순수도 대신 하위 노드의 타깃 값이 얼마나 균질해지는지를 기준으로 분할한다. 특정 임계값으로 데이터를 나눴을 때 좌우 자식 노드의 분산 또는 평균제곱오차가 크게 감소하면 좋은 분할이다. 리프 노드에서는 해당 리프에 속한 학습 데이터 타깃 값의 평균 또는 중앙값을 예측값으로 사용할 수 있다. 즉 분류 트리와 회귀 트리는 출력 형태는 다르지만, “분할 후 하위 집합의 균질성을 높인다”는 학습 원리는 동일하다.

다. 주요 알고리즘 계열

알고리즘분할 기준특징
ID3정보이득범주형 속성 중심의 초기 의사결정트리 알고리즘으로 다지 분할이 가능하다.
C4.5Gain Ratio정보이득이 값의 종류가 많은 속성에 편향되는 문제를 보완하고 연속형 변수와 결측치 처리를 지원한다.
CART지니 불순도·분산 감소항상 이진 분할을 수행하며 분류와 회귀 모두에 사용할 수 있다.
CHAID카이제곱 검정통계적 유의성을 바탕으로 범주형 변수 분할에 활용된다.

라. 가지치기와 일반화

  • 사전 가지치기: max_depth, min_samples_split, min_samples_leaf, min_impurity_decrease 등을 사용하여 학습 도중 성장을 제한한다.
  • 사후 가지치기: 트리를 충분히 성장시킨 뒤 검증 성능 또는 비용-복잡도 기준으로 불필요한 가지를 제거한다.
  • 비용-복잡도 가지치기: 예측 오차와 트리 복잡도 사이의 균형을 조절하는 α 값을 이용해 적절한 서브트리를 선택한다.
  • 일반화 검증: 훈련 성능보다 검증 성능, 교차검증, 혼동행렬, 리프별 샘플 수를 확인해야 한다.

의사결정트리는 불순도 감소가 가장 큰 분할을 반복 적용하는 재귀적 학습 구조이다.
과도하게 깊은 트리는 잡음까지 학습하므로 가지치기와 하이퍼파라미터 제어가 일반화 성능의 핵심이다.

Ⅳ.실무적용 및 사례

가. 적용 분야

분야적용 방식활용 효과
금융소득, 연체 이력, 거래 기간, 부채 비율을 기준으로 대출 승인·부도 위험을 판단한다.심사 규칙을 설명할 수 있어 감사와 고객 민원 대응에 유리하다.
제조공정 온도, 압력, 진동, 검사값을 기준으로 불량 여부나 원인 조건을 분류한다.불량 발생 조건을 규칙 형태로 도출하여 현장 개선에 활용한다.
의료검사 수치, 증상, 병력, 위험요인을 바탕으로 위험군 선별을 지원한다.의료진에게 판단 경로를 제공하여 보조 의사결정에 활용한다.
마케팅구매 빈도, 최근 구매일, 캠페인 반응, 장바구니 행동으로 이탈 가능성을 예측한다.고객 세분화와 타깃 캠페인 규칙 도출에 적합하다.
공공민원 유형, 지원 자격, 위험 점수, 지역 정보를 기준으로 우선순위를 분류한다.정책 판단 기준을 설명 가능한 형태로 제시할 수 있다.
보안접속 횟수, 위치, 시간대, 실패 로그를 기준으로 이상 접속 여부를 판정한다.탐지 규칙을 사람이 검토하고 보안 정책으로 전환하기 쉽다.

나. 실무 수행 절차

  • 1단계 문제 정의: 분류인지 회귀인지, 예측 대상과 평가 지표를 명확히 정의한다.
  • 2단계 데이터 점검: 결측치, 이상치, 범주형 변수, 클래스 불균형, 데이터 누수를 확인한다.
  • 3단계 분할 기준 선택: 분류는 지니 불순도 또는 엔트로피, 회귀는 MSE나 분산 감소를 사용한다.
  • 4단계 트리 학습: 훈련 데이터에서 불순도 감소가 큰 속성과 임계값을 기준으로 재귀 분할한다.
  • 5단계 복잡도 제어: 최대 깊이, 최소 리프 샘플 수, 가지치기 파라미터를 조정한다.
  • 6단계 성능 평가: Accuracy, Precision, Recall, F1-score, ROC-AUC, RMSE 등을 문제 유형에 맞게 측정한다.
  • 7단계 해석 검증: 분기 규칙, 변수 중요도, 리프별 샘플 수, 업무 타당성을 현업과 함께 검토한다.
  • 8단계 운영 반영: 규칙 기반 의사결정, 모니터링, 재학습, 앙상블 모델 확장 여부를 결정한다.

다. 장점과 주의점

구분내용실무 해석
장점해석 가능성 우수분기 조건이 규칙으로 표현되어 현업 설명과 감사 대응에 적합하다.
장점비선형 관계 표현여러 변수의 조건 조합을 통해 선형 모델보다 복잡한 경계를 표현할 수 있다.
장점전처리 부담 감소변수 스케일링이 필수는 아니며 범주형·연속형 데이터를 비교적 쉽게 다룬다.
한계고분산데이터가 조금만 바뀌어도 트리 구조가 크게 달라질 수 있다.
한계과적합트리가 깊어지면 학습 데이터의 잡음과 예외까지 규칙으로 학습할 수 있다.
한계축 방향 분할복잡한 곡선형 결정 경계는 매우 깊은 트리가 필요할 수 있다.

라. 실무 팁

의사결정트리를 실무에 적용할 때는 성능보다 해석성을 목적으로 사용하는 경우가 많다. 신용심사나 의료 보조판단처럼 설명 책임이 필요한 영역에서는 너무 깊은 트리보다 적당한 깊이의 트리가 더 유용하다. 클래스 불균형이 있는 경우 다수 클래스 중심의 트리가 생성될 수 있으므로 class_weight, 언더샘플링, 오버샘플링, 임계값 조정을 검토해야 한다. 변수 중요도는 분할 기준 특성상 범주 수가 많은 변수나 연속형 변수에 편향될 수 있으므로 permutation importance나 SHAP 기반 설명과 함께 확인하는 것이 좋다.

실무에서는 의사결정트리를 “성능 최고 모델”보다 “설명 가능한 규칙 모델”로 활용하는 경우가 많다.
복잡도 제어, 클래스 불균형 대응, 변수 중요도 검증을 함께 수행해야 안정적인 규칙을 얻을 수 있다.

Ⅴ.비교분석 및 발전전망

가. 타 기법과 비교

비교 대상의사결정트리 대비 특징적합 상황
로지스틱 회귀선형 결정 경계와 계수 기반 해석을 제공하지만 복잡한 조건 조합 표현은 제한적이다.선형 관계가 강하고 계수 해석이 중요한 문제
SVM마진 최대화로 복잡한 경계 성능이 우수할 수 있으나 결과 해석은 상대적으로 어렵다.고차원 분류와 명확한 마진이 있는 문제
KNN주변 샘플 기반으로 예측하며 별도 학습은 단순하지만 예측 비용과 스케일 민감성이 크다.국소 유사성이 중요한 소규모 데이터
랜덤포레스트여러 트리를 배깅으로 결합하여 단일 트리의 고분산 문제를 줄인다.표형 데이터에서 안정적 성능과 변수 중요도가 필요한 문제
그래디언트 부스팅약한 트리를 순차적으로 결합하여 오차를 줄이며 높은 예측 성능을 제공한다.정밀 예측, 표형 데이터 고성능 모델링
신경망복잡한 비정형 데이터 표현에 강하지만 설명 가능성은 낮고 데이터와 연산 요구가 크다.이미지, 음성, 텍스트 등 고차원 비정형 데이터

나. 앙상블 확장

기법핵심 원리의사결정트리 한계 보완
Bagging부트스트랩 샘플로 여러 모델을 학습하고 평균 또는 투표로 결합데이터 변화에 민감한 고분산 문제를 완화한다.
Random Forest샘플과 변수 일부를 무작위로 선택하여 다수 트리를 학습단일 트리보다 안정적이며 과적합 위험을 낮춘다.
Gradient Boosting이전 모델의 오차를 다음 모델이 보완하도록 순차 학습예측 성능을 크게 향상시키지만 튜닝과 과적합 관리가 중요하다.
XGBoost정규화, 병렬 처리, 결측 처리, 부스팅 최적화를 결합표형 데이터에서 높은 성능과 실무 적용성을 제공한다.
LightGBM히스토그램 기반 분할과 leaf-wise 성장을 활용대용량 데이터에서 빠른 학습과 높은 성능을 제공한다.
CatBoost범주형 변수 처리와 순서형 부스팅을 강화범주형 데이터가 많은 실무 데이터에 강점을 가진다.

다. 발전전망

  • 설명 가능한 AI와 결합: 단일 트리뿐 아니라 앙상블 모델에도 SHAP, LIME, surrogate tree를 적용하여 설명력을 높인다.
  • AutoML 기반 활용: 하이퍼파라미터 튜닝, 특징 선택, 앙상블 구성을 자동화하여 표형 데이터 분석 생산성을 높인다.
  • 공정성 검증 강화: 금융·공공 분야에서 특정 집단에 불리한 분기 규칙이 생성되는지 점검하는 요구가 증가한다.
  • 실시간 의사결정 적용: 대출 심사, 이상거래 탐지, 추천 정책에서 빠른 추론과 규칙 설명을 동시에 요구한다.
  • 하이브리드 운영: 고성능 앙상블 모델과 설명용 단순 트리를 함께 운용하여 성능과 해석력을 분리하는 전략이 확산된다.

라. 기술사 답안 정리

의사결정트리 답안은 정의, 등장배경, 구성도, 구성요소, 분할 기준, 가지치기, 실무 적용, 비교분석, 발전전망 순서로 작성하면 안정적이다. 구성도에서는 루트 노드, 내부 노드, 리프 노드, 분할 기준 계산, 재귀 분할, 가지치기를 반드시 포함해야 한다. 분할 기준 설명에서는 엔트로피와 정보이득, 지니 불순도, 회귀 트리의 분산 감소를 구분하고, 단일 트리의 장점인 해석 가능성과 한계인 과적합·고분산을 함께 제시해야 한다. 마지막으로 랜덤포레스트, 그래디언트 부스팅, XGBoost, LightGBM, SHAP 기반 설명가능성과 연결하면 확장성 있는 답안이 된다.

답안 암기 포인트: “데이터 → 불순도 계산 → 최적 속성 선택 → 루트·내부 노드 분기 → 리프 예측 → 가지치기 → 앙상블 확장” 순서로 쓰면 구조가 명확하다.

의사결정트리는 규칙 기반 분기 구조로 예측 결과와 판단 근거를 함께 제공하는 대표적 설명 가능 모델이다.
향후 단일 트리보다 랜덤포레스트, 부스팅, SHAP 기반 설명가능성과 결합된 형태로 표형 데이터 분석에서 지속 활용된다.

블로그: 기술사 학습노트 · imt-log.tistory.com