의사결정트리(Decision Tree)
데이터를 속성 조건에 따라 반복 분할하여 분류·회귀 결과를 도출하는 규칙 기반 지도학습 모델
가. 정의
의사결정트리는 학습 데이터를 특정 속성의 조건에 따라 반복적으로 분할하여 최종 리프 노드에서 분류값 또는 회귀 예측값을 산출하는 트리 구조의 지도학습 알고리즘이다. 루트 노드에서 전체 데이터가 시작되고, 내부 노드에서는 특정 변수와 임계값을 기준으로 분기하며, 리프 노드에서는 최종 클래스나 수치 예측값을 반환한다. 사람이 “연체 이력이 있는가”, “구매금액이 일정 기준 이상인가”, “검사 수치가 임계값을 초과하는가”와 같이 순차적인 질문으로 판단하는 과정을 모델 구조로 표현한 방식이므로 해석이 쉽고 업무 규칙으로 전환하기 좋다.
나. 등장배경
- 현실 데이터의 복잡성: 범주형과 연속형 변수가 혼재한 표형 데이터를 직관적으로 처리할 수 있는 분석 기법이 필요하였다.
- 설명 가능한 모델 요구: 금융, 의료, 공공, 제조 품질 분야에서는 예측 결과뿐 아니라 판단 근거를 제시해야 한다.
- 비선형 규칙 표현 필요: 선형 모델로 표현하기 어려운 조건 조합과 임계값 기반 규칙을 쉽게 표현할 수 있다.
- 데이터마이닝 확산: 고객 세분화, 이탈 예측, 위험 점수화, 품질 분류 등에서 현업 친화적 규칙 도출이 중요해졌다.
- 앙상블 모델 기반: 랜덤포레스트, 그래디언트 부스팅, XGBoost, LightGBM 등 고성능 트리 앙상블의 기초 모델로 활용된다.
다. 주요 특징
의사결정트리의 장점은 해석 가능성, 전처리 부담 감소, 비선형 관계 표현, 변수 중요도 제공이다. 스케일링이 필수적이지 않고, 변수의 임계값 기반 분기를 통해 복잡한 의사결정 규칙을 도출할 수 있다. 그러나 단일 트리는 학습 데이터 변화에 구조가 크게 달라지는 고분산 특성을 갖고, 깊게 성장하면 학습 데이터를 지나치게 외우는 과적합 문제가 발생한다. 따라서 최대 깊이, 최소 샘플 수, 최소 불순도 감소량, 가지치기와 같은 복잡도 제어가 필요하다.
의사결정트리는 조건 분기 기반으로 분류와 회귀를 모두 수행하는 설명 가능한 지도학습 모델이다.
답안에서는 분할 기준, 재귀 분할, 노드 구조, 가지치기, 앙상블 확장까지 연결해야 한다.
가. 의사결정트리 구성도
나. 구성요소
| 구분 | 요소 | 설명 |
|---|---|---|
| 입력 | 학습 데이터 | 특징 벡터 X와 정답 y로 구성된다. 결측치, 이상치, 범주 수, 클래스 불균형에 따라 분할 구조가 크게 달라질 수 있다. |
| 노드 | 루트 노드 | 전체 데이터가 처음 도달하는 시작 노드이며 가장 큰 불순도 감소를 만드는 속성 또는 임계값이 선택된다. |
| 노드 | 내부 노드 | 조건 검사를 수행하는 중간 노드이다. 연속형 변수는 특정 임계값 이하와 초과처럼 이진 분할되는 경우가 많다. |
| 노드 | 리프 노드 | 분할이 종료되는 말단 노드이며 분류 문제에서는 다수 클래스, 회귀 문제에서는 평균값 등을 최종 예측으로 반환한다. |
| 분기 | 분할 규칙 | 특정 변수와 조건으로 데이터를 하위 집합으로 나누는 규칙이다. 좋은 분할은 하위 노드의 순수도를 높인다. |
| 분할 기준 | 엔트로피·정보이득 | 분할 전후 불확실성 감소량을 계산하여 가장 정보가 많은 속성을 선택한다. ID3 계열에서 대표적으로 사용된다. |
| 분할 기준 | 지니 불순도 | 임의로 선택한 샘플이 잘못 분류될 가능성을 나타내며 CART에서 대표적으로 사용된다. |
| 분할 기준 | 분산 감소·MSE | 회귀 트리에서 타깃 값의 분산이나 평균제곱오차를 줄이는 방향으로 분기한다. |
| 제어 요소 | 최대 깊이·최소 샘플 수 | 트리의 성장을 제한하여 과적합을 방지한다. 사전 가지치기의 핵심 하이퍼파라미터이다. |
| 출력 | 예측값·규칙·변수 중요도 | 최종 예측 결과뿐 아니라 어떤 변수와 조건이 판단에 기여했는지 설명 자료로 제공할 수 있다. |
의사결정트리의 구성요소는 학습 데이터, 루트 노드, 내부 노드, 리프 노드, 분할 기준, 가지치기, 출력 규칙으로 정리된다.
Ⅱ.가 구성도에서는 “불순도 감소 기준으로 최적 분할을 선택하고 재귀적으로 트리를 확장한다”는 흐름이 보이도록 작성하는 것이 좋다.
가. 분할 원리
의사결정트리의 학습은 현재 노드의 데이터를 가장 잘 나누는 속성과 조건을 찾는 과정이다. 분류 트리에서는 노드 안에 여러 클래스가 섞여 있으면 불순도가 높다고 보고, 분할 이후 하위 노드가 특정 클래스 중심으로 순수해질수록 좋은 분할로 판단한다. 엔트로피는 클래스 혼합 정도를 정보이론 관점에서 표현하고, 정보이득은 분할 전 엔트로피에서 분할 후 가중 평균 엔트로피를 뺀 값이다. 정보이득이 크다는 것은 분할을 통해 불확실성이 크게 줄었다는 의미이다. 지니 불순도는 임의 샘플을 현재 노드의 클래스 분포에 따라 분류했을 때 잘못 분류될 가능성으로 해석할 수 있으며 계산이 단순하여 CART에서 많이 활용된다.
나. 회귀 트리의 동작
회귀 트리는 클래스 순수도 대신 하위 노드의 타깃 값이 얼마나 균질해지는지를 기준으로 분할한다. 특정 임계값으로 데이터를 나눴을 때 좌우 자식 노드의 분산 또는 평균제곱오차가 크게 감소하면 좋은 분할이다. 리프 노드에서는 해당 리프에 속한 학습 데이터 타깃 값의 평균 또는 중앙값을 예측값으로 사용할 수 있다. 즉 분류 트리와 회귀 트리는 출력 형태는 다르지만, “분할 후 하위 집합의 균질성을 높인다”는 학습 원리는 동일하다.
다. 주요 알고리즘 계열
| 알고리즘 | 분할 기준 | 특징 |
|---|---|---|
| ID3 | 정보이득 | 범주형 속성 중심의 초기 의사결정트리 알고리즘으로 다지 분할이 가능하다. |
| C4.5 | Gain Ratio | 정보이득이 값의 종류가 많은 속성에 편향되는 문제를 보완하고 연속형 변수와 결측치 처리를 지원한다. |
| CART | 지니 불순도·분산 감소 | 항상 이진 분할을 수행하며 분류와 회귀 모두에 사용할 수 있다. |
| CHAID | 카이제곱 검정 | 통계적 유의성을 바탕으로 범주형 변수 분할에 활용된다. |
라. 가지치기와 일반화
- 사전 가지치기: max_depth, min_samples_split, min_samples_leaf, min_impurity_decrease 등을 사용하여 학습 도중 성장을 제한한다.
- 사후 가지치기: 트리를 충분히 성장시킨 뒤 검증 성능 또는 비용-복잡도 기준으로 불필요한 가지를 제거한다.
- 비용-복잡도 가지치기: 예측 오차와 트리 복잡도 사이의 균형을 조절하는 α 값을 이용해 적절한 서브트리를 선택한다.
- 일반화 검증: 훈련 성능보다 검증 성능, 교차검증, 혼동행렬, 리프별 샘플 수를 확인해야 한다.
의사결정트리는 불순도 감소가 가장 큰 분할을 반복 적용하는 재귀적 학습 구조이다.
과도하게 깊은 트리는 잡음까지 학습하므로 가지치기와 하이퍼파라미터 제어가 일반화 성능의 핵심이다.
가. 적용 분야
| 분야 | 적용 방식 | 활용 효과 |
|---|---|---|
| 금융 | 소득, 연체 이력, 거래 기간, 부채 비율을 기준으로 대출 승인·부도 위험을 판단한다. | 심사 규칙을 설명할 수 있어 감사와 고객 민원 대응에 유리하다. |
| 제조 | 공정 온도, 압력, 진동, 검사값을 기준으로 불량 여부나 원인 조건을 분류한다. | 불량 발생 조건을 규칙 형태로 도출하여 현장 개선에 활용한다. |
| 의료 | 검사 수치, 증상, 병력, 위험요인을 바탕으로 위험군 선별을 지원한다. | 의료진에게 판단 경로를 제공하여 보조 의사결정에 활용한다. |
| 마케팅 | 구매 빈도, 최근 구매일, 캠페인 반응, 장바구니 행동으로 이탈 가능성을 예측한다. | 고객 세분화와 타깃 캠페인 규칙 도출에 적합하다. |
| 공공 | 민원 유형, 지원 자격, 위험 점수, 지역 정보를 기준으로 우선순위를 분류한다. | 정책 판단 기준을 설명 가능한 형태로 제시할 수 있다. |
| 보안 | 접속 횟수, 위치, 시간대, 실패 로그를 기준으로 이상 접속 여부를 판정한다. | 탐지 규칙을 사람이 검토하고 보안 정책으로 전환하기 쉽다. |
나. 실무 수행 절차
- 1단계 문제 정의: 분류인지 회귀인지, 예측 대상과 평가 지표를 명확히 정의한다.
- 2단계 데이터 점검: 결측치, 이상치, 범주형 변수, 클래스 불균형, 데이터 누수를 확인한다.
- 3단계 분할 기준 선택: 분류는 지니 불순도 또는 엔트로피, 회귀는 MSE나 분산 감소를 사용한다.
- 4단계 트리 학습: 훈련 데이터에서 불순도 감소가 큰 속성과 임계값을 기준으로 재귀 분할한다.
- 5단계 복잡도 제어: 최대 깊이, 최소 리프 샘플 수, 가지치기 파라미터를 조정한다.
- 6단계 성능 평가: Accuracy, Precision, Recall, F1-score, ROC-AUC, RMSE 등을 문제 유형에 맞게 측정한다.
- 7단계 해석 검증: 분기 규칙, 변수 중요도, 리프별 샘플 수, 업무 타당성을 현업과 함께 검토한다.
- 8단계 운영 반영: 규칙 기반 의사결정, 모니터링, 재학습, 앙상블 모델 확장 여부를 결정한다.
다. 장점과 주의점
| 구분 | 내용 | 실무 해석 |
|---|---|---|
| 장점 | 해석 가능성 우수 | 분기 조건이 규칙으로 표현되어 현업 설명과 감사 대응에 적합하다. |
| 장점 | 비선형 관계 표현 | 여러 변수의 조건 조합을 통해 선형 모델보다 복잡한 경계를 표현할 수 있다. |
| 장점 | 전처리 부담 감소 | 변수 스케일링이 필수는 아니며 범주형·연속형 데이터를 비교적 쉽게 다룬다. |
| 한계 | 고분산 | 데이터가 조금만 바뀌어도 트리 구조가 크게 달라질 수 있다. |
| 한계 | 과적합 | 트리가 깊어지면 학습 데이터의 잡음과 예외까지 규칙으로 학습할 수 있다. |
| 한계 | 축 방향 분할 | 복잡한 곡선형 결정 경계는 매우 깊은 트리가 필요할 수 있다. |
라. 실무 팁
의사결정트리를 실무에 적용할 때는 성능보다 해석성을 목적으로 사용하는 경우가 많다. 신용심사나 의료 보조판단처럼 설명 책임이 필요한 영역에서는 너무 깊은 트리보다 적당한 깊이의 트리가 더 유용하다. 클래스 불균형이 있는 경우 다수 클래스 중심의 트리가 생성될 수 있으므로 class_weight, 언더샘플링, 오버샘플링, 임계값 조정을 검토해야 한다. 변수 중요도는 분할 기준 특성상 범주 수가 많은 변수나 연속형 변수에 편향될 수 있으므로 permutation importance나 SHAP 기반 설명과 함께 확인하는 것이 좋다.
실무에서는 의사결정트리를 “성능 최고 모델”보다 “설명 가능한 규칙 모델”로 활용하는 경우가 많다.
복잡도 제어, 클래스 불균형 대응, 변수 중요도 검증을 함께 수행해야 안정적인 규칙을 얻을 수 있다.
가. 타 기법과 비교
| 비교 대상 | 의사결정트리 대비 특징 | 적합 상황 |
|---|---|---|
| 로지스틱 회귀 | 선형 결정 경계와 계수 기반 해석을 제공하지만 복잡한 조건 조합 표현은 제한적이다. | 선형 관계가 강하고 계수 해석이 중요한 문제 |
| SVM | 마진 최대화로 복잡한 경계 성능이 우수할 수 있으나 결과 해석은 상대적으로 어렵다. | 고차원 분류와 명확한 마진이 있는 문제 |
| KNN | 주변 샘플 기반으로 예측하며 별도 학습은 단순하지만 예측 비용과 스케일 민감성이 크다. | 국소 유사성이 중요한 소규모 데이터 |
| 랜덤포레스트 | 여러 트리를 배깅으로 결합하여 단일 트리의 고분산 문제를 줄인다. | 표형 데이터에서 안정적 성능과 변수 중요도가 필요한 문제 |
| 그래디언트 부스팅 | 약한 트리를 순차적으로 결합하여 오차를 줄이며 높은 예측 성능을 제공한다. | 정밀 예측, 표형 데이터 고성능 모델링 |
| 신경망 | 복잡한 비정형 데이터 표현에 강하지만 설명 가능성은 낮고 데이터와 연산 요구가 크다. | 이미지, 음성, 텍스트 등 고차원 비정형 데이터 |
나. 앙상블 확장
| 기법 | 핵심 원리 | 의사결정트리 한계 보완 |
|---|---|---|
| Bagging | 부트스트랩 샘플로 여러 모델을 학습하고 평균 또는 투표로 결합 | 데이터 변화에 민감한 고분산 문제를 완화한다. |
| Random Forest | 샘플과 변수 일부를 무작위로 선택하여 다수 트리를 학습 | 단일 트리보다 안정적이며 과적합 위험을 낮춘다. |
| Gradient Boosting | 이전 모델의 오차를 다음 모델이 보완하도록 순차 학습 | 예측 성능을 크게 향상시키지만 튜닝과 과적합 관리가 중요하다. |
| XGBoost | 정규화, 병렬 처리, 결측 처리, 부스팅 최적화를 결합 | 표형 데이터에서 높은 성능과 실무 적용성을 제공한다. |
| LightGBM | 히스토그램 기반 분할과 leaf-wise 성장을 활용 | 대용량 데이터에서 빠른 학습과 높은 성능을 제공한다. |
| CatBoost | 범주형 변수 처리와 순서형 부스팅을 강화 | 범주형 데이터가 많은 실무 데이터에 강점을 가진다. |
다. 발전전망
- 설명 가능한 AI와 결합: 단일 트리뿐 아니라 앙상블 모델에도 SHAP, LIME, surrogate tree를 적용하여 설명력을 높인다.
- AutoML 기반 활용: 하이퍼파라미터 튜닝, 특징 선택, 앙상블 구성을 자동화하여 표형 데이터 분석 생산성을 높인다.
- 공정성 검증 강화: 금융·공공 분야에서 특정 집단에 불리한 분기 규칙이 생성되는지 점검하는 요구가 증가한다.
- 실시간 의사결정 적용: 대출 심사, 이상거래 탐지, 추천 정책에서 빠른 추론과 규칙 설명을 동시에 요구한다.
- 하이브리드 운영: 고성능 앙상블 모델과 설명용 단순 트리를 함께 운용하여 성능과 해석력을 분리하는 전략이 확산된다.
라. 기술사 답안 정리
의사결정트리 답안은 정의, 등장배경, 구성도, 구성요소, 분할 기준, 가지치기, 실무 적용, 비교분석, 발전전망 순서로 작성하면 안정적이다. 구성도에서는 루트 노드, 내부 노드, 리프 노드, 분할 기준 계산, 재귀 분할, 가지치기를 반드시 포함해야 한다. 분할 기준 설명에서는 엔트로피와 정보이득, 지니 불순도, 회귀 트리의 분산 감소를 구분하고, 단일 트리의 장점인 해석 가능성과 한계인 과적합·고분산을 함께 제시해야 한다. 마지막으로 랜덤포레스트, 그래디언트 부스팅, XGBoost, LightGBM, SHAP 기반 설명가능성과 연결하면 확장성 있는 답안이 된다.
의사결정트리는 규칙 기반 분기 구조로 예측 결과와 판단 근거를 함께 제공하는 대표적 설명 가능 모델이다.
향후 단일 트리보다 랜덤포레스트, 부스팅, SHAP 기반 설명가능성과 결합된 형태로 표형 데이터 분석에서 지속 활용된다.
'AI빅데이터' 카테고리의 다른 글
| 데이터 이동 없이 모델을 학습하다: 연합학습의 로컬/글로벌 모델 업데이트 원리 (0) | 2026.05.27 |
|---|---|
| 데이터의 본질을 추출하다: 주성분 분석(PCA)과 t-SNE를 활용한 차원 축소 원리 (0) | 2026.05.26 |
| 데이터 중심의 엔지니어링: 기존 SDLC와 AI 소프트웨어 개발 프로세스의 차이 및 MLOps (0) | 2026.05.24 |
| 노이즈(Noise) 데이터까지 완벽하게 분류하다: DBSCAN 알고리즘과 파라미터(Eps, MinPts) (1) | 2026.05.23 |
| 이미지 인식의 패러다임을 바꾸다: CNN의 합성곱(Convolution)과 풀링(Pooling) 원리 (0) | 2026.05.22 |