AI / Big Data · 한장정리
[기술사토픽] 머신러닝 알고리즘 분류 완벽 정리 - 한장정리
지도·비지도·강화학습 분류와 주요 알고리즘 특징, 편향-분산 트레이드오프, 과적합 방지 기법까지 기술사 빈출 주제를 완벽 정리합니다.
Ⅰ.데이터 기반 학습 기술, 머신러닝의 개요
개념: 머신러닝(Machine Learning)이란 명시적 프로그래밍 없이 데이터로부터 패턴을 학습하여 예측·분류·결정하는 AI 기술입니다. Arthur Samuel(1959)이 처음 정의했습니다.
특징: (1) 데이터가 핵심 자원 (2) 학습 방식에 따라 지도·비지도·강화학습으로 분류 (3) 성능은 데이터 품질·양에 크게 의존
가. 머신러닝 3가지 학습 유형
지도학습
입력: 레이블된 데이터
목표: 입력→출력 함수 학습
분류: SVM, 결정트리, KNN
회귀: 선형회귀, 랜덤포레스트
적합: 스팸필터, 이미지분류
비지도학습
입력: 레이블 없는 데이터
목표: 숨겨진 구조 발견
군집화: K-Means, DBSCAN
차원축소: PCA, t-SNE
적합: 고객세분화, 이상탐지
강화학습
입력: 환경·보상 신호
목표: 누적 보상 최대화
알고리즘: Q-Learning, DQN
핵심: 에이전트·환경·보상
적합: 게임AI, 로봇제어
Ⅱ.주요 알고리즘 특징 & 비교
| 알고리즘 | 유형 | 특징 | 장점 | 단점 |
|---|---|---|---|---|
| 선형회귀 | 지도(회귀) | 연속값 예측 | 해석 쉬움 | 비선형 관계 한계 |
| 로지스틱회귀 | 지도(분류) | 확률 기반 이진분류 | 확률 출력 | 선형 경계만 가능 |
| 결정 트리 | 지도(분류/회귀) | 규칙 기반 분기 | 해석 용이 | 과적합 취약 |
| 랜덤 포레스트 | 지도(앙상블) | 다수 트리 투표 | 과적합 방지 | 해석 어려움 |
| SVM | 지도(분류) | 최대 마진 초평면 | 고차원 효과적 | 대용량 느림 |
| K-Means | 비지도(군집) | K개 중심 군집화 | 구현 간단 | K값 사전 지정 |
| Q-Learning | 강화학습 | Q값으로 행동 선택 | 모델 불필요 | 연속 공간 한계 |
Ⅲ.과적합·과소적합 & 방지 기법
| 구분 | 과적합(Overfitting) | 과소적합(Underfitting) |
|---|---|---|
| 개념 | 훈련 데이터에 과하게 맞춰져 일반화 실패 | 학습 부족으로 훈련·테스트 모두 성능 낮음 |
| 원인 | 모델 복잡도 높음, 훈련 데이터 부족 | 모델 복잡도 낮음, 학습 부족 |
| 해결 | 정규화(L1/L2), 드롭아웃, 데이터 증강, 교차검증 | 모델 복잡도 증가, 학습 데이터 추가 |
| 편향/분산 | 저편향·고분산 | 고편향·저분산 |
시험 포인트
편향-분산 트레이드오프: 모델 복잡도↑ → 편향↓ 분산↑ (과적합) / 모델 복잡도↓ → 편향↑ 분산↓ (과소적합)
최적 모델 = 편향과 분산의 균형점. 교차검증(Cross-Validation)으로 찾음.
Ⅳ.결론 및 전문가 의견
결론
머신러닝은 AI의 핵심 엔진으로 데이터 중심 의사결정을 가능하게 합니다.
향후 AutoML(자동화된 머신러닝), Few-Shot Learning(소량 데이터 학습), Foundation Model(GPT·BERT 등 대형 모델)로 진화하며 적용 범위가 폭발적으로 확장되고 있습니다.
"모든 모델은 틀렸다. 그러나 일부는 유용하다." — George Box
블로그: 기술사 학습노트 · imt-log.tistory.com
'AI빅데이터' 카테고리의 다른 글
| AI 거버넌스 감사 모니터링 체계 정리 (0) | 2026.03.20 |
|---|---|
| MCP Model Context Protocol 에이전트 정리 (0) | 2026.03.20 |
| 가트너 2026 10대 전략 기술 트렌드 정리 (0) | 2026.03.20 |
| 디지털 트윈 AI 활용 개념 정리 (0) | 2026.03.20 |
| AI·빅데이터 완전정복 — 기술사 핵심 토픽 모음 (0) | 2026.03.18 |