데이터 속 유사성을 찾다: K-Means 알고리즘 중심점(Centroid) 이동 원리와 최적의 K값(Elbow)
비지도학습 기반 군집화에서 K개의 중심점을 반복 이동시켜 군집 내 거리 제곱합을 최소화하고, Elbow 기법으로 적정 군집 수를 결정하는 대표 알고리즘
가. 정의
K-Means 알고리즘은 레이블이 없는 데이터를 K개의 군집으로 나누기 위해 각 군집의 중심점(Centroid)을 반복적으로 갱신하면서 군집 내 데이터와 중심점 사이의 거리 제곱합을 최소화하는 대표적인 비지도학습 군집화 알고리즘이다. “K”는 사전에 정하는 군집의 개수이고, “Means”는 각 군집에 속한 데이터들의 평균 위치를 중심점으로 사용한다는 의미이다. 알고리즘은 초기 중심점을 정한 뒤 각 데이터를 가장 가까운 중심점에 할당하고, 할당된 데이터의 평균으로 중심점을 다시 이동시키는 과정을 반복한다. 더 이상 중심점 이동이 거의 없거나 최대 반복 횟수에 도달하면 학습이 종료된다.
나. 등장배경
- 정답 라벨 없는 데이터 증가: 고객 행동, 문서 임베딩, 센서 로그, 구매 이력처럼 정답 클래스가 없는 데이터에서 숨은 그룹을 찾아야 한다.
- 대규모 데이터 세분화 필요: 고객 세분화, 시장 분석, 추천 후보군 생성, 이상 패턴 탐색 등에서 빠르고 단순한 군집화 방식이 필요하다.
- 거리 기반 구조 탐색: 데이터 간 유사성을 거리로 표현할 수 있는 수치형 데이터에서 자연스러운 그룹을 찾는 요구가 증가하였다.
- 해석과 적용의 용이성: 군집 중심점과 군집별 평균 특성을 통해 결과를 업무적으로 설명하기 쉽다.
- 계산 효율성: 단순 반복 계산 구조로 구현이 쉽고 대용량 데이터에도 비교적 빠르게 적용할 수 있다.
다. 주요 특징
K-Means의 핵심은 군집 내부 응집도를 높이고 군집 간 분리도를 확보하는 것이다. 알고리즘의 목적함수는 각 데이터가 속한 중심점까지의 거리 제곱합인 WCSS(Within-Cluster Sum of Squares)를 최소화하는 방향으로 설계된다. 하지만 K값을 사전에 정해야 하고, 초기 중심점에 따라 결과가 달라질 수 있으며, 구형 군집에는 강하지만 비구형·밀도 차이·이상치가 많은 데이터에는 약하다. 따라서 표준화, 초기화 방식, K값 결정, 평가 지표, 도메인 검증이 함께 고려되어야 한다.
K-Means는 K개의 중심점을 기준으로 데이터를 반복 할당·갱신하여 군집 내 거리 제곱합을 최소화하는 군집화 알고리즘이다.
답안에서는 Centroid 이동 원리, WCSS 목적함수, Elbow 기법, 초기화와 이상치 한계까지 함께 제시해야 한다.
가. K-Means 중심점 이동 및 Elbow 구성도
나. 구성요소
| 구분 | 요소 | 설명 |
|---|---|---|
| 입력 | 데이터 행렬 X | n개의 관측치와 d개의 특징으로 구성된 수치형 데이터이다. 거리 기반 알고리즘이므로 표준화 여부가 결과에 큰 영향을 준다. |
| 설정값 | K | 사전에 지정하는 군집 수이다. 너무 작으면 서로 다른 패턴이 합쳐지고, 너무 크면 의미 없는 과분할이 발생한다. |
| 중심 | Centroid | 각 군집에 속한 데이터들의 평균 위치이다. K-Means는 중심점 이동을 통해 군집 구조를 점진적으로 개선한다. |
| 거리척도 | Euclidean Distance | 데이터와 중심점 간의 거리를 계산하는 기준이다. 일반적으로 유클리드 거리를 사용하며 변수 스케일에 민감하다. |
| 할당 단계 | Assignment | 각 데이터를 가장 가까운 중심점의 군집에 배정한다. 이 단계에서 군집 경계가 형성된다. |
| 갱신 단계 | Update | 각 군집에 속한 데이터의 평균으로 중심점을 다시 계산한다. 중심점은 군집 내부의 대표 위치로 이동한다. |
| 목적함수 | WCSS | 군집 내부 데이터와 중심점 간 거리 제곱합이다. K-Means는 이 값을 줄이는 방향으로 반복된다. |
| 초기화 | Random, K-Means++ | 초기 중심점을 어떻게 선택하는지에 따라 수렴 결과가 달라진다. K-Means++는 중심점을 더 분산되게 초기화하여 안정성을 높인다. |
| 종료조건 | Convergence | 중심점 변화가 작거나, 군집 할당이 더 이상 변하지 않거나, 최대 반복 횟수에 도달하면 종료한다. |
| K 결정 | Elbow Method | K 증가에 따른 WCSS 감소 곡선에서 감소 폭이 급격히 줄어드는 지점을 적정 K 후보로 판단한다. |
K-Means 구성요소는 데이터, K, 중심점, 거리척도, 할당 단계, 갱신 단계, WCSS, 초기화, 종료조건, Elbow 기법으로 정리된다.
Ⅱ.가 구성도에서는 중심점이 군집 평균으로 이동하는 과정과 K별 WCSS 감소 곡선의 Elbow 지점을 함께 보여주는 것이 좋다.
가. 중심점 이동 원리
K-Means의 중심점 이동 원리는 “할당과 갱신의 반복”이다. 먼저 K개의 초기 중심점을 선택한다. 이후 각 데이터는 자신과 가장 가까운 중심점에 할당된다. 이때 같은 중심점에 할당된 데이터들이 하나의 군집을 형성한다. 다음으로 각 군집에 속한 데이터들의 평균 좌표를 계산하고, 기존 중심점을 이 평균 위치로 이동시킨다. 이 과정은 군집 내부 거리 제곱합을 줄이는 방향으로 진행된다. 할당 단계는 중심점이 고정된 상태에서 각 데이터의 소속을 최적화하고, 갱신 단계는 소속이 고정된 상태에서 중심점 위치를 최적화한다. 두 단계를 반복하면서 목적함수는 단조 감소하며, 최종적으로 지역 최적해에 수렴한다.
나. 수식 관점
K-Means의 목적은 각 데이터 xᵢ와 해당 데이터가 속한 군집 중심 μₖ 사이의 거리 제곱합을 최소화하는 것이다. 즉 WCSS를 최소화하는 중심점과 군집 할당을 찾는 문제이다. 할당 단계에서는 데이터 xᵢ가 가장 가까운 중심 μₖ를 선택하고, 갱신 단계에서는 군집 Cₖ에 속한 모든 데이터의 평균으로 μₖ를 다시 계산한다. 이 평균값이 해당 군집 내 거리 제곱합을 최소화하는 대표점이기 때문에 중심점은 반복적으로 군집의 중앙으로 이동한다. 이 원리를 정확히 쓰면 K-Means가 왜 “Means”라는 이름을 갖는지 설명할 수 있다.
다. 최적 K값과 Elbow Method
K값은 K-Means에서 가장 중요한 하이퍼파라미터이다. K가 증가하면 각 군집이 더 작아지므로 WCSS는 항상 감소한다. 문제는 WCSS가 계속 감소한다고 해서 K를 무한히 늘리는 것이 좋은 선택은 아니라는 점이다. K가 너무 크면 군집이 지나치게 세분화되어 해석이 어려워지고 운영 전략으로 활용하기 힘들다. Elbow Method는 K를 1, 2, 3, 4처럼 증가시키며 각 K에서의 WCSS를 계산한 뒤, 감소 폭이 급격히 줄어드는 꺾이는 지점을 선택한다. 이 지점은 군집 수를 늘려도 추가 개선이 작아지는 구간으로, 적정 K 후보로 볼 수 있다.
라. 전체 수행 절차
- 1단계 데이터 준비: 결측치, 이상치, 범주형 인코딩, 정규화·표준화를 수행한다.
- 2단계 K 후보 설정: 업무 목적과 데이터 규모를 고려하여 K 후보 범위를 정한다.
- 3단계 초기 중심점 선택: Random 또는 K-Means++ 방식으로 K개의 중심점을 선택한다.
- 4단계 데이터 할당: 각 데이터를 가장 가까운 중심점의 군집으로 배정한다.
- 5단계 중심점 갱신: 각 군집에 속한 데이터 평균을 계산하여 중심점을 이동시킨다.
- 6단계 반복 수렴: 중심점 변화 또는 군집 할당 변화가 충분히 작아질 때까지 반복한다.
- 7단계 K 평가: K별 WCSS, Elbow, Silhouette Score, 도메인 해석 가능성을 비교한다.
- 8단계 군집 해석: 군집별 평균, 대표 샘플, 주요 차이 변수, 업무 전략을 도출한다.
K-Means는 최근접 중심점 할당과 군집 평균으로의 중심점 이동을 반복하여 WCSS를 줄인다.
Elbow Method는 K 증가에 따른 WCSS 감소 폭이 둔화되는 지점을 찾아 적정 군집 수 후보를 결정한다.
가. 적용 분야
| 분야 | 적용 방식 | 활용 효과 |
|---|---|---|
| 고객 세분화 | 구매금액, 방문빈도, 최근 구매일, 카테고리 선호도를 기준으로 고객군을 나눈다. | VIP, 이탈 위험, 할인 민감, 신규 탐색 고객 등 타깃 전략을 수립한다. |
| 마케팅 캠페인 | 고객 행동 유사성을 기준으로 프로모션 대상군을 분리한다. | 군집별 메시지, 쿠폰, 추천 상품을 다르게 설계한다. |
| 문서 임베딩 | 문서 벡터를 군집화하여 유사 주제 문서를 묶는다. | 지식관리, 검색 품질 개선, 문서 분류 체계 구축에 활용한다. |
| 제조 품질분석 | 공정 조건과 센서값을 기준으로 유사 운전 패턴을 묶는다. | 불량 패턴 탐색, 공정 조건 최적화, 이상 상태 후보 식별에 활용한다. |
| 이미지·영상 분석 | 이미지 특징 벡터를 군집화하여 유사 이미지 그룹을 찾는다. | 이미지 검색, 중복 제거, 데이터 라벨링 보조에 활용한다. |
| 추천 시스템 | 유사 사용자 또는 아이템을 군집으로 묶어 후보군을 생성한다. | 콜드스타트 완화, 추천 후보 축소, 개인화 전략 수립에 활용한다. |
나. 실무 수행 시 유의사항
- 스케일링 필수: 거리 기반 알고리즘이므로 금액, 횟수, 비율처럼 단위가 다른 변수는 표준화가 필요하다.
- 이상치 처리: 극단값은 중심점을 크게 끌어당기므로 사전 탐지와 처리 방식을 결정해야 한다.
- K값 검증: Elbow만으로 결정하지 말고 Silhouette Score, 군집 크기, 업무 해석 가능성을 함께 검토한다.
- 초기화 반복: 초기 중심점에 민감하므로 여러 seed로 반복 실행하고 가장 낮은 WCSS 결과를 선택한다.
- 고차원 주의: 차원이 높으면 거리 분별력이 약해질 수 있어 PCA, UMAP 등 차원 축소를 검토한다.
- 군집 명명: 알고리즘은 군집 번호만 제공하므로 군집별 특징 분석을 통해 업무적으로 의미 있는 이름을 붙여야 한다.
다. K-Means++와 안정화
기본 K-Means는 초기 중심점을 무작위로 선택하기 때문에 좋지 않은 초기값을 만나면 지역 최적해에 빠지거나 군집 품질이 낮아질 수 있다. K-Means++는 첫 번째 중심점을 무작위로 선택한 뒤, 기존 중심점에서 멀리 떨어진 데이터일수록 다음 중심점으로 선택될 확률을 높이는 방식이다. 이를 통해 초기 중심점이 서로 잘 퍼지도록 만들고 수렴 속도와 군집 품질을 개선한다. 실무에서는 n_init 값을 크게 두어 여러 초기화 결과 중 WCSS가 가장 낮은 결과를 선택하는 방식도 함께 사용한다.
라. 사례형 서술
온라인 쇼핑몰 고객 세분화 사례에서 K-Means를 적용한다면 Recency, Frequency, Monetary, 할인 민감도, 반품률, 카테고리 다양성 등을 특징으로 사용할 수 있다. 먼저 변수별 스케일을 표준화하고 K를 2부터 10까지 변화시키며 WCSS를 계산한다. Elbow Curve에서 K=4 부근부터 감소 폭이 완만해지고, Silhouette Score와 군집별 해석 가능성도 양호하다면 K=4를 선택할 수 있다. 이후 각 군집을 “고가 충성 고객”, “할인 반응 고객”, “신규 탐색 고객”, “이탈 위험 고객”처럼 명명하고 군집별 캠페인 전략을 수립한다. 이처럼 K-Means의 가치는 단순히 군집 번호를 만드는 것이 아니라 군집 프로파일링과 실행 전략으로 연결될 때 실무적으로 완성된다.
K-Means 실무 적용은 표준화, 이상치 처리, K값 검증, 초기화 반복, 군집 프로파일링이 성패를 좌우한다.
Elbow로 K 후보를 찾고, Silhouette과 도메인 해석으로 최종 K를 검증하는 구조가 바람직하다.
가. K-Means와 다른 군집 기법 비교
| 구분 | K-Means | 계층적 군집 | DBSCAN | GMM |
|---|---|---|---|---|
| 군집 수 | K를 사전에 지정 | 덴드로그램 절단으로 결정 | 군집 수 지정 불필요 | 혼합 성분 수 지정 |
| 군집 형태 | 구형·볼록 형태에 적합 | 연결 기준에 따라 다양 | 비구형·밀도 기반 군집 가능 | 타원형 분포에 적합 |
| 이상치 대응 | 취약 | 보통 | 잡음점으로 분리 가능 | 확률적으로 일부 대응 |
| 결과 형태 | 하드 클러스터링 | 계층 구조 | 군집과 잡음 | 소속 확률 제공 |
| 계산 효율 | 빠르고 대용량에 적합 | 대용량에서 부담 | 이웃 탐색 비용 고려 | EM 반복으로 계산 비용 존재 |
| 적합 사례 | 고객 세분화, 빠른 기준선 군집 | 소규모 탐색, 계층 해석 | 공간 데이터, 이상치 탐지 | 소프트 군집, 확률 기반 분석 |
나. Elbow와 다른 K 결정 지표 비교
| 지표 | 핵심 개념 | 유의점 |
|---|---|---|
| Elbow Method | K 증가에 따른 WCSS 감소 폭이 둔화되는 지점을 선택 | 꺾이는 지점이 명확하지 않을 수 있다. |
| Silhouette Score | 군집 내부 응집도와 다른 군집과의 분리도를 함께 측정 | 구형 군집 가정에 영향을 받을 수 있다. |
| Calinski-Harabasz | 군집 간 분산과 군집 내 분산의 비율을 평가 | 값이 높을수록 좋지만 데이터 구조에 따라 과대평가될 수 있다. |
| Davies-Bouldin | 군집 내 산포와 군집 간 거리의 비율을 평가 | 값이 낮을수록 좋으며 다른 지표와 함께 해석해야 한다. |
| 도메인 검증 | 군집이 업무적으로 설명 가능하고 실행 가능한지 확인 | 정량 지표가 좋아도 실무 의미가 없으면 활용 가치가 낮다. |
다. 한계와 대응
- 초기값 민감성: K-Means++와 여러 번의 초기화 반복으로 안정성을 높인다.
- K 사전 지정 필요: Elbow, Silhouette, 도메인 검증을 결합해 적정 K를 선택한다.
- 이상치 취약성: 이상치 제거, Robust Scaling, K-Medoids 등을 검토한다.
- 비구형 군집 한계: DBSCAN, Spectral Clustering, GMM 등 대체 기법을 고려한다.
- 스케일 민감성: 표준화, 정규화, 로그 변환을 통해 거리 계산 왜곡을 줄인다.
- 고차원 문제: PCA, UMAP, 임베딩 품질 개선으로 거리 분별력을 확보한다.
라. 발전전망
K-Means는 단순하지만 빠르고 해석이 쉬워 대규모 데이터의 기준선 군집화로 계속 활용된다. 최근에는 임베딩 기반 데이터 분석과 결합되어 문서, 이미지, 사용자 행동 벡터를 빠르게 군집화하는 데 사용된다. 또한 Mini-Batch K-Means는 전체 데이터를 한 번에 사용하지 않고 작은 배치 단위로 중심점을 갱신하여 대규모 데이터에 적합하다. 벡터 데이터베이스, 추천 시스템, RAG 문서 클러스터링, 데이터 라벨링 보조, 이상 후보 탐색 등에서도 K-Means가 실용적 전처리 도구로 쓰인다. 향후에는 AutoML과 MLOps 환경에서 K값 선택, 지표 비교, 군집 안정성 평가, 군집 프로파일링이 자동화되는 방향으로 발전할 가능성이 높다.
마. 기술사 답안 정리
K-Means 답안은 “정의 → 등장배경 → 구성도 → 구성요소 → 중심점 이동 원리 → Elbow Method → 실무 적용 → 한계와 대응 → 비교분석 → 발전전망” 순서로 작성하면 안정적이다. 구성도에는 K 설정, 초기 중심점, 최근접 중심점 할당, 군집 평균 기반 중심점 이동, WCSS 수렴, Elbow Curve를 반드시 포함해야 한다. 중심점 이동 원리는 데이터 할당 단계와 중심점 갱신 단계로 나누어 설명하고, Elbow는 K 증가에 따른 WCSS 감소 폭이 급격히 완만해지는 지점을 선택하는 방법으로 정리한다. 마지막에는 K-Means++ 초기화, 표준화, 이상치 취약성, 비구형 군집 한계, Silhouette 보완 지표까지 언급하면 만점형 답안이 된다.
K-Means는 중심점 이동을 통해 군집 내 거리 제곱합을 줄이는 빠르고 직관적인 군집화 알고리즘이다.
최적 K값은 Elbow만으로 단정하지 말고 Silhouette, 군집 크기, 도메인 해석 가능성을 함께 검증해야 한다.
'AI빅데이터' 카테고리의 다른 글
| 수천억 개 파라미터의 혁신: 초거대 인공지능의 핵심 기술 요소와 산업별 활용 전략 (0) | 2026.05.30 |
|---|---|
| 가비지 인 가비지 아웃(GIGO) 극복: 고품질 AI 학습용 데이터 전처리와 라벨링 전략 (0) | 2026.05.29 |
| 손실 함수(Loss Function)의 최솟값을 찾아서: 경사하강법 동작 메커니즘과 학습률(Learning Rate) (0) | 2026.05.29 |
| 머신러닝 하이퍼파라미터 튜닝 기법(Grid, Random, Bayesian) (0) | 2026.05.28 |
| 스스로 창조하는 인공지능: 생성형 AI의 기반 모델(Foundation Model)과 프롬프트 엔지니어링 (0) | 2026.05.28 |