연관분석(Association Analysis)
거래 데이터나 사용자 행동 데이터에서 함께 발생하는 항목 간 규칙을 찾아 추천, 교차판매, 마케팅 전략, 이상 패턴 탐지에 활용하는 데이터마이닝 기법
가. 연관분석의 정의
연관분석은 대량의 거래 데이터에서 항목들이 함께 출현하는 패턴을 발견하고, 이를 X → Y 형태의 연관규칙으로 표현하는 데이터마이닝 기법이다. 대표적으로 장바구니 분석이 있으며, 전자상거래, 유통, 금융, 통신, 의료, 콘텐츠 추천 등 다양한 분야에서 활용된다.
연관분석은 지도학습처럼 명확한 정답 라벨을 예측하는 것이 아니라, 데이터 안에 숨어 있는 동시 발생 관계와 구매·행동 패턴을 탐색한다. 따라서 분류나 회귀와 달리 비지도 학습 또는 탐색적 데이터 분석 성격이 강하다.
나. 등장배경
- POS 데이터와 전자상거래 로그가 축적되면서 고객 구매 패턴 분석 수요가 증가하였다.
- 상품 간 동시 구매 관계를 파악하여 교차판매와 추천에 활용할 필요가 커졌다.
- 전통적인 통계 분석으로 찾기 어려운 대량 항목 조합을 자동 탐색할 필요가 생겼다.
- 온라인 서비스에서 클릭, 장바구니, 검색, 시청 이력 등 행동 데이터 기반 추천이 중요해졌다.
- 데이터 기반 마케팅에서 고객의 숨은 선호와 패턴을 빠르게 도출하는 기법이 필요해졌다.
다. 연관분석의 목적
연관분석의 목적은 빈발 항목집합을 찾고, 그 항목집합으로부터 의미 있는 연관규칙을 도출하는 것이다. 이를 통해 어떤 상품이나 행동이 함께 발생하는지, 특정 항목이 다른 항목의 구매나 발생을 얼마나 잘 설명하는지, 해당 규칙이 우연이 아닌 실제 의미 있는 관계인지 평가한다.
라. 분석 결과의 의미
연관분석 결과는 상관관계 또는 동시 발생 관계를 의미하며, 반드시 인과관계를 뜻하지는 않는다. 따라서 지지도, 신뢰도, 향상도 등 지표를 함께 검토해야 하며, 업무 맥락과 해석 가능성을 고려해야 한다.
연관분석은 거래·행동 데이터에서 함께 발생하는 항목 간 규칙을 찾아내는 데이터마이닝 기법이다.
핵심 키워드: 빈발항목집합, 연관규칙, 지지도, 신뢰도, 향상도, Apriori, FP-Growth
가. 연관분석 구성도
연관분석 절차와 평가 구조
거래 데이터에서 빈발항목집합을 찾고, 연관규칙을 생성한 뒤 지지도·신뢰도·향상도로 평가하여 업무에 적용하는 구조이다.
나. 구성요소
| 구분 | 요소 | 설명 |
|---|---|---|
| 입력 데이터 | 거래 데이터 | 고객별 구매 내역, 클릭 로그, 장바구니, 시청 이력 등 항목의 동시 발생을 분석할 수 있는 데이터이다. |
| 분석 단위 | 트랜잭션 | 한 번의 구매, 한 명의 사용자 세션, 하나의 사건 묶음처럼 함께 발생한 항목 집합이다. |
| 기본 단위 | 항목(Item) | 상품, 콘텐츠, 서비스, 이벤트, 질병코드 등 분석 대상이 되는 개별 원소이다. |
| 패턴 | 항목집합(Itemset) | 하나 이상의 항목으로 구성된 집합이며, 빈번히 등장하면 빈발항목집합으로 판단한다. |
| 규칙 | 연관규칙 | X가 발생하면 Y가 함께 발생하는 경향을 X → Y 형태로 표현한다. |
| 평가지표 | 지지도 | 전체 거래 중 X와 Y가 함께 발생한 비율로, 규칙의 발생 빈도를 나타낸다. |
| 평가지표 | 신뢰도 | X가 발생한 거래 중 Y도 발생한 비율로, 조건부 확률 성격을 가진다. |
| 평가지표 | 향상도 | X가 있을 때 Y 발생 가능성이 Y 단독 발생 가능성보다 얼마나 증가하는지 나타낸다. |
| 알고리즘 | Apriori | 빈발항목집합의 하위집합도 빈발한다는 성질을 이용해 후보를 줄인다. |
| 알고리즘 | FP-Growth | FP-Tree를 구성하여 후보 항목집합 생성을 줄이고 효율적으로 빈발패턴을 탐색한다. |
구성요소: 거래 데이터, 트랜잭션, 항목, 항목집합, 연관규칙, 지지도, 신뢰도, 향상도, Apriori, FP-Growth
핵심: 연관규칙은 빈도뿐 아니라 업무적 의미와 향상도를 함께 판단해야 한다.
가. 연관분석 수행 절차
- 데이터 수집: POS, 온라인 주문, 클릭 로그, 장바구니, 세션 데이터를 수집한다.
- 트랜잭션 변환: 고객별·주문별·세션별로 함께 발생한 항목을 묶는다.
- 최소 지지도 설정: 의미 있는 빈발항목집합을 찾기 위한 기준을 정한다.
- 빈발항목집합 탐색: Apriori 또는 FP-Growth로 자주 등장하는 항목 조합을 찾는다.
- 연관규칙 생성: 빈발항목집합에서 X → Y 형태의 규칙을 만든다.
- 지표 평가: 지지도, 신뢰도, 향상도를 기준으로 규칙의 유효성을 판단한다.
- 업무 해석: 상품 진열, 추천, 프로모션, 번들 구성 등 적용 가능성을 검토한다.
- 성과 검증: A/B Test, 매출 변화, 클릭률, 전환율로 적용 효과를 확인한다.
나. 주요 평가 지표
지지도는 규칙이 전체 데이터에서 얼마나 자주 나타나는지 보여준다. 신뢰도는 X가 발생했을 때 Y가 발생할 조건부 확률을 의미한다. 향상도는 X가 Y 발생을 얼마나 의미 있게 증가시키는지 판단하는 지표이며, 일반적으로 1보다 크면 양의 연관성이 있다고 해석할 수 있다.
다. Apriori 알고리즘
Apriori는 빈발항목집합을 찾기 위한 대표 알고리즘이다. 핵심은 어떤 항목집합이 빈발하지 않으면 그 상위 항목집합도 빈발할 수 없다는 성질이다. 이를 통해 불필요한 후보 항목집합을 제거하면서 단계적으로 항목집합을 확장한다.
라. FP-Growth 알고리즘
FP-Growth는 후보 항목집합을 반복 생성하는 Apriori의 비효율을 줄이기 위해 FP-Tree 구조를 사용한다. 거래 데이터를 압축된 트리 형태로 저장하고 조건부 패턴 기반을 탐색하여 빈발항목집합을 찾는다.
마. 결과 해석 시 유의사항
- 신뢰도만으로 판단 금지: Y 자체가 자주 발생하면 신뢰도가 높게 보일 수 있다.
- 향상도 확인: Lift가 1에 가까우면 실질적 연관성이 약할 수 있다.
- 최소 지지도 조정: 너무 높으면 의미 있는 희소 규칙이 사라지고, 너무 낮으면 규칙이 과도하게 많아진다.
- 업무 맥락 반영: 통계적으로 유의해도 실제 마케팅이나 추천에 적합하지 않을 수 있다.
- 인과관계 오해 방지: 연관분석은 동시 발생 패턴이지 원인과 결과를 직접 증명하지 않는다.
동작 핵심: 트랜잭션 변환 → 최소 지지도 설정 → 빈발항목집합 탐색 → 연관규칙 생성 → 지지도·신뢰도·향상도 평가 → 업무 적용
관리 포인트: 신뢰도와 함께 향상도, 지지도, 업무 맥락을 같이 검토해야 한다.
가. 분야별 활용 사례
| 분야 | 활용 방식 | 기대 효과 |
|---|---|---|
| 유통 | 장바구니 분석으로 함께 구매되는 상품 조합 도출 | 상품 진열, 묶음 판매, 교차판매 강화 |
| 전자상거래 | 구매 이력과 장바구니 기반 상품 추천 | 전환율 증가, 객단가 상승 |
| 콘텐츠 서비스 | 동시 시청·동시 클릭 패턴 기반 콘텐츠 추천 | 체류시간 증가, 개인화 서비스 개선 |
| 금융 | 금융상품 가입 조합 분석 | 맞춤형 상품 제안, 고객군별 영업전략 수립 |
| 의료 | 질병, 처방, 검사 항목의 동시 발생 분석 | 진료 패턴 분석, 위험군 탐색 |
| 보안 | 로그 이벤트 간 동시 발생 패턴 분석 | 이상행위 탐지, 보안관제 룰 개선 |
나. 실무 적용 절차
- 분석 목적 정의: 추천, 교차판매, 이상패턴 탐지 등 활용 목적을 정한다.
- 트랜잭션 기준 설정: 주문 단위, 고객 단위, 세션 단위 등 묶음 기준을 결정한다.
- 항목 정제: 너무 일반적인 항목, 오류 항목, 희소 항목을 정리한다.
- 임계값 설정: 최소 지지도, 최소 신뢰도, 최소 향상도 기준을 정한다.
- 규칙 도출: Apriori 또는 FP-Growth로 규칙을 생성한다.
- 업무 검토: 도출 규칙의 마케팅·추천 활용 가능성을 검토한다.
- 성과 측정: 추천 클릭률, 구매전환율, 매출 증가, 캠페인 반응률을 확인한다.
다. 주요 문제점과 대응
| 문제점 | 원인 | 대응 |
|---|---|---|
| 규칙 과다 생성 | 임계값이 낮거나 항목 수가 많음 | 최소 지지도·신뢰도·향상도 조정, 업무 기준 필터링 |
| 의미 없는 규칙 | 자주 팔리는 상품이 모든 규칙에 포함됨 | 향상도와 업무 해석을 함께 적용 |
| 희소 항목 누락 | 최소 지지도가 높아 드문 중요 패턴이 제거됨 | 상품군별 기준 차등 적용, 세그먼트별 분석 |
| 성능 저하 | 항목 조합이 많아 계산량 폭증 | FP-Growth, 분산처리, 항목 필터링 적용 |
| 인과관계 오해 | 연관성을 원인관계로 해석 | 업무 실험, A/B Test, 전문가 검토 병행 |
| 데이터 품질 문제 | 누락, 오류, 중복 거래 포함 | 전처리, 이상값 제거, 기준정보 정비 수행 |
라. 실무 운영 포인트
연관분석은 결과 규칙이 많아질수록 실제 활용성이 떨어질 수 있다. 따라서 지표 기준과 업무 기준을 함께 적용해야 한다. 또한 전체 고객을 한 번에 분석하기보다 고객군, 지역, 시즌, 채널, 상품군별로 나누면 더 의미 있는 규칙을 얻을 수 있다.
실무 핵심: 연관분석은 규칙을 많이 찾는 것이 목적이 아니라, 업무적으로 활용 가능한 규칙을 찾는 것이 목적이다.
적용 방향: 추천, 상품 진열, 번들 판매, 개인화 마케팅, 이상패턴 탐지
가. Apriori와 FP-Growth 비교
| 구분 | Apriori | FP-Growth |
|---|---|---|
| 탐색 방식 | 후보 항목집합 생성 후 지지도 계산 | FP-Tree를 구성하여 빈발패턴 탐색 |
| 장점 | 원리가 단순하고 이해가 쉬움 | 후보 생성이 적어 대규모 데이터에 효율적 |
| 단점 | 후보가 많아지면 계산량이 증가 | 트리 구성과 구현이 상대적으로 복잡 |
| 적합 환경 | 중소규모 데이터, 교육·기초 분석 | 대규모 거래 데이터, 빈발패턴 탐색 |
나. 연관분석과 분류분석 비교
| 구분 | 연관분석 | 분류분석 |
|---|---|---|
| 목적 | 항목 간 동시 발생 규칙 탐색 | 입력 데이터를 사전 정의된 클래스로 예측 |
| 학습 형태 | 비지도·탐색적 분석 성격 | 지도학습 |
| 출력 | X → Y 형태의 규칙 | 클래스 또는 확률 |
| 대표 지표 | 지지도, 신뢰도, 향상도 | 정확도, 정밀도, 재현율, F1 |
| 활용 | 추천, 교차판매, 장바구니 분석 | 고객 이탈 예측, 신용등급 분류, 이상탐지 |
다. 지표 해석 비교
| 지표 | 의미 | 해석 방향 |
|---|---|---|
| 지지도 | 규칙이 전체 데이터에서 얼마나 자주 나타나는가 | 너무 낮으면 실무 적용성이 낮을 수 있음 |
| 신뢰도 | X가 발생했을 때 Y가 함께 발생할 가능성 | Y 자체의 빈도가 높으면 과대평가될 수 있음 |
| 향상도 | X가 Y 발생 가능성을 얼마나 증가시키는가 | 1보다 크면 양의 연관성, 1이면 독립에 가까움 |
라. 발전전망
- 실시간 추천: 스트리밍 로그와 결합하여 실시간 개인화 추천에 활용된다.
- 그래프 분석 결합: 상품, 고객, 행동 간 관계를 그래프로 표현하여 고차 관계를 분석한다.
- AI 추천시스템 연계: 협업필터링, 딥러닝 추천과 결합하여 하이브리드 추천 모델로 발전한다.
- 설명 가능한 추천: 사용자가 이해할 수 있는 추천 근거를 제공한다.
- 대규모 분산처리: 분산 환경에서 대량 트랜잭션 분석이 확대된다.
- 도메인 특화 분석: 의료, 보안, 제조 이벤트 등 구매 데이터 외 다양한 사건 데이터에 적용된다.
마. 최종 정리
연관분석은 대량의 거래·행동 데이터에서 항목 간 동시 발생 규칙을 탐색하는 기법이다. 분석 절차는 트랜잭션 변환, 빈발항목집합 탐색, 연관규칙 생성, 지지도·신뢰도·향상도 평가, 업무 적용 순서로 정리할 수 있다.
결론: 연관분석은 고객 구매와 행동 패턴을 해석 가능한 규칙으로 도출하여 추천, 교차판매, 마케팅, 이상패턴 탐지에 활용하는 데이터마이닝 기법이다.
핵심 키워드: 트랜잭션, 빈발항목집합, 연관규칙, Support, Confidence, Lift, Apriori, FP-Growth
'데이터베이스' 카테고리의 다른 글
| 대규모 데이터 처리의 핵심: 빅데이터 아키텍처 설계 (0) | 2026.05.27 |
|---|---|
| 모든 결정자가 후보키인 정규형: 제3정규형(3NF)의 한계 극복과 BCNF(3.5NF) 변환 원리 (0) | 2026.05.26 |
| DB 설계의 뼈대: 함수적 종속성(FD)의 개념과 완전/부분/이행적 종속 심층 분석 (0) | 2026.05.13 |
| DB 동시성 제어의 절대 규칙: 2PL의 확장/수축 단계와 연쇄 복귀 방지(Strict 2PL) (0) | 2026.04.16 |
| MSA 환경의 데이터 일관성 보장: 2PC의 Prepare-Commit 원리와 Saga(사가) 패턴 비교 (0) | 2026.04.16 |