AI/Big Data · 한장정리
[기술사토픽] 컴퓨터 비전 & 생성 AI 완벽 정리 - 한장정리
이미지 분류·객체탐지·세그멘테이션, Diffusion Model, 멀티모달 AI까지 기술사 최신 주제를 완벽 정리합니다.
Ⅰ.컴퓨터 비전 핵심 태스크
| 태스크 | 설명 | 대표 모델 |
|---|---|---|
| 이미지 분류 | 이미지→클래스 레이블 | ResNet·VGG·EfficientNet |
| 객체 탐지 | 이미지 내 객체 위치+클래스 | YOLO·Faster R-CNN·SSD |
| 시맨틱 세그멘테이션 | 픽셀단위 클래스 분류 | U-Net·SegNet·DeepLab |
| 인스턴스 세그멘테이션 | 객체별 픽셀 분리 | Mask R-CNN |
| 자세 추정 | 인체 관절 위치 추정 | OpenPose·MediaPipe |
| OCR | 이미지→텍스트 추출 | Tesseract·PaddleOCR |
시험 포인트
YOLO(You Only Look Once): 이미지를 한번만 보고 실시간 객체 탐지. 속도 우선.
Faster R-CNN: 영역 제안→분류. 정확도 우선.
Ⅱ.생성 AI & 멀티모달
| 모델 | 방식 | 특징 | 활용 |
|---|---|---|---|
| GAN | 생성자vs판별자 적대적 학습 | 고품질 이미지 생성. 학습 불안정 | 딥페이크·스타일 변환 |
| VAE | 잠재 공간 인코더-디코더 | 연속 잠재 공간. 부드러운 보간 | 데이터 증강·이상탐지 |
| Diffusion Model | 노이즈 추가→역방향 노이즈 제거 학습 | 최고 품질 이미지. 느린 샘플링 | Stable Diffusion·DALL-E·Midjourney |
| Flow Matching | 확률적 흐름 매칭 | Diffusion보다 빠른 샘플링 | 최신 이미지 생성 |
나. 멀티모달 AI
| 모델 | 입력 | 출력 | 설명 |
|---|---|---|---|
| CLIP | 텍스트+이미지 | 유사도 점수 | 텍스트-이미지 대조 학습 |
| GPT-4V | 텍스트+이미지 | 텍스트 | 이미지 이해+텍스트 생성 |
| Gemini | 텍스트+이미지+오디오+코드 | 다양한 형식 | Google 멀티모달 LLM |
| DALL-E 3 | 텍스트 | 이미지 | 텍스트→이미지 생성 |
시험 포인트
Diffusion Model = 노이즈 추가(Forward)→노이즈 제거(Reverse) 학습.
CLIP: 대조 학습(Contrastive Learning)으로 텍스트-이미지 공통 표현 공간 학습.
Ⅲ.결론
결론
컴퓨터 비전과 생성 AI는 인간의 시각 능력을 모방·초월하는 수준에 도달했습니다.
의료진단·자율주행·창작 도구로 활용이 폭발적으로 확산되고 있습니다.
"생성 AI는 인류의 창의성을 증폭시키는 도구이다. 대체가 아닌 협력."
블로그: 기술사 학습노트 · imt-log.tistory.com
'AI빅데이터' 카테고리의 다른 글
| 딥페이크 탐지 기술과 C2PA 표준 정리 (0) | 2026.03.24 |
|---|---|
| 데이터 파이프라인 거버넌스 구조 정리 (0) | 2026.03.24 |
| AI 반도체 NPU 엣지 AI 개념 정리 (0) | 2026.03.24 |
| AI 기본법 2026 시행 핵심 내용 정리 (0) | 2026.03.24 |
| AI 에이전트 멀티에이전트 시스템 개념 정리 (0) | 2026.03.20 |