본문 바로가기
AI빅데이터

컴퓨터 비전 CNN 생성 AI 개념 정리

by 매일기술사 2026. 3. 24.
AI/Big Data · 한장정리

[기술사토픽] 컴퓨터 비전 & 생성 AI 완벽 정리 - 한장정리

이미지 분류·객체탐지·세그멘테이션, Diffusion Model, 멀티모달 AI까지 기술사 최신 주제를 완벽 정리합니다.

컴퓨터비전객체탐지Diffusion멀티모달생성AIDALL-E정보관리기술사

Ⅰ.컴퓨터 비전 핵심 태스크

태스크 설명 대표 모델
이미지 분류 이미지→클래스 레이블 ResNet·VGG·EfficientNet
객체 탐지 이미지 내 객체 위치+클래스 YOLO·Faster R-CNN·SSD
시맨틱 세그멘테이션 픽셀단위 클래스 분류 U-Net·SegNet·DeepLab
인스턴스 세그멘테이션 객체별 픽셀 분리 Mask R-CNN
자세 추정 인체 관절 위치 추정 OpenPose·MediaPipe
OCR 이미지→텍스트 추출 Tesseract·PaddleOCR
시험 포인트

YOLO(You Only Look Once): 이미지를 한번만 보고 실시간 객체 탐지. 속도 우선.
Faster R-CNN: 영역 제안→분류. 정확도 우선.

Ⅱ.생성 AI & 멀티모달

모델 방식 특징 활용
GAN 생성자vs판별자 적대적 학습 고품질 이미지 생성. 학습 불안정 딥페이크·스타일 변환
VAE 잠재 공간 인코더-디코더 연속 잠재 공간. 부드러운 보간 데이터 증강·이상탐지
Diffusion Model 노이즈 추가→역방향 노이즈 제거 학습 최고 품질 이미지. 느린 샘플링 Stable Diffusion·DALL-E·Midjourney
Flow Matching 확률적 흐름 매칭 Diffusion보다 빠른 샘플링 최신 이미지 생성
나. 멀티모달 AI
모델 입력 출력 설명
CLIP 텍스트+이미지 유사도 점수 텍스트-이미지 대조 학습
GPT-4V 텍스트+이미지 텍스트 이미지 이해+텍스트 생성
Gemini 텍스트+이미지+오디오+코드 다양한 형식 Google 멀티모달 LLM
DALL-E 3 텍스트 이미지 텍스트→이미지 생성
시험 포인트

Diffusion Model = 노이즈 추가(Forward)→노이즈 제거(Reverse) 학습.
CLIP: 대조 학습(Contrastive Learning)으로 텍스트-이미지 공통 표현 공간 학습.

Ⅲ.결론

결론

컴퓨터 비전과 생성 AI는 인간의 시각 능력을 모방·초월하는 수준에 도달했습니다.
의료진단·자율주행·창작 도구로 활용이 폭발적으로 확산되고 있습니다.

"생성 AI는 인류의 창의성을 증폭시키는 도구이다. 대체가 아닌 협력."

블로그: 기술사 학습노트 · imt-log.tistory.com