기술사 학습노트 › AI / 빅데이터 › 기계학습 적대적 공격

AI / Big Data · 정보관리기술사 / 컴퓨터시스템응용기술사

기계학습 적대적 공격(Adversarial Attack)

AI 모델의 입력 또는 학습 과정에 의도적 교란을 가하여 오분류, 회피, 성능 저하, 모델 탈취를 유발하는 공격 기법과 방어 전략을 정리한다.

정보관리기술사 컴퓨터시스템응용기술사 적대적공격 AdversarialExample FGSM PGD DataPoisoning EvasionAttack AdversarialTraining AI보안

Ⅰ.개요 및 등장배경

가. 개념

기계학습 적대적 공격은 공격자가 학습 데이터, 입력 데이터, 모델 질의, 배포 환경을 조작하여 AI 모델이 잘못된 판단을 하도록 유도하는 공격이다. 대표적으로 사람이 보기에는 거의 차이가 없는 미세한 노이즈를 이미지에 추가해 분류기를 오분류시키는 적대적 예제(Adversarial Example)가 있다. 하지만 범위는 훨씬 넓다. 학습 데이터를 오염시키는 데이터 포이즈닝, 추론 단계에서 입력을 조작하는 회피 공격, 모델 내부 정보를 추정하는 모델 추출·반전 공격, 프롬프트 기반 AI에서 지시를 우회하는 공격까지 포함한다.

기술사 답안에서는 적대적 공격을 단순히 “이미지에 노이즈를 넣는 공격”으로 쓰면 부족하다. 고득점 답안은 공격 시점을 기준으로 학습단계 공격과 추론단계 공격을 구분하고, 공격자가 모델 정보를 얼마나 알고 있는지에 따라 White-box, Gray-box, Black-box로 나누며, 방어 측면에서는 적대적 학습, 입력 정제, 모델 앙상블, 이상탐지, 인증된 강건성까지 연결해야 한다.

나. 등장배경

딥러닝 모델은 고차원 공간에서 학습하므로 인간이 인지하기 어려운 작은 입력 변화에도 결정경계가 크게 흔들릴 수 있다.
자율주행, 얼굴인식, 의료영상, 금융사기 탐지, 악성코드 탐지처럼 AI가 안전과 보안 의사결정에 사용되면서 공격 가치가 증가하였다.
공격자는 모델 구조, 학습 데이터, API 응답, 출력 확률 등을 활용해 모델의 취약한 결정경계를 탐색할 수 있다.
클라우드 AI API와 오픈소스 모델 확산으로 모델 복제·전이 공격·질의 기반 공격이 쉬워졌다.
AI 시스템이 단순 모델이 아니라 데이터 파이프라인, MLOps, API, 사용자 인터페이스와 결합되면서 공격 표면이 넓어졌다.

적대적 공격의 본질은 “모델이 학습한 통계적 결정경계를 공격자가 의도적으로 교란하는 것”이다.
답안에서는 공격시점, 공격지식, 공격목표, 대표기법, 방어전략을 함께 구조화해야 한다.

Ⅱ.구성도 및 구성요소

가. 구성도

나. 구성요소

구분	요소	설명
공격자	Adversary	모델 오분류, 탐지 회피, 서비스 장애, 모델 정보 탈취 등을 목표로 입력·데이터·질의를 조작하는 주체이다.
대상	ML/DL Model	CNN, RNN, Transformer, GNN, 이상탐지 모델, 추천모델 등 공격 대상이 되는 학습 모델이다.
입력	Adversarial Example	정상 입력에 작은 교란을 추가하여 모델이 잘못된 출력을 내도록 만든 조작 입력이다.
공격시점	Training / Inference	학습 데이터 오염은 Training 단계, 회피·오분류 유도는 Inference 단계에서 수행된다.
공격지식	White / Gray / Black-box	공격자가 모델 구조·파라미터·출력 확률을 어느 정도 알고 있는지에 따라 공격 난이도와 기법이 달라진다.
대표기법	FGSM, PGD, C&W	손실함수 기울기 또는 최적화 기반으로 입력 교란을 생성하는 대표적 회피 공격 기법이다.
방어	Adversarial Training	적대적 샘플을 학습에 포함시켜 모델의 결정경계를 더 강건하게 만드는 대표 방어기법이다.
운영	MLOps Security	데이터 검증, 모델 모니터링, 이상입력 탐지, 버전관리, 감사로그를 통해 운영 단계 보안을 강화한다.

구성요소는 “공격자-대상모델-적대적입력-공격시점-공격지식-대표기법-방어-MLOps”로 정리하면 좋다.
적대적 공격 답안은 공격기법만 나열하지 말고 공격 표면과 방어 체계를 함께 써야 한다.

Ⅲ.동작방식 및 아키텍처

가. 공격 동작방식

적대적 예제 공격은 정상 입력 x에 작은 교란 δ를 더해 x' = x + δ를 만들고, 모델이 x'를 잘못 분류하도록 유도한다. 이때 사람에게는 원본과 거의 동일하게 보이지만, 모델의 손실함수 관점에서는 결정경계를 넘어가도록 설계된다. 예를 들어 이미지 분류 모델이 정지 표지판을 제한속도 표지판으로 인식하도록 노이즈나 패턴을 추가하는 방식이 가능하다.

FGSM(Fast Gradient Sign Method)은 손실함수의 기울기 부호 방향으로 한 번에 입력을 이동시키는 단순하고 빠른 공격이다. 수식으로는 x_adv = x + ε·sign(∇x J(θ,x,y))로 표현할 수 있다. PGD(Projected Gradient Descent)는 FGSM을 여러 번 반복하고 허용된 교란 범위 안으로 투영하여 더 강력한 적대적 샘플을 생성한다. C&W 공격은 최적화 문제로 적대적 교란을 구해 작은 변화로 높은 공격 성공률을 달성하려는 방식이다.

학습 단계 공격은 데이터 포이즈닝과 백도어 공격이 대표적이다. 데이터 포이즈닝은 학습 데이터에 잘못된 라벨이나 악의적 샘플을 삽입하여 모델 전체 성능을 떨어뜨린다. 백도어 공격은 특정 트리거가 포함된 입력에 대해서만 공격자가 원하는 결과를 출력하도록 모델을 학습시킨다. 정상 테스트에서는 성능이 좋아 보이기 때문에 탐지가 어렵다.

나. 공격 분류 체계

분류 기준	유형	설명	대표 사례
공격 시점	Training Attack	학습 데이터나 학습 과정에 개입한다	Data Poisoning, Backdoor
공격 시점	Inference Attack	운영 중 입력을 조작해 오분류를 유도한다	Evasion, FGSM, PGD
공격 지식	White-box	모델 구조, 파라미터, 기울기를 알고 공격한다	Gradient-based Attack
공격 지식	Black-box	모델 내부를 모르고 질의 결과만으로 공격한다	Query-based, Transfer Attack
공격 목표	Targeted Attack	특정 오답 클래스로 분류되도록 유도한다	고양이를 개로 오분류 유도
공격 목표	Untargeted Attack	정답이 아니기만 하면 성공으로 본다	정상 탐지를 회피
정보침해	Model Extraction	API 질의로 모델 기능을 복제한다	상용 AI API 탈취
정보침해	Model Inversion	모델 출력으로 학습 데이터 특성을 추정한다	얼굴·의료 데이터 추론

공격 분류는 “시점-지식-목표-정보침해”의 4축으로 쓰면 가장 깔끔하다.
특히 White-box와 Black-box, Training과 Inference를 구분하면 답안 수준이 올라간다.

Ⅳ.실무적용 및 사례

가. 주요 사례

자율주행에서는 도로 표지판에 스티커나 패턴을 부착해 인식 모델이 정지 표지판을 다른 표지판으로 오분류하게 만들 수 있다. 얼굴인식에서는 안경, 마스크, 패턴 스티커를 이용해 인증을 회피하거나 다른 사람으로 인식되도록 할 수 있다. 음성인식에서는 사람에게는 잡음처럼 들리는 신호가 AI 비서에게 특정 명령으로 인식되도록 조작할 수 있다.

보안 분야에서는 악성코드 탐지 모델을 회피하기 위해 코드 구조를 조금 변경하거나 특징값을 조작할 수 있다. 금융사기 탐지에서는 거래 패턴을 정상 사용자처럼 보이게 만들어 탐지를 회피할 수 있다. 의료영상 AI에서는 작은 픽셀 교란이 병변 탐지 결과를 바꿀 수 있어 환자 안전과 직결된다.

나. 방어 전략

방어기법	개념	장점	한계
Adversarial Training	적대적 샘플을 학습에 포함	대표적이고 효과적인 강건화 방법	학습 비용 증가, 특정 공격에 과적합 가능
Input Preprocessing	노이즈 제거, 압축, 필터링	구현이 비교적 쉬움	강한 공격에는 우회 가능
Defensive Distillation	부드러운 출력분포로 모델 학습	일부 공격에 안정성 향상	근본 방어로는 한계
Ensemble	여러 모델의 예측 결합	단일 모델 취약점 완화	비용 증가, 전이 공격 가능
Detection	이상입력·분포외 입력 탐지	운영 환경 방어에 유용	탐지 우회 공격 가능
Certified Robustness	특정 반경 내 예측 안정성 보장	이론적 보증 가능	대규모 모델 적용과 성능 균형 어려움
MLOps Governance	데이터·모델·API·로그 통제	전 생애주기 보안 확보	조직적 운영체계 필요

다. 실무 보안 아키텍처

데이터 단계: 학습 데이터 출처 검증, 라벨 검수, 데이터 드리프트 감시, 포이즈닝 탐지를 수행한다.
모델 단계: 적대적 학습, 강건성 평가, 공격 시뮬레이션, 취약 모델 교체 기준을 마련한다.
API 단계: 질의량 제한, 출력 확률 제한, 비정상 질의 탐지로 모델 추출 공격을 줄인다.
운영 단계: 입력 분포 변화, 오분류 패턴, 사용자 피드백, 보안 이벤트를 지속 모니터링한다.
감사 단계: 모델 버전, 데이터 버전, 판단 로그, 설명가능성 정보를 남겨 사고 원인 분석을 가능하게 한다.

실무형 답안으로 보이려면 적대적 공격을 모델 단독 문제가 아니라 데이터 파이프라인, API, MLOps, 운영 모니터링을 포함한 AI 시스템 보안 문제로 설명해야 한다.

Ⅴ.비교분석 및 발전전망

가. 일반 보안 공격과 비교

구분	전통적 보안 공격	기계학습 적대적 공격
공격 대상	시스템, 네트워크, 애플리케이션 취약점	모델 결정경계, 학습 데이터, 추론 입력
공격 방식	권한탈취, 취약점 악용, 악성코드 실행	입력 교란, 데이터 오염, 모델 질의 조작
탐지 난이도	시그니처·행위기반 탐지 가능	사람에게 정상처럼 보이는 입력도 공격 가능
방어 방식	패치, 접근통제, IDS/IPS, 암호화	강건 학습, 입력검증, 모델 모니터링, 인증 강건성
책임 범위	운영·보안 담당 중심	데이터, 모델, 개발, 운영, 보안, 거버넌스 공동 책임

나. 발전전망

적대적 공격 연구는 이미지 분류 중심에서 자연어처리, 음성인식, 추천시스템, 강화학습, 그래프 신경망, 생성형 AI로 확장되고 있다. 특히 LLM에서는 프롬프트 인젝션, 데이터 탈취, 모델 출력 조작, 도구 호출 악용이 새로운 형태의 적대적 공격으로 등장하고 있다. 따라서 AI 보안은 딥러닝 모델 강건성뿐 아니라 AI 애플리케이션 전체 생태계의 보안 문제로 확대되고 있다.

향후 방어는 단순 입력 필터링보다 인증 가능한 강건성, 신뢰 가능한 데이터 공급망, 안전한 모델 배포, AI Red Team, 모델 카드, 위험 기반 모니터링, 설명가능성, 보안 거버넌스가 결합되는 방향으로 발전할 가능성이 높다. 특히 자율주행·의료·금융·국방처럼 고위험 분야에서는 적대적 공격 내성 평가가 AI 시스템 검증의 필수 항목이 될 수 있다.

다. 시험 답안 정리 포인트

정의는 “미세 교란으로 모델 오판을 유도하는 공격”에서 시작하되, 학습단계와 추론단계 공격까지 확장한다.
공격 분류는 Training/Inference, White/Black-box, Targeted/Untargeted로 구조화한다.
대표 기법은 FGSM, PGD, C&W, Data Poisoning, Backdoor, Model Extraction을 제시한다.
방어 기법은 Adversarial Training, 입력 정제, 이상탐지, 앙상블, 인증 강건성, MLOps 보안으로 정리한다.
실무 사례는 자율주행, 얼굴인식, 음성인식, 악성코드 탐지, 금융사기 탐지로 연결한다.

최종 정리: 기계학습 적대적 공격은 모델의 결정경계와 데이터 의존성을 악용하여 오분류·회피·정보탈취를 유발하는 AI 보안 위협이다.
답안은 “공격시점 → 공격지식 → 대표기법 → 사례 → 방어전략 → MLOps 거버넌스” 흐름으로 쓰면 고득점형이 된다.

블로그: 기술사 학습노트 · imt-log.tistory.com

'AI빅데이터' 카테고리의 다른 글

데이터 분류의 정석: SVM(Support Vector Machine) 원리와 소프트 마진 (0)	2026.05.02
AI 킬러로봇은 국제인도법(IHL)을 지킬 수 있을까? 자율살상무기의 윤리적 쟁점 (0)	2026.04.28
활성화 함수 총정리: 시그모이드(Sigmoid)의 한계와 렐루(ReLU)의 등장 (0)	2026.04.27
RAG(검색 증강 생성) 완벽 분석: 환각 현상 해결과 벡터 DB (0)	2026.04.25
LLM에 몸통이 생긴다면? 피지컬 AI와 체화된 AI(Embodied AI)의 진화 (1)	2026.04.25

기술사 학습노트

인공지능의 눈을 속이는 미세한 노이즈: 적대적 공격의 원리와 방어 전략

기계학습 적대적 공격(Adversarial Attack)

가. 개념

나. 등장배경

가. 구성도

나. 구성요소

가. 공격 동작방식

나. 공격 분류 체계

가. 주요 사례

나. 방어 전략

다. 실무 보안 아키텍처

가. 일반 보안 공격과 비교

나. 발전전망

다. 시험 답안 정리 포인트

'AI빅데이터' 카테고리의 다른 글

티스토리툴바

인공지능의 눈을 속이는 미세한 노이즈: 적대적 공격의 원리와 방어 전략

기계학습 적대적 공격(Adversarial Attack)

가. 개념

나. 등장배경

가. 구성도

나. 구성요소

가. 공격 동작방식

나. 공격 분류 체계

가. 주요 사례

나. 방어 전략

다. 실무 보안 아키텍처

가. 일반 보안 공격과 비교

나. 발전전망

다. 시험 답안 정리 포인트

'AI빅데이터' 카테고리의 다른 글

관련글

티스토리툴바