AI / Big Data · 한장정리
[기술사토픽] AI 안전성 & 정렬 완벽 정리 - 한장정리
AI 안전성 개념, 정렬 문제(Alignment Problem), 적대적 공격·방어, AI 레드팀, 책임 있는 AI 프레임워크까지 완벽 정리합니다.
Ⅰ.AI 안전성 위협 체계
개념: AI 안전성(AI Safety)은 AI 시스템이 의도한 대로 동작하고 의도치 않은 해로운 결과를 방지하는 연구 분야입니다. LLM의 급속한 발전으로 2023년 이후 핵심 과제로 부상했습니다.
| 위협 유형 | 설명 | 예시 |
|---|---|---|
| 오정렬(Misalignment) | AI가 인간 의도와 다른 목표를 추구 | 목표 사양 오류·보상 해킹 |
| 적대적 공격 (Adversarial Attack) | 입력에 미세한 변형으로 모델 오분류 유도 | 이미지에 노이즈→자동차→타조 분류 |
| 데이터 중독 (Data Poisoning) | 훈련 데이터에 악성 패턴 삽입 | 특정 촉발어→원하는 출력 |
| 모델 추출 (Model Extraction) | API 쿼리로 내부 모델 역설계 | 경쟁사 모델 복제 |
| 프라이버시 침해 | 훈련 데이터 기억→개인정보 노출 | LLM이 개인정보 출력 |
| 탈옥(Jailbreaking) | 안전 필터 우회로 유해 콘텐츠 생성 | 프롬프트 인젝션 |
Ⅱ.AI 정렬 & 안전 기법
가. AI 정렬 (Alignment) 기법
| 기법 | 설명 | 활용 |
|---|---|---|
| RLHF | 인간 피드백으로 선호도 학습 | ChatGPT·Claude 핵심 |
| Constitutional AI (CAI) | AI 자체 원칙으로 자기 비판·개선 | Anthropic Claude |
| RLAIF | AI 피드백으로 정렬 (인간 레이블 감소) | Gemini·Claude 3 |
| DPO (직접 선호 최적화) | 보상 모델 없이 선호 데이터로 직접 학습 | RLHF보다 단순·효율적 |
| 값 학습 (Value Learning) | 인간의 가치관을 명시적으로 학습 | 연구 단계 |
나. 적대적 공격 & 방어
| 공격 기법 | 설명 |
|---|---|
| FGSM (Fast Gradient Sign Method) | 손실 함수 기울기 방향으로 최소 노이즈 추가 |
| PGD | FGSM의 반복 버전. 더 강력한 공격 |
| C&W 공격 | 최소 변형으로 특정 클래스로 오분류 |
| 프롬프트 인젝션 | LLM 시스템 프롬프트 무력화 지시 삽입 |
| 방어 기법 | 설명 |
|---|---|
| 적대적 훈련 | 적대적 예시를 훈련 데이터에 포함 |
| 입력 정제 | 노이즈 제거·스무딩 전처리 |
| 모델 앙상블 | 복수 모델 투표로 강건성 향상 |
| 인증 방어 | 공격 반경 내 정확도 수학적 보장 |
다. AI 레드팀 (Red Teaming)
AI 레드팀은 전문 팀이 AI 시스템의 안전성·보안·편향을 적대적 관점에서 체계적으로 평가하는 활동입니다.
| 레드팀 항목 | 설명 |
|---|---|
| 안전 필터 우회 테스트 | 다양한 프롬프트로 유해 콘텐츠 유도 시도 |
| 편향·공정성 검사 | 특정 인구 집단에 대한 불공정한 출력 탐지 |
| 사실성 검사 | 할루시네이션·사실 오류 발생 빈도 측정 |
| 사이버 보안 | 적대적 입력으로 시스템 보안 취약점 탐지 |
시험 포인트
AI 안전성 3대 원칙 (Anthropic): Helpful(도움됨)·Harmless(무해함)·Honest(정직함)
Constitutional AI: AI가 스스로 원칙에 따라 출력을 비판·개선하는 자기 정렬 방법.
Ⅲ.결론
결론
AI 안전성과 정렬은 강력한 AI가 인간의 가치와 의도에 부합하도록 만드는 핵심 과제입니다.
향후 초지능 AI(AGI) 안전과 AI 거버넌스 법제화가 글로벌 최우선 과제가 됩니다.
"AI를 더 강력하게 만드는 것과 더 안전하게 만드는 것은 반드시 함께 이루어져야 한다."
블로그: 기술사 학습노트 · imt-log.tistory.com
'AI빅데이터' 카테고리의 다른 글
| 시계열 분석 예측 모델 핵심 개념 정리 (0) | 2026.03.26 |
|---|---|
| AI 슈퍼컴퓨팅 뉴로모픽 칩 개념 정리 (0) | 2026.03.26 |
| 추천 시스템 협업 필터링 데이터 마이닝 정리 (0) | 2026.03.25 |
| 양자컴퓨팅 양자 AI 개념과 활용 정리 (0) | 2026.03.25 |
| 온디바이스 AI 엣지 AI NPU 양자화 정리 (0) | 2026.03.25 |