AI/Big Data · 한장정리
[기술사토픽] 자연어처리 & LLM 완벽 정리 - 한장정리
NLP 처리 단계, Transformer·BERT·GPT 구조, RAG·프롬프트 엔지니어링, LLM 활용까지 기술사 최신 주제를 완벽 정리합니다.
Ⅰ.자연어처리 기초 & Transformer
개념: NLP(Natural Language Processing)는 인간의 언어를 컴퓨터가 이해·생성·분석하는 AI 분야입니다.
| NLP 처리 단계 | 설명 |
|---|---|
| 토크나이제이션 | 텍스트를 토큰(단어·서브워드)으로 분할 |
| 어휘화·임베딩 | 토큰을 밀집 벡터로 변환 (Word2Vec·GloVe·BERT) |
| 언어 모델링 | 다음 토큰 예측 확률 학습 |
| 파인튜닝 | 사전학습 모델을 특정 태스크에 적응 |
나. BERT vs GPT
| 구분 | BERT | GPT |
|---|---|---|
| 방향성 | 양방향 (문장 전체 맥락) | 단방향 (왼쪽→오른쪽) |
| 사전학습 | MLM(마스크 언어 모델) | CLM(인과 언어 모델) |
| 적합 태스크 | 분류·NER·QA | 텍스트 생성·대화 |
| 파인튜닝 | 태스크별 파인튜닝 필요 | 프롬프팅으로 제어 가능 |
Ⅱ.LLM & RAG & 프롬프트 엔지니어링
LLM(Large Language Model)은 수천억 개 파라미터를 가진 대규모 언어 모델입니다. GPT-4·Claude·Gemini·LLaMA가 대표적입니다.
| LLM 활용 기법 | 설명 | 특징 |
|---|---|---|
| 프롬프트 엔지니어링 | 명확한 지시·예시·맥락 제공으로 출력 제어 | 파인튜닝 불필요 |
| Few-Shot 학습 | 예시 몇 개를 프롬프트에 포함 | 예시→패턴 학습 |
| Chain-of-Thought | 단계별 추론 과정을 포함하도록 유도 | 복잡한 추론 정확도 향상 |
| RAG (검색 증강 생성) | 외부 지식 DB 검색→컨텍스트로 주입 | 최신 정보·도메인 지식 활용 |
| RLHF | 인간 피드백으로 강화학습 → 사람 선호 정렬 | ChatGPT 핵심 기법 |
| Fine-Tuning | 특정 도메인 데이터로 추가 학습 | 도메인 특화·비용 |
| LoRA·QLoRA | 저랭크 행렬로 경량 파인튜닝 | GPU 메모리 절약 |
시험 포인트
RAG = 벡터DB에서 관련 문서 검색 → LLM 프롬프트에 컨텍스트로 주입 → 생성.
할루시네이션(Hallucination): LLM이 사실이 아닌 내용을 자신있게 생성하는 문제. RAG로 완화.
Ⅲ.결론
결론
LLM은 AI 민주화의 핵심 기술로 모든 산업에 적용되고 있습니다.
향후 멀티모달 LLM·에이전트 AI·소형 언어 모델(SLM)로 발전합니다.
"LLM은 인류 지식의 압축이다. RAG는 그 지식에 현재를 연결하는 다리이다."
블로그: 기술사 학습노트 · imt-log.tistory.com
'AI빅데이터' 카테고리의 다른 글
| 양자컴퓨팅 양자 AI 개념과 활용 정리 (0) | 2026.03.25 |
|---|---|
| 온디바이스 AI 엣지 AI NPU 양자화 정리 (0) | 2026.03.25 |
| AI 네이티브 개발 플랫폼 DSLM 개념 정리 (0) | 2026.03.25 |
| 다중 에이전트 시스템 물리적 AI 정리 (0) | 2026.03.25 |
| MLOps AI 파이프라인 구축 개념 정리 (0) | 2026.03.25 |