본문 바로가기
AI빅데이터

AI 반도체 NPU 엣지 AI 개념 정리

by 매일기술사 2026. 3. 24.
AI / Big Data · 한장정리

[기술사토픽] AI 반도체 & 엣지 AI 완벽 정리 - 한장정리

GPU·TPU·NPU·FPGA AI 가속기 비교, 엣지 AI 개념, 모델 경량화(양자화·가지치기·지식증류), TinyML까지 완벽 정리합니다.

AI반도체NPUTPU엣지AI모델경량화양자화TinyML정보관리기술사

Ⅰ.AI 가속기 (AI Accelerator) 종류

개념: AI 가속기는 행렬 연산·텐서 연산에 특화된 하드웨어로, 범용 CPU 대비 AI 연산을 수십~수천 배 가속합니다.

가속기 특징 장점 단점 주 용도
GPU (그래픽처리장치) 수천 개 코어·병렬 행렬 연산 범용성 높음·소프트웨어 생태계 전력 소비 큼·고비용 클라우드 AI 학습·추론
TPU (텐서처리장치) Google 개발. 텐서 연산 특화 ASIC TensorFlow 최적화·에너지 효율 Google 플랫폼 종속 Google Cloud AI
NPU (신경망처리장치) 신경망 추론 특화 저전력 칩 모바일·IoT 저전력 범용성 낮음 스마트폰·엣지 디바이스
FPGA 재프로그래밍 가능한 회로 유연성·저지연 높은 개발 비용 산업용 추론·프로토타입
PIM (처리인메모리) 메모리 내부에서 연산 메모리 대역폭 문제 해결 초기 단계 대규모 LLM 추론
시험 포인트

GPU > TPU > NPU 순으로 범용성. NPU > TPU > GPU 순으로 전력 효율.
삼성 Exynos·Apple Silicon·Qualcomm Snapdragon에 모두 NPU 내장.

Ⅱ.엣지 AI & 모델 경량화

엣지 AI(Edge AI)는 클라우드가 아닌 디바이스(스마트폰·IoT·자동차)에서 직접 AI 추론을 수행하는 기술입니다.

구분 클라우드 AI 엣지 AI
추론 위치 원격 서버 로컬 디바이스
지연 높음 (네트워크) 낮음 (로컬)
프라이버시 데이터 전송 필요 데이터 로컬 처리
인터넷 필요 불필요 (오프라인 가능
성능 높음 (대형 모델) 제한적 (경량 모델
나. 모델 경량화 기법
기법 설명 압축률 정확도 손실
양자화 (Quantization) FP32→INT8·INT4로 정밀도 낮춤 4~8배 크기 감소 낮음 (INT8 기준)
가지치기 (Pruning) 중요도 낮은 가중치 제거 20~90% 희소화 중간
지식 증류 (Knowledge Distillation) 대형 모델(Teacher)→소형 모델(Student) 학습 모델 크기 대폭 감소 낮음~중간
행렬 분해 (Matrix Factorization) 가중치 행렬을 저랭크 행렬로 분해 중간 낮음
NAS (신경망 구조 탐색) 자동으로 경량 최적 구조 탐색 모델 의존 낮음
다. 주요 경량 모델
모델 기반 파라미터 특징
MobileNet CNN 3.4M 모바일 이미지 분류 특화
DistilBERT BERT 증류 66M BERT 대비 60% 크기·97% 성능
TinyLlama LLaMA 1.1B 엣지 LLM. 저전력
Phi-2 MS Research 2.7B 소형이지만 높은 추론 성능
Gemma Google 2B/7B 경량 오픈소스 LLM
시험 포인트

TinyML = 마이크로컨트롤러(MCU) 수준에서 ML 추론. Arduino·Raspberry Pi.
지식증류: Teacher(GPT-4) → Student(작은 모델). ChatGPT 훈련에도 활용(GPT-3.5→ChatGPT).

Ⅲ.결론

결론

AI 반도체와 엣지 AI는 AI를 모든 곳에 내재화하는 핵심 기술입니다.
향후 뉴로모픽 칩(인간 뇌 모방)AI-PIM이 차세대 AI 하드웨어 혁신을 이끌 것입니다.

"AI의 미래는 클라우드에만 있지 않다. 모든 디바이스가 AI를 품는 엣지 AI 시대가 온다."

블로그: 기술사 학습노트 · imt-log.tistory.com