재해복구계획(DRP, Disaster Recovery Plan)
재해 발생 이후 정보시스템을 목표 시간 안에 복구하기 위한 실행 계획으로서, 복구 우선순위·대체센터·백업·복구 절차·훈련 체계를 문서화한 운영 프레임워크를 정리한다.
가. 개념
DRP는 화재, 정전, 침수, 지진, 통신 두절, 랜섬웨어, 운영 실수와 같은 재해 상황이 발생했을 때 핵심 정보시스템을 합의된 목표 시간 안에 복구하기 위한 구체적 실행 문서이다. 단순한 백업 목록이 아니라, 어떤 업무를 먼저 살려야 하는지, 어느 대체센터로 전환할지, 누가 승인하고 누가 복구를 수행할지, 어떤 순서로 데이터와 애플리케이션을 복원할지까지 포함하는 운영 계획이다. 따라서 DRP는 시스템 관점의 문서이면서도 업무 복구 우선순위와 직접 연결된다는 점에서 기술과 경영이 만나는 접점에 위치한다.
시험 답안에서는 DRP를 “재해 이후 IT 서비스를 복구하는 계획” 정도로만 쓰면 얕아 보인다. “RTO·RPO를 기준으로 복구 대상을 우선순위화하고, 대체 인프라·복구 절차·연락 체계·훈련 체계를 문서화한 실행 중심 계획”이라고 서술해야 점수가 잘 나온다. 특히 BCP가 업무 지속 전체를, BCM이 전사적 관리체계를, DRP가 그중 정보시스템 복구 실행계획을 담당한다는 관계를 분리해 써야 답안이 선명해진다.
나. 특징
- 재해 전 예방 문서가 아니라, 재해 발생 직후 실제로 가동되는 실행형 복구 계획이다.
- 복구 범위는 서버, 네트워크, 스토리지, DB, 애플리케이션, 보안장비, 운영절차까지 포함한다.
- 핵심 지표는 RTO(복구목표시간), RPO(복구목표시점), 서비스 우선순위, 대체센터 수준이다.
- 문서만 있으면 끝나는 것이 아니라 정기 모의훈련, 복구 테스트, 변경관리와 연동되어야 실효성이 생긴다.
정리하면 DRP는 “백업”보다 넓고, “BCP”보다 좁다. 즉, 백업 데이터를 어떤 순서와 절차로 실제 서비스 복구까지 연결할 것인지 정의하는 실전형 문서가 DRP이다.
가. 구성도
나. 구성요소
| 구분 | 요소 | 설명 |
|---|---|---|
| 정책 | 재해 선언 기준 | 어느 수준의 장애를 재해로 판단하고 비상체계를 가동할지에 대한 의사결정 기준과 승인권자 정의 |
| 분석 | BIA | 업무영향분석을 통해 핵심 서비스, 허용 중단시간, 우선 복구 대상, 의존 시스템을 도출 |
| 목표 | RTO / RPO | 복구 완료 목표 시간과 허용 가능한 데이터 손실 시점을 수치화하여 복구전략의 기준으로 사용 |
| 인프라 | 대체센터 | Hot, Warm, Cold 사이트 또는 클라우드 DR 환경을 사전에 확보하여 전환 가능 상태 유지 |
| 데이터 | 백업·복제 체계 | 전체/증분/차등 백업, 스냅샷, 로그전송, 비동기·동기 복제를 조합하여 복구 가능성 확보 |
| 절차 | 복구 Runbook | 시스템별 기동 순서, 네트워크 전환, 애플리케이션 재기동, 검증 체크리스트, 원복 절차를 문서화 |
| 조직 | 비상연락 체계 | 복구 책임자, 승인자, 운영자, 외주사, 통신사, 장비사 연락처와 역할을 명확히 정의 |
| 검증 | 모의훈련 | 도상훈련, 부분복구, 전환복구 테스트를 통해 계획의 실효성을 점검하고 개선사항을 반영 |
구성요소를 외울 때는 “분석-BIA, 목표-RTO/RPO, 인프라-대체센터, 데이터-백업복제, 절차-Runbook, 조직-연락체계, 검증-모의훈련”으로 묶어 기억하면 답안 전개가 자연스럽다.
가. 동작방식
재해가 발생하면 먼저 장애 수준과 영향 범위를 판단하여 재해선언 여부를 결정한다. 이후 BIA에서 정의된 우선순위에 따라 핵심 서비스를 선별하고, 서비스별 RTO·RPO를 만족할 수 있는 복구전략을 적용한다. 예를 들어 인터넷뱅킹과 같은 고가용 서비스는 실시간 복제 기반 대체센터 전환을 선택하고, 내부 행정시스템은 Warm 또는 Cold 형태의 단계적 복구로 대응할 수 있다. 즉 DRP는 모든 시스템을 동시에 살리는 것이 아니라, 우선순위와 복구 목표를 기준으로 제한된 자원을 가장 중요한 업무에 먼저 배분하는 구조다.
복구 절차는 보통 “인프라 복구 → 데이터 복구 → 미들웨어/DB 기동 → 애플리케이션 기동 → 사용자 검증 → 정상 서비스 공지” 흐름으로 진행된다. 이때 백업만 있으면 충분하다고 보기 어렵다. 백업 데이터의 무결성, 버전 일치성, 네트워크 라우팅 전환, 인증체계 연동, 보안정책 재적용이 함께 이루어져야 실제 서비스가 살아난다. 따라서 DRP는 기술문서이면서 동시에 운영절차서이며, 각 단계별 승인과 검증 포인트가 분명해야 한다.
나. 아키텍처
| 유형 | 구성 | 장점 | 제약 |
|---|---|---|---|
| Hot Site | 대체센터가 실시간 또는 준실시간으로 운영센터와 동기화 | RTO, RPO를 매우 짧게 가져갈 수 있어 핵심업무에 적합 | 구축·운영 비용이 가장 높고 운영 복잡도도 크다 |
| Warm Site | 기본 인프라는 준비되어 있고 데이터 동기화와 기동은 부분 자동화 | 비용과 복구 속도의 균형이 좋다 | 실시간 서비스에는 한계가 있으며 일부 수동 작업 필요 |
| Cold Site | 공간과 전원 등 기본 환경만 준비, 장비와 데이터는 재배치 필요 | 유지비가 낮다 | RTO가 길어 중요 서비스에는 부적합 |
| Cloud DR | 클라우드 기반 이미지, 스냅샷, IaC, 오토스케일을 활용한 재구성 | 유연성과 자동화 수준이 높고 지역 분산이 용이 | 네트워크, 보안, 비용 통제, 멀티클라우드 복잡성 고려 필요 |
답안에서 아키텍처를 설명할 때는 “Hot/Warm/Cold 분류”만 쓰지 말고, 어떤 서비스에 어떤 유형이 적합한지까지 연결해야 한다. 즉 복구 전략은 기술 선택이 아니라 업무 중요도와 비용의 균형 문제라고 쓰는 것이 좋다.
가. 실무 적용
금융권은 전자금융감독규정 등으로 인해 짧은 RTO·RPO가 요구되므로 이중화, 복제, 대체센터 전환 절차가 정교하게 설계된다. 반면 일반 제조기업은 ERP, MES, 그룹웨어, 메일 등 업무군을 나누어 복구 우선순위를 차등 적용하는 경우가 많다. 최근에는 랜섬웨어 위협 때문에 단순 이중화보다 불변 백업(Immutable Backup), 오프라인 백업, 계정 분리, 복구계정 보호까지 DRP 범위에 포함하는 추세다.
또한 클라우드 환경에서는 서버 이미지를 코드로 정의하고, Terraform이나 CloudFormation 같은 IaC를 이용해 대체 환경을 자동 재생성하는 방식이 널리 쓰인다. 이 경우 DRP 문서는 장비 리스트보다 재배포 스크립트, 접근권한, 네트워크 보안정책, 비밀키 관리, DNS 전환 절차, 검증 체크리스트를 중심으로 작성하는 것이 실전적이다.
나. 사례
- 금융업: 계정계·인터넷뱅킹은 Hot Site, 내부 지원업무는 Warm Site로 분리해 비용을 통제하면서 핵심 서비스만 초단시간 복구.
- 공공기관: 행정시스템의 법정 업무를 기준으로 우선순위를 정하고, 국가 재난 상황에서도 대국민 서비스를 계속 제공하도록 DR 센터 운영.
- 제조업: MES와 설비 모니터링은 빠른 복구를, 문서관리와 일부 배치업무는 지연 복구를 적용하여 복구 자원을 차등 배분.
- 클라우드 서비스: 멀티 AZ, 크로스 리전 복제, 객체 스토리지 버전관리, DB PITR을 결합하여 자동화된 DR 체계 구현.
실무형 답안으로 보이게 하려면 “핵심 시스템은 Hot, 일반 시스템은 Warm/Cold”처럼 우선순위와 비용을 함께 서술하는 것이 좋다. 이 한 문장이 단순 암기형 답안과 설계형 답안을 가른다.
가. 비교분석
| 항목 | BCM | BCP | DRP |
|---|---|---|---|
| 관점 | 전사적 연속성 관리체계 | 업무 지속 계획 | 정보시스템 복구 실행계획 |
| 범위 | 조직, 인력, 시설, 협력사, IT 포함 | 핵심 업무 지속 절차 중심 | 센터, 서버, DB, 네트워크, 백업 중심 |
| 목적 | 재해 대응 거버넌스 정립 | 핵심 업무 중단 최소화 | IT 서비스 복구와 데이터 복원 |
| 시험 포인트 | 관리체계, 정책, 책임 | 업무 우선순위, 대체 절차 | RTO/RPO, 센터 유형, 복구 절차 |
나. 발전전망
앞으로 DRP는 문서 중심에서 자동화 중심으로 이동한다. 재해 발생 시 수동으로 장비를 세팅하는 방식보다, 코드형 인프라와 오케스트레이션을 이용해 복구 환경을 자동 기동하는 방향이 일반화되고 있다. 또한 사이버 복원력(Cyber Resilience) 관점이 강화되면서, 랜섬웨어·내부자 위협·공급망 공격까지 고려한 복구 전략이 중요해지고 있다. 즉 재해의 범위가 자연재해에서 사이버 재난까지 확대되고 있으며, DRP 역시 단순 시설 이중화에서 데이터 무결성·신뢰된 복구·격리된 백업까지 포괄하는 구조로 발전 중이다.
최종 정리하면 DRP는 “재해 이후 IT 서비스를 정해진 시간 안에 복구하는 실행 계획”이다. 답안에서는 BIA, RTO/RPO, 대체센터, 백업·복제, Runbook, 모의훈련을 축으로 전개하면 안정적으로 고득점을 노릴 수 있다.
'소프트웨어공학' 카테고리의 다른 글
| 애자일과 데브옵스를 품은 ITSM: ITIL 4의 가치 공동 창출 원리 (2) | 2026.05.02 |
|---|---|
| 섭테크(SupTech) 핵심: AI와 빅데이터를 활용한 스마트 금융 감독 (0) | 2026.04.30 |
| 혁신 기술의 시장 진입 전략: 기술수용주기 5단계와 죽음의 계곡(캐즘) (0) | 2026.04.28 |
| 복잡한 금융 규제를 IT로 해결하다: 레그테크(RegTech) 핵심 기술과 도입 효과 (0) | 2026.04.28 |
| 모놀리식을 어떻게 쪼갤까? DDD 기반의 성공적인 MSA 전환 아키텍처 (0) | 2026.04.26 |