DR(Disaster Recovery)시스템 : 서비스 중단 사태에 대비하는 재해 복구 시스템의 중요성

DR(Disaster Recovery)시스템 : 서비스 중단 사태에 대비하는 재해 복구 시스템의 중요성

작성자 hectodata

지난 10월 15일 판교에 위치한 SK C&C 데이터 센터 지하 전기실에서 화재가 발생했습니다. 다행히 인명 피해 없이 화재는 빠르게 진압되었지만, 카카오와 네이버 등 거대 플랫폼 기업들이 해당 센터에 서버를 두고 있기 때문에 서비스가 먹통 되는 문제가 발생했습니다. 가장 크게 타격을 입은 것은 카카오였죠.

화재 발생 후 전력 공급이 중단되면서 데이터 센터에 위치한 3만 2천 대의 카카오 서버 또한 멈췄습니다. 이로 인해 카카오톡을 비롯한 카카오택시, 카카오페이 등 모든 서비스들이 마비되는 심각한 피해를 입었습니다. 거의 모든 국민이 사용할 정도로 많은 이용자를 보유한 카카오였기에, 그 혼란의 파장은 엄청났습니다.

카카오톡은 문제 발생 이후 무려 10시간이 지나 복구되었으며, 17일에는 금융 서비스, 19일에는 메일 서비스 등 주요 기능들이 순차적으로 복구되었습니다. 하지만 20일 오전 9시 기준 다음카페와 같은 일부 서비스는 아직도 원활히 작동하지 않고 있죠.

카카오의 이례적인 사태로 인해 IT 업계에서 DR 시스템의 중요성이 다시금 부각되었습니다. 오늘은 이 모든 사태를 막을 수 있는 핵심 요소로 주목받고 있는 DR 시스템에 대해 알아보겠습니다.

DR(Disaster Recovery, 재해 복구)시스템이란?

IT 업계에서 DR은 지진・태풍・홍수・화재 등 외부적인 요인과 시스템 결함・사용자의 실수 등 내부적인 요인에 의해 서비스나 시스템이 중단되었을 때, 이를 정상화시키는 행위를 뜻합니다. 그리고 DR센터는 시스템 복구를 위해 핵심 데이터를 실시간으로 복제하는 일종의 저장 센터를 의미합니다.

DR센터는 피해 상황에 대비하여 데이터를 보호하는 역할을 하기 때문에 운영중인 서버가 보관된 IDC(Internet Data Center)와는 물리적으로 떨어진 곳에 설치하는 것이 원칙입니다.

DR 시스템은 어떻게 만들어질까?

DR 시스템 구축은 단순히 데이터를 동기화하고 복제하는 것에서 끝나지 않습니다. 예기치 못한 상황에 즉각적으로 대응하고, 빠르게 복구하는 것이 핵심이기 때문에 범위 정의부터 사전 테스트까지 여러 단계를 거치게 됩니다.

  1. 복구 범위 정의

장애 대비의 첫 번째 절차는 어디까지 복구할 것인지 정의를 내리는 것입니다. 비즈니스 연속성 계획(BCP)과 밀접한 관련이 있으며, 서비스 또는 시스템이 끊기지 않고 운영되기 위해 어디까지 복구되어야 하는지 그 범위를 정하는 단계입니다.

2. 재해 복구 전략 수립

위기 상황에서 재해 복구를 담당할 조직과 역할을 분담하고, 업무 중요도에 따라 복구 계획을 수립하는 단계입니다. 해당 단계에서 복구 솔루션으로 무엇을 쓸지, DR센터는 어디로 할지 등을 정합니다.

3. 데이터 백업 및 관리

상세 계획에 따라 데이터 백업을 진행합니다.

4. 운영 및 사전 테스트

예기치 못한 상황에 대처하기 위해 주기적으로 사전 테스트를 진행합니다. 테스트에서 문제점이 확인되면 이를 보완하기 위한 조치를 취하고 꾸준히 관리합니다.

DR 센터의 분류

DR 센터의 운영방식은 어떤 데이터까지 복구할 수 있는지, 그 수준에 따라 1~4등급으로 나뉩니다.

미러사이트(1등급)

거울을 비추듯이 실시간 동기화로 데이터를 복제하는 방식입니다. 주 데이터 센터와 동일한 수준으로 운영되는 DR센터를 원격지에 구축해둔 것으로, 내외부 재해 발생 시 즉시 복구가 가능합니다. 국내에서는 1금융권 전산센터에서는 무조건 미러사이트 방식을 이용해야 합니다.

문제가 발생했을 때 즉시 복구 및 서비스가 가능하다는 장점이 있지만, 초기 투자 비용이 매우 높고, 실시간 동기화로 운영되므로 데이터 업데이트 사항이 많은 경우 과부하가 걸릴 수 있다는 단점이 있습니다.

01-1

핫사이트(2등급)

주 센터만 가동하고, DR 센터는 대기 상태로 실시간 동기화를 진행하는 방식입니다. 미러사이트와 동일한 수준의 센터이지만, 평상시에는 대기 상태였다가 재해 발생 시 가동된다는 점이 다릅니다. 보통 4시간 이내에 복구가 완료됩니다.

대기 상태에서 안정적으로 운영되므로 데이터 업데이트가 많은 경우에 적합한 방식입니다. 하지만 핫사이트 또한 초기 투자 비용이 많이 들어간다는 단점이 있습니다.

02

웜사이트(3등급)

중요도가 높은 데이터만 DR 센터에 저장하고 나머지 데이터는 수 시간에서 하루 단위로 백업하는 운영 방식입니다. 미러사이트나 핫사이트에 비해 초기 구축 비용이 저렴한 편입니다. 하지만 데이터에 손실이 발생할 가능성이 높으며, 복구 소요 시간이 긴 편입니다.

03

콜드사이트(4등급)

마지막으로 콜드사이트는 서비스를 위한 데이터는 최소한만 확보하는 방식입니다. 따라서 4가지 방식 중에 서비스 복구까지 가장 오랜시간이 걸리죠. 대신 비용은 가장 저렴합니다.

04

이번 카카오 사태에서 DR이 쟁점이었던 이유는 데이터 센터 화재라는 재해 상황에 대처하기 위한 핵심 요소가 DR 시스템이었기 때문입니다. 카카오의 DR 시스템 구축이 미흡했거나, 준비가 되어 있었음에도 제대로 대응하지 못했기 때문에 서비스 복구에 오랜 시간이 걸렸다는 것이 논란의 골자입니다.

현재 국내 대부분의 민간 기업들은 3등급에 해당하는 웜사이트 방식으로 DR 시스템을 운영하고 있습니다. 이번 사태를 계기로 업계 전문가들은 데이터 보유 양와 서비스 운영 규모가 큰 경우, 미러사이트 또는 핫사이트를 도입해야 한다는 의견을 내고 있습니다.

또한 정부는 대형 플랫폼 서비스 중단에서 비롯한 국민의 피해를 막기 위해 ‘방송통신발전기본법’을 다듬을 준비를 하고 있습니다. 기존에는 기간통신사업자(KT, LG U+ 등 이동통신사)에게만 적용되었던 데이터 이중화 작업 의무를 부가통신사업자(카카오, 네이버 등 인터넷을 기반으로 서비스를 제공하는 사업자)에게도 적용한 개정안이 발의되었으며, 이르면 연내에 통과될 예정입니다.

--------------_-----------_01-2

방송통신발전기본법 개정안 외에도 민간 IT 기업의 데이터 관리에 적용되는 가이드에 많은 변화가 있을 것으로 예상됩니다. 수면 위에 던져진 돌처럼 카카오의 서비스 먹통 사태는 IT업계의 엄청난 파장을 일으켰습니다. 앞으로 또 무엇이 변화할지, 코드에프도 관심 있게 지켜보고 전달하겠습니다.

--------------_-----------_02-1

코드에프는 데이터를 활용한 핀테크 서비스를 지원하며 서비스 제공 기업이 온전히 서비스에만 집중할 수 있도록 돕습니다. 코드에프는 복잡한 절차를 간결하게 바꾸고 수고로움을 줄이고자 노력하며, 개인 데이터를 정당한 대가로 거래할 수 있는 데이터 직접 유통 시장을 꿈꿉니다.

01_----------------_220914

본 페이지 내의 모든 콘텐츠는 저작권법에 의해 보호받는 저작물로서, 모든 사용 권리는 ㈜코드에프에게 있습니다. 별도의 저작권 표시 없이 무단으로 사용하는 것을 금지하며, 자세한 저작권 정책은 해당 링크를 참고하시기 바랍니다. Copyright 2022.㈜코드에프 All rights reserved.

[자료 출처]

© Hecto Data Co., Ltd. All right reserved. Published with Ghost


(주)헥토데이터ㅣ대표자 : 오승철

사업자 등록번호 : 113-86-32627


개인정보 처리방침