본문 바로가기

OS & network/cloud

OCI 객체스토리지의 데이터 중복 및 복구를 위한 고가용성 설계

오늘날 기업은 성공을 위해 데이터에 의존합니다. 


데이터 보호는 기업의 최우선 순위 중 하나입니다. 

 

사실 예전 처럼 레거시 서비스를 사용하지 않으면 최근에는 데이터 중복 구성에 대해서 크게 고민하지 않고 사용했을텐데, SK/카카오 장애 이 후 DR 센터 구축과 데이터 백업/복구 같은 분야에 대한 관심이 높다 보니 , 이런 기술에 대해서도 잘 알고 있으면 좋을 것 같습니다. : -)


OCI(Oracle Cloud Infrastructure)가 내구성이 뛰어난 개체 스토리지 서비스를 설계하여 데이터 손실을 방지하는 방법에 대해서 알아 보도록 하겠습니다.

OCI Object Storage는 99.999999999% (9가 11개나 있네요...-_-; 헥헥;; )내구성을 초과 제공한다고 합니다..
이 통계는 데이터 손실 확률이 10년 동안 백만 개 중 하나 미만임을 의미합니다.
일반 상용 디스크는 1년 동안 1%의 고장률이 예상되므로 엑사바이트의 데이터가 있는 OCI 지역에서 이 비율은 매시간 많은 디스크 고장에 해당합니다. 
이러한 높은 확장성과 높은 하드웨어 실패율로 인해 OCI는 데이터 손실을 방지하기 위해 데이터 보호를 위한 안전한 아키텍쳐 설계가 필요합니다.

스토리지 데이터 보안을 위한 몇가지 요소가 필요합니다.

 

내구성(Durability)

데이터 내구성이란 기본 하드웨어에 장애가 발생하더라도 데이터가 손실되지 않음을 의미합니다. 
OCI의 내부 목표는 데이터 무손실을 유지하는 것입니다. 

높은 내구성을 달성하려면 다음 영역에 집중해야 합니다.

- 중복성: 중복 데이터를 저장하여 동시 발생하는 여러 하드웨어 장애를 극복하는 방법
- 장애 격리: 단일 장애 이벤트로 인해 복구할 수 없는 데이터 손실이 발생하지 않도록 분산된 위치에 중복 데이터 분산
- 빠른 복구: 하드웨어 오류로부터 신속하게 자동 복구

중복성(Redundancy)

클라우드 스토리지 서비스에서 고객은 하나 이상의 데이터 사본에 액세스할 수 없는 경우에도 데이터에 액세스해야 합니다. 
개체 스토리지는 개체 데이터의 중복 복사본을 저장하여 동일한 개체에 대해 3-5개의 동시 디스크 오류를 처리하도록 설계되었습니다. 
엑사바이트 데이터 사본을 저장하는 데 비용이 많이 들기 때문에 Object Storage는 삭제 코딩 이라는 효율적인 저장 기술을 사용하여 데이터를 저장합니다 . 

장애 격리(Fail isolation)

모든 데이터 사본에 대한 액세스 권한을 잃으면 데이터 중복성이 무슨 소용이 있습니까? 하나의 데이터 센터 중단과 같은 단일 오류로 인해 많은 양의 데이터에 액세스할 수 없게 될 수 있습니다. 다양한 장애로 인한 고객 영향을 제거하기 위해 데이터는 지역 내 별도의 데이터 센터에 있는 별도의 서버에 있는 별도의 디스크에 저장됩니다. 디스크 또는 호스트 장애가 있거나 전체 데이터 센터에 장애가 발생한 경우 다른 데이터 복사본을 사용할 수 있습니다.


Object Storage는 동일한 객체에 대해 3–5개의 동시 디스크 오류를 허용하도록 설계되었습니다. 그림은 데이터가 익스텐트로 나뉘고 DC1의 첫 번째 디스크에 있는 데이터가 별도의 데이터 센터에 있는 별도의 서버에 있는 별도의 디스크에 분산되는 방식을 보여줍니다.

 

빠른 복구(Fast Recovery)

높은 내구성을 달성하려면 장애 감지 및 복구 기간을 최소화하여 동시 장애 가능성을 최소화해야 합니다. 20TB 디스크 복사는 디스크 읽기/쓰기 대기 시간으로 인해 약 하루가 걸립니다. Object Storage는 디스크 장애를 감지하고 30분 이내에 디스크 장애를 복구합니다. 장애가 발생한 한 디스크의 데이터를 교체 디스크에 복사하는 대신 여러 데이터 센터에 걸쳐 별도의 서버에 있는 별도의 디스크에 데이터를 병렬로 복사합니다. 이 방법을 분산 조정이라고 합니다. 여러 데이터 센터가 있는 클라우드 규모 지역에서는 자동화된 분산 조정을 사용하여 디스크 장애로부터 신속하게 복구할 수 있습니다. 그림은 분산 조정 프로세스를 보여줍니다.

한 지역에서 많은 고객을 위해 엑사바이트 규모의 데이터를 저장하는 경우 Object Storage는 클라우드 규모에서만 효율적으로 구현할 수 있는 특수 기술로 자동화를 사용할 수 있습니다. 서비스는 고도로 자동화된 방식으로 30분 이내에 디스크 복구를 완료하여 높은 내구성을 제공합니다.