뒤로

백업 실패 원인과 해결 방법

이 페이지는 백업(복제)이 실패했을 때의 원인과 해결 방법을 설명합니다.

가상 머신 백업이 실패하거나 건너뛰어질 때, Xen Orchestra 서버에서 “Backup report” 이메일을 받게 됩니다. 이 경우에도 가상 머신 서비스는 계속되지만, Xen 호스트에서 장애가 발생하고 스토리지를 복구할 수 없는 드문 상황에서는 복원 지점이 손실될 위험이 있습니다.

백업 실패는 주로 세 가지 이유로 발생합니다:

  1. 로컬 스토리지에 여유 공간이 충분하지 않을 때
  2. 가상 머신의 스냅샷이 많을 때
  3. 가상 머신의 가상 디스크 크기가 너무 크거나 업데이트가 너무 많아서 RPO = 1시간(시간당 두 번) 백업이 더 이상 충분하지 않을 때

아래는 각 오류 메시지에 대한 원인과 해결 방법입니다.

여기에 나열된 것 외의 오류가 발생하거나, 조치를 취한 후에도 문제가 해결되지 않고 즉시 정상으로 돌아가지 않는 경우, 당사의 지원팀 또는 영업 담당자에게 연락 주세요. 또한 위의 3번 경우, 근본적인 해결책은 백업 대상을 좁히거나 RPO 시간을 연장하는 것(문의 주세요)입니다.

백업 보고서에 대하여

발신자 이메일 주소는 “sysadmin@justplayer.com”이며, 제목은 “[Xen Orchestra] failure(or skipped) − Backup report for backup job name”입니다. 이메일 본문에서 백업 작업 및 오류 메시지에 대한 정보를 확인하세요.

필요한 스토리지 공간은 얼마인가요?

Xen에서 필요한 스토리지 용량은 현재 사용 중인 스토리지 용량뿐만 아니라 가상 머신 내 데이터 업데이트 차이에도 의존합니다. 따라서 일반적으로 몇 기가바이트가 필요한지 단정할 수 없습니다.

이는 Xen 스냅샷이 백킹 스토어가 필요한 스냅샷 시스템 유형이기 때문입니다.

스냅샷 간 스토리지 업데이트가 많을 경우(예: 데이터베이스나 로그가 많은 시스템), 차이 디스크의 수가 증가합니다. 스냅샷을 삭제할 때 차이 디스크를 병합해야 하지만, 예기치 않은 시스템 종료를 방지하기 위해 병합 과정에서 원본 데이터가 그대로 남아 있어 많은 임시 여유 스토리지 공간이 필요합니다. Xen에서는 이 병합 과정이 스냅샷 삭제 직후에 수행되지 않고 시스템에 의해 자동으로 수행되므로, 프로세스가 완료된 후 약간의 지연이 있습니다.

대부분의 문제는 스냅샷 백킹 스토어 병합 프로세스의 두 가지 특성, 즉 여유 공간이 필요하고 느리게 수행된다는 점에서 발생합니다.

SR_BACKEND_FAILURE_44는 순전히 스토리지 용량 문제로 인해 발생하는 오류인 경우가 많습니다. 호스트의 로컬 스토리지에 항상 일정량의 여유 공간을 유지해야 합니다.

SR_BACKEND_FAILURE_109는 대부분 디스크 남은 공간과 관련이 있으며, 병합 후 삭제 작업 중 스토리지가 부족해서 실패하는 경우 등이 있습니다.

불필요한 가상 머신 삭제, 불필요한 백업 중단, 또는 호스트 전체 부하를 완화함으로써 스토리지를 절약할 수 있지만, 이 시스템이 장애 발생 시 빠른 복구 작업과 시간(RTO) 측면에서 제공하는 이점도 무시할 수 없습니다. 계약에 따라 스토리지 용량을 확장할 수 있습니다. 스토리지(SSD)를 확장해야 하는 경우, 지원팀 또는 영업 담당자에게 문의하세요.


오류 원인과 대처 방법

오류 메시지
오류: 해당 작업(XXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXXX)이 이미 실행 중입니다
*() 안의 문자열은 사용자마다 다릅니다.
원인
백업 작업이 이미 실행 중이어서 새 백업 작업이 건너뛰어질 때 발생합니다.
디스크 업데이트가 빈번한 등의 이유로 백업이 지연됩니다.
최초 대응자
사용자가 RPO 운영 정책을 변경하고 저희에게 연락
해결 방법
백업해야 할 데이터 양이 많아서 백업이 건너뛰어졌음을 의미합니다. 그 후 백업이 정상적으로 종료되면 걱정할 필요가 없습니다.
이 문제가 자주 발생하면 디스크 업데이트 양에 비해 백업 단위가 너무 짧을 수 있습니다. 이 경우 백업 단위를 1시간, 2시간, 3시간 등으로 점진적으로 늘려야 합니다. 동시에 RPO가 길어지므로 장애 복구 시 최대 되감기 시간이 증가합니다.

이 경우 설정 변경이 필요하므로 지원팀 또는 영업 담당자에게 연락 주세요.
오류 메시지
실패 오류: SR_BACKEND_FAILURE_44(, 공간이 부족합니다, )
원인
스토리지 용량이 가득 찼습니다.
최초 대응자
사용자
해결 방법
기본적으로 일부 데이터를 삭제하여 공간을 확보해야 합니다. 불필요한 가상 머신을 삭제하세요.
불필요한 스냅샷을 삭제하세요. 불필요한 스냅샷 삭제에 대한 정보는 여기를 참조하세요. 불필요한 가상 머신 백업을 피하세요. 백업에서 제외하려면 여기를 확인하세요.
오류 메시지
실패 오류: SR_BACKEND_FAILURE_109(, 스냅샷 체인이 너무 깁니다, )
원인
대상 가상 머신의 스냅샷이 많을 때 발생합니다. 보이지 않는 것을 포함해 한 가상 머신에 최대 30개의 스냅샷만 생성할 수 있습니다. 또한 스냅샷 삭제에는 시간이 걸리지만, 이 과정이 지연됩니다. 이 기간 동안 동일한 오류가 출력될 수 있습니다. Xen Orchestra의 경우 복제 프로세스는 스냅샷을 생성하고 차이를 전송하는 메커니즘이므로, 가상 머신 업데이트 양에 비해 RPO가 너무 짧으면 발생할 수 있습니다. 여러 가상 머신에서 이 문제가 발생하면 RPO를 늘려야 합니다.
최초 대응자
사용자
해결 방법
스냅샷 목록에서 불필요한 스냅샷을 삭제하세요. Xen Orchestra가 백업 중 자동으로 생성한 이름 없는 스냅샷이 남아있을 수 있습니다. 불필요한 스냅샷 삭제에 대한 정보는 여기를 참조하세요. 이런 상황이 발생하면 가상 머신 업데이트에 비해 RPO가 너무 짧을 가능성이 있습니다. 이 문제가 자주 발생하면 지원팀 또는 영업 담당자에게 연락 주세요.
오류 메시지
건너뛴 이유: (비정상적인 VDI 체인) VDI 체인 보호를 위해 작업이 취소됨
원인
대상 가상 머신의 스냅샷 통합 프로세스가 필요할 때 발생합니다. 통합 프로세스는 자동으로 수행되므로 잠시 기다려야 합니다. 스냅샷 삭제 직후 작업을 실행할 때 발생할 수 있습니다.
최초 대응자
사용자
해결 방법
필요한 스토리지 용량 섹션에 설명된 대로, Xen은 스냅샷 삭제 후 지연된 디스크 병합 프로세스를 수행합니다. 스냅샷 삭제 중 실수나 중간에 삭제를 중단하여 디스크 병합 상태가 비정상적일 때도 발생할 수 있습니다. 기본적으로 잠시 기다리면 Xen이 자동으로 디스크 병합 프로세스를 수행하며, 잠시 후 문제가 해결됩니다. 며칠 후에도 오류가 지속되면 드물게 내부 오류가 발생하여 병합 프로세스가 불가능할 수 있습니다. 이 상태에 도달하면 가장 쉬운 복구 방법은 가상 머신을 복제한 후 원본을 삭제하는 것입니다. 가상 머신 복제에 대한 정보는 여기를 참조하세요.
오류 메시지
기본 VM을 찾을 수 없음
원인
가상 머신의 이전 백업 지점을 찾을 수 없거나 정상적이지 않을 때 발생합니다. 백업은 이전 백업과의 차이를 병합하여 수행되므로, 이전 백업을 찾을 수 없으면 백업이 실패합니다.
최초 대응자
사용자
해결 방법
스냅샷 목록에서 과거 백업 지점 [XO Backup dp4-xenpool…]을 삭제하세요. 그러면 해당 가상 머신의 백업이 차등 동기화 대신 전체 동기화로 시작됩니다. 결과적으로 한동안 “오류: 해당 작업(XXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXXX)이 이미 실행 중입니다” 메시지가 나타날 수 있습니다. 스냅샷이 많을 때도 발생할 수 있습니다. 이 경우 불필요한 스냅샷을 삭제해야 합니다. 삭제에 대한 정보는 여기를 참조하세요.