Назад

Причины и решения проблем с резервным копированием

На этой странице объясняются причины и решения, когда резервное копирование (репликация) не выполняется.

Когда резервное копирование виртуальной машины не удается или пропускается, вы получите электронное письмо с отчетом о резервном копировании от сервера Xen Orchestra. Даже если это произойдет, служба виртуальной машины продолжит работать, но в маловероятном случае сбоя на хосте Xen и невозможности восстановления хранилища существует риск потери точки восстановления.

Сбои резервного копирования происходят в основном по трем причинам:

  1. Когда в локальном хранилище недостаточно свободного места
  2. Когда у виртуальной машины много снимков
  3. Когда размер виртуального диска виртуальной машины становится слишком большим или обновлений слишком много, и резервное копирование с RPO = 1 час (дважды в час) становится недостаточным.

Ниже приведены причины и решения для каждого сообщения об ошибке.

Если вы сталкиваетесь с ошибками, не указанными в списке, или если проблема не решается даже после принятия мер, например, ситуация не нормализуется сразу, пожалуйста, свяжитесь с нашей службой поддержки или торговым представителем. Кроме того, в случае вышеуказанного пункта 3 фундаментальным решением является сужение целей резервного копирования или увеличение времени RPO (пожалуйста, уточните).

О резервном отчете

Адрес электронной почты отправителя — “sysadmin@justplayer.com”, а тема — “[Xen Orchestra] failure(or skipped) − Отчет о резервном копировании для имени задания”. Пожалуйста, проверьте тело письма для получения информации о задании резервного копирования и сообщении об ошибке.

Сколько места в хранилище мне нужно?

Объем хранилища, необходимый для Xen, зависит не только от используемой в данный момент емкости хранилища, но и от ди chronologically updated данных в виртуальной машине. Поэтому невозможно однозначно определить, сколько гигабайт требуется.

Это связано с тем, что снимки Xen — это система снимков, которая требует резервного хранилища.

Если между снимками происходит большое количество обновлений хранилища (например, в базе данных или системе с большим количеством логов), количество дифференциальных дисков увеличивается. При удалении снимка дифференциальные диски должны быть объединены, но для предотвращения неожиданных отключений системы исходные данные остаются нетронутыми во время процесса слияния, что требует значительного объема временного свободного пространства хранилища. В Xen этот процесс слияния выполняется не сразу после удаления снимка, а автоматически системой, поэтому после завершения процесса возникает небольшая задержка.

Большинство проблем возникает из-за двух характеристик процесса слияния резервного хранилища снимков: он требует свободного места и выполняется с задержкой.

SR_BACKEND_FAILURE_44 — это ошибка, часто вызванная исключительно емкостью хранилища. Необходимо всегда сохранять определенное количество свободного места в локальном хранилище хоста.

Обратите внимание, что SR_BACKEND_FAILURE_109 в основном связана с оставшимся дисковым пространством, например, сбоем из-за недостаточного хранилища во время операции удаления после процесса слияния.

Хранилище можно сэкономить, удалив ненужные виртуальные машины, прекратив ненужные резервные копии или сгладив общую нагрузку на хост, но нельзя недооценивать преимущества этой системы с точки зрения быстрого восстановления и времени (RTO) в случае инцидента. В зависимости от вашего контракта вы можете расширить емкость хранилища. Если вам нужно расширить хранилище (SSD), пожалуйста, свяжитесь с нашей службой поддержки или торговым представителем.


Причины ошибок и способы их устранения

Сообщения об ошибках
Ошибка: задание (XXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXXX) уже выполняется
*Строка в скобках будет отличаться для каждого пользователя.
Причина
Это происходит, когда новое задание резервного копирования пропускается, потому что задание резервного копирования уже выполняется.
Резервные копии задерживаются из-за различных факторов, таких как частые обновления диска.
Первые действия
Пользователь изменяет политику работы RPO и связывается с нами
Решение
Это означает, что резервное копирование было пропущено из-за большого объема данных для резервного копирования. Если после этого резервное копирование завершается нормально, беспокоиться не о чем.
Если это происходит часто, единица резервного копирования может быть слишком короткой по сравнению с объемом обновлений диска. В этом случае единицу резервного копирования нужно постепенно увеличивать до 1 часа, 2 часов, 3 часов и т.д. В то же время RPO станет длиннее, что означает, что максимальное время перемотки при восстановлении после сбоя увеличится.

В этом случае требуется изменение настроек, поэтому, пожалуйста, свяжитесь с нашей службой поддержки или торговым представителем.
Сообщения об ошибках
Ошибка сбоя: SR_BACKEND_FAILURE_44(, Недостаточно места, )
Причина
Емкость хранилища заполнена.
Первые действия
Пользователь
Решение
В основном нужно удалить некоторые данные, чтобы освободить место. Удалите ненужные виртуальные машины.
Удалите ненужные снимки. Для информации об удалении ненужных снимков смотрите здесь. Избегайте резервного копирования ненужных виртуальных машин. Если вы хотите исключить их из резервного копирования, проверьте здесь.
Сообщения об ошибках
Ошибка сбоя: SR_BACKEND_FAILURE_109(, Цепочка снимков слишком длинная, )
Причина
Это происходит, когда у целевой виртуальной машины много снимков. Для одной виртуальной машины можно создать до 30 снимков, включая невидимые. Кроме того, удаление снимков занимает время, но они задерживаются. Во время этого может выводиться та же ошибка. В случае Xen Orchestra процесс репликации — это механизм для создания снимков и передачи различий, поэтому это может произойти, если RPO слишком короткий для объема обновлений виртуальной машины. Если это происходит для нескольких виртуальных машин, необходимо увеличить RPO.
Первые действия
Пользователь
Решение
Удалите ненужные снимки из списка снимков. Могут остаться неназванные снимки, автоматически созданные Xen Orchestra во время резервного копирования. Для информации об удалении ненужных снимков обратитесь к здесь. Если такая ситуация возникает, возможно, RPO слишком короткий для обновлений виртуальной машины. Если это происходит часто, пожалуйста, свяжитесь с нашей службой поддержки или торговым представителем.
Сообщения об ошибках
Пропущено по причине: (нездоровая цепочка VDI) Задание отменено для защиты цепочки VDI
Причина
Это происходит, когда требуется процесс консолидации снимков целевой виртуальной машины. Процесс консолидации выполняется автоматически, поэтому нужно подождать некоторое время. Это может произойти при запуске задания сразу после удаления снимка.
Первые действия
Пользователь
Решение
Как описано в разделе о необходимой емкости хранилища, Xen выполняет отложенный процесс слияния дисков после удаления снимка. Это также может произойти, если состояние слияния диска ненормально из-за ошибки при удалении снимка или остановки удаления на полпути. В основном, если подождать некоторое время, Xen автоматически выполнит процесс слияния дисков, и проблема решится через некоторое время. Если ошибка сохраняется через несколько дней, в редких случаях может возникнуть внутренняя ошибка, и процесс слияния может быть невозможен. Если вы окажетесь в таком состоянии, самый простой способ восстановления — клонировать виртуальную машину, а затем удалить оригинал. См. информацию о клонировании виртуальной машины здесь.
Сообщения об ошибках
не удалось найти базовую виртуальную машину
Причина
Это происходит, когда предыдущая точка резервного копирования виртуальной машины не может быть найдена или не является нормальной. Резервное копирование выполняется путем слияния различий с предыдущей резервной копией, поэтому, если предыдущая резервная копия не может быть найдена, резервное копирование не удастся.
Первые действия
Пользователь
Решение
Из списка снимков удалите прошлую точку резервного копирования [XO Backup dp4-xenpool…]. Это приведет к тому, что резервное копирование этой виртуальной машины начнет полную синхронизацию вместо дифференциальной. В результате сообщение “Ошибка: задание (XXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXXX) уже выполняется” может появляться некоторое время. Это также может произойти, когда много снимков. В этом случае потребуется удаление ненужных снимков. Пожалуйста, обратитесь к здесь для информации об удалении.