Manuais

Causas e Soluções para Falhas de Backup

Esta página explica as causas e soluções quando o backup (replicação) falha.

Quando um backup de máquina virtual falha ou é pulado, você receberá um e-mail de “Relatório de Backup” do servidor Xen Orchestra. Mesmo que isso ocorra, o serviço da máquina virtual continuará, mas no improvável evento de uma falha no host Xen e o armazenamento não puder ser recuperado, há um risco de que o ponto de restauração seja perdido.

As falhas de backup ocorrem principalmente por três razões:

Quando não há espaço livre suficiente no armazenamento local
Quando há muitos snapshots de uma máquina virtual
Quando o tamanho do disco virtual de uma máquina virtual se torna muito grande ou há muitas atualizações, e o backup com RPO = 1 hora (duas vezes por hora) não é mais suficiente.

Abaixo estão as causas e soluções para cada mensagem de erro.

Se você encontrar erros diferentes dos listados, ou se o problema não se resolver mesmo após tomar medidas, como a situação voltar ao normal imediatamente, entre em contato com nosso suporte ou representante de vendas. Além disso, no caso dos 3 itens acima, a solução fundamental é reduzir os alvos de backup ou estender o tempo de RPO (por favor, consulte-nos).

Sobre o Relatório de Backup

O endereço de e-mail do remetente é “sysadmin@justplayer.com” e o assunto é “[Xen Orchestra] falha (ou pulado) − Relatório de backup para o nome do trabalho de backup”. Verifique o corpo do e-mail para obter informações sobre o trabalho de backup e a mensagem de erro.

Quanto Espaço de Armazenamento Eu Preciso?

A capacidade de armazenamento exigida pelo Xen depende não apenas da capacidade de armazenamento atualmente em uso, mas também dos diferenciais de atualização de dados dentro da máquina virtual. Portanto, não é possível determinar de forma geral quantos gigabytes são necessários.

Isso ocorre porque os snapshots do Xen são um tipo de sistema de snapshot que requer um armazenamento de suporte.

Se houver uma grande quantidade de atualizações de armazenamento entre snapshots (como em um banco de dados ou um sistema com muitos logs), o número de discos diferenciais aumentará. Ao excluir um snapshot, os discos diferenciais devem ser mesclados, mas para evitar desligamentos inesperados do sistema, os dados originais são mantidos intactos durante o processo de mesclagem, o que exige uma grande quantidade de espaço de armazenamento temporário livre. No Xen, esse processo de mesclagem não é realizado imediatamente após a exclusão do snapshot, mas é realizado automaticamente pelo sistema, então há um pequeno atraso após a conclusão do processo.

A maioria dos problemas surge devido a duas características do processo de mesclagem do armazenamento de suporte de snapshot: ele requer espaço livre e é realizado de forma preguiçosa.

SR_BACKEND_FAILURE_44 é frequentemente um erro puramente causado pela capacidade de armazenamento. É necessário sempre manter uma certa quantidade de espaço livre no armazenamento local do host.

Observe que SR_BACKEND_FAILURE_109 está mais relacionado ao espaço restante no disco, como falha devido a armazenamento insuficiente durante a operação de exclusão após o processo de mesclagem.

O armazenamento pode ser economizado excluindo máquinas virtuais desnecessárias, interrompendo backups desnecessários ou suavizando a carga geral no host, mas os benefícios deste sistema em termos de trabalho de recuperação rápida e tempo (RTO) em caso de incidente não podem ser ignorados. Dependendo do seu contrato, você pode expandir sua capacidade de armazenamento. Se precisar expandir seu armazenamento (SSD), entre em contato com nosso suporte ou nosso representante de vendas.

Causas dos Erros e Como Lidar com Eles

Declarações de Erro
Erro: o trabalho (XXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXXX) já está em execução *A string dentro de () será diferente para cada usuário.
Causa
Isso ocorre quando um novo trabalho de backup é pulado porque um trabalho de backup já está em execução. Os backups são atrasados devido a vários fatores, como atualizações frequentes de disco.
Primeiros Respondedores
O usuário altera a política de operação do RPO e entra em contato conosco
Solução
Isso significa que o backup foi pulado porque a quantidade de dados a ser copiada era grande. Se o backup terminar normalmente depois disso, não há necessidade de se preocupar. Se isso ocorrer com frequência, a unidade de backup pode ser muito curta em comparação com a quantidade de atualizações de disco. Nesse caso, a unidade de backup precisa ser gradualmente aumentada para 1 hora, 2 horas, 3 horas, etc. Ao mesmo tempo, o RPO ficará mais longo, o que significa que o tempo máximo de retrocesso durante a recuperação de uma falha aumentará. Neste caso, é necessária uma alteração de configuração, então entre em contato com nosso suporte ou representante de vendas.

Declarações de Erro
Erro de Falha: SR_BACKEND_FAILURE_44(, Não há espaço suficiente, )
Causa
A capacidade de armazenamento está cheia.
Primeiros Respondedores
usuário
Solução
Basicamente, você precisa excluir alguns dados para liberar espaço. Exclua VMs desnecessárias. Exclua snapshots desnecessários. Para informações sobre como excluir snapshots desnecessários, veja aqui. Evite fazer backup de máquinas virtuais desnecessárias. Se quiser excluí-las do backup, verifique aqui.

Declarações de Erro
Erro de Falha: SR_BACKEND_FAILURE_109(, A cadeia de snapshots é muito longa, )
Causa
Isso ocorre quando há muitos snapshots da máquina virtual alvo. Apenas até 30 snapshots podem ser criados para uma máquina virtual, incluindo os invisíveis. Além disso, a exclusão de snapshots leva tempo, mas esses são atrasados. O mesmo erro pode ser exibido durante esse período. No caso do Xen Orchestra, o processo de replicação é um mecanismo para tirar snapshots e transferir as diferenças, então isso pode ocorrer se o RPO for muito curto para a quantidade de atualizações da máquina virtual. Se isso ocorrer para várias máquinas virtuais, o RPO precisa ser aumentado.
Primeiros Respondedores
usuário
Solução
Exclua snapshots desnecessários da lista de snapshots. Pode haver snapshots sem nome que o Xen Orchestra criou automaticamente durante o backup que ainda permanecem. Para informações sobre como excluir snapshots desnecessários, consulte aqui. Se essa situação ocorrer, é possível que o RPO seja muito curto para as atualizações da máquina virtual. Se isso ocorrer com frequência, entre em contato com nosso suporte ou representante de vendas.

Declarações de Erro
Motivo Pulado: (cadeia VDI não saudável) Trabalho cancelado para proteger a cadeia VDI
Causa
Isso ocorre quando o processo de consolidação de snapshots da máquina virtual alvo é necessário. O processo de consolidação é realizado automaticamente, então você precisará esperar um pouco. Isso pode ocorrer ao executar um trabalho imediatamente após excluir um snapshot.
Primeiros Respondedores
usuário
Solução
Conforme descrito na seção sobre capacidade de armazenamento necessária, o Xen realiza um processo de mesclagem de disco atrasado após excluir um snapshot. Isso também pode ocorrer se o estado de mesclagem de disco estiver anormal devido a um erro na exclusão de snapshot ou interrupção no meio do processo de exclusão. Basicamente, se você esperar um pouco, o Xen realizará automaticamente o processo de mesclagem de disco, e o problema será resolvido após um tempo. Se o erro persistir após alguns dias, em raras ocasiões, um erro interno pode ocorrer e o processo de mesclagem pode não ser possível. Se você acabar nesse estado, a maneira mais fácil de voltar é clonar a máquina virtual e depois excluir a original. Veja aqui para informações sobre clonagem de uma máquina virtual.

Declarações de Erro
não foi possível encontrar a VM base
Causa
Isso ocorre quando o ponto de backup anterior da máquina virtual não pode ser encontrado ou não está normal. O backup é realizado mesclando as diferenças do backup anterior, então, se o backup anterior não puder ser encontrado, o backup falhará.
Primeiros Respondedores
usuário
Solução
Na lista de snapshots, exclua o ponto de backup passado [XO Backup dp4-xenpool…]. Isso fará com que o backup dessa máquina virtual inicie uma sincronização completa em vez de uma sincronização diferencial. Como resultado, a mensagem “Erro: o trabalho (XXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXXX) já está em execução” pode ocorrer por um tempo. Isso também pode ocorrer quando há muitos snapshots. Nesse caso, será necessário excluir snapshots desnecessários. Consulte aqui para informações sobre exclusão.

Manuais

Causas e Soluções para Falhas de Backup

Sobre o Relatório de Backup

Quanto Espaço de Armazenamento Eu Preciso?

Causas dos Erros e Como Lidar com Eles

Born Global, impulsionando o crescimento por meio do código aberto

LOGIQ Corporation

Services

News and Blog

About LOGIQ