Kembali

Penyebab dan Solusi untuk Kegagalan Pencadangan

Halaman ini menjelaskan penyebab dan solusi ketika pencadangan (replikasi) gagal.

Ketika pencadangan mesin virtual gagal atau dilewati, Anda akan menerima email “Laporan Pencadangan” dari server Xen Orchestra. Meskipun ini terjadi, layanan mesin virtual akan tetap berjalan, tetapi dalam kasus yang jarang terjadi ketika kegagalan terjadi pada host Xen dan penyimpanan tidak dapat diselamatkan, ada risiko titik pemulihan akan hilang.

Kegagalan pencadangan terjadi terutama karena tiga alasan:

  1. Ketika tidak ada cukup ruang kosong yang tersisa di penyimpanan lokal
  2. Ketika ada banyak snapshot dari mesin virtual
  3. Ketika ukuran disk virtual dari mesin virtual menjadi terlalu besar atau ada terlalu banyak pembaruan, dan pencadangan RPO = 1 jam (dua kali per jam) tidak lagi cukup.

Berikut adalah penyebab dan solusi untuk setiap pesan kesalahan.

Jika Anda mengalami kesalahan selain yang tercantum, atau jika masalah tidak terselesaikan sendiri bahkan setelah Anda mengambil tindakan, seperti situasi kembali normal segera, silakan hubungi dukungan atau perwakilan penjualan kami. Selain itu, dalam kasus ketiga di atas, solusi mendasar adalah mempersempit target pencadangan atau memperpanjang waktu RPO (silakan tanyakan).

Tentang Laporan Pencadangan

Alamat email pengirim adalah “sysadmin@justplayer.com” dan subjeknya adalah “[Xen Orchestra] kegagalan (atau dilewati) − Laporan pencadangan untuk nama tugas pencadangan”. Silakan periksa isi email untuk informasi tentang tugas pencadangan dan pesan kesalahan.

Berapa Banyak Ruang Penyimpanan yang Saya Butuhkan?

Kapasitas penyimpanan yang dibutuhkan oleh Xen tidak hanya bergantung pada kapasitas penyimpanan yang sedang digunakan saat ini, tetapi juga pada perbedaan pembaruan data dalam mesin virtual. Oleh karena itu, tidak mungkin untuk menentukan secara umum berapa gigabyte yang diperlukan.

Ini karena snapshot Xen adalah jenis sistem snapshot yang memerlukan penyimpanan pendukung.

Jika ada banyak pembaruan penyimpanan antara snapshot (seperti dalam basis data atau sistem dengan banyak log), jumlah disk diferensial akan meningkat. Saat menghapus snapshot, disk diferensial harus digabungkan, tetapi untuk mencegah shutdown sistem yang tidak terduga, data asli dibiarkan utuh selama proses penggabungan, yang membutuhkan banyak ruang penyimpanan kosong sementara. Di Xen, proses penggabungan ini tidak dilakukan segera setelah snapshot dihapus, tetapi dilakukan secara otomatis oleh sistem, sehingga ada sedikit penundaan setelah proses selesai.

Sebagian besar masalah muncul karena dua karakteristik proses penggabungan penyimpanan pendukung snapshot: membutuhkan ruang kosong dan dilakukan secara malas.

SR_BACKEND_FAILURE_44 sering kali merupakan kesalahan yang murni disebabkan oleh kapasitas penyimpanan. Penting untuk selalu menjaga sejumlah ruang kosong tertentu di penyimpanan lokal host.

Harap diperhatikan bahwa SR_BACKEND_FAILURE_109 sebagian besar terkait dengan ruang disk yang tersisa, seperti kegagalan karena penyimpanan tidak cukup selama operasi penghapusan setelah proses penggabungan.

Penyimpanan dapat dihemat dengan menghapus mesin virtual yang tidak perlu, menghentikan pencadangan yang tidak diperlukan, atau meratakan beban keseluruhan pada host, tetapi manfaat sistem ini dalam hal pekerjaan pemulihan cepat dan waktu (RTO) dalam kasus insiden tidak boleh diabaikan. Tergantung pada kontrak Anda, Anda mungkin dapat memperluas kapasitas penyimpanan Anda. Jika Anda perlu memperluas penyimpanan (SSD), silakan hubungi dukungan atau perwakilan penjualan kami.


Penyebab Kesalahan dan Cara Mengatasinya

Pernyataan Kesalahan
Kesalahan: tugas (XXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXXX) sudah berjalan
*String dalam () akan berbeda untuk setiap pengguna.
Penyebab
Ini terjadi ketika tugas pencadangan baru dilewati karena tugas pencadangan sudah berjalan.
Pencadangan tertunda karena berbagai faktor, seperti pembaruan disk yang sering.
Penanggap Pertama
Pengguna mengubah kebijakan operasi RPO dan menghubungi kami
Solusi
Ini berarti pencadangan dilewati karena jumlah data yang akan dicadangkan besar. Jika pencadangan berakhir normal setelah itu, tidak perlu khawatir.
Jika ini sering terjadi, unit pencadangan mungkin terlalu pendek dibandingkan dengan jumlah pembaruan disk. Dalam kasus ini, unit pencadangan perlu diperpanjang secara bertahap menjadi 1 jam, 2 jam, 3 jam, dll. Pada saat yang sama, RPO akan menjadi lebih lama, yang berarti waktu mundur maksimum selama pemulihan dari kegagalan akan meningkat.

Dalam kasus ini, perubahan pengaturan diperlukan, jadi silakan hubungi dukungan atau perwakilan penjualan kami.
Pernyataan Kesalahan
Kesalahan Gagal: SR_BACKEND_FAILURE_44(, Tidak ada cukup ruang, )
Penyebab
Kapasitas penyimpanan penuh.
Penanggap Pertama
Pengguna
Solusi
Pada dasarnya Anda perlu menghapus beberapa data untuk membebaskan ruang. Hapus VM yang tidak perlu.
Hapus snapshot yang tidak perlu. Untuk informasi tentang menghapus snapshot yang tidak perlu, silakan lihat di sini. Hindari mencadangkan mesin virtual yang tidak perlu. Jika Anda ingin mengecualikannya dari pencadangan, silakan periksa di sini.
Pernyataan Kesalahan
Kesalahan Gagal: SR_BACKEND_FAILURE_109(, Rantai snapshot terlalu panjang, )
Penyebab
Ini terjadi ketika ada banyak snapshot dari mesin virtual target. Hanya hingga 30 snapshot yang dapat dibuat untuk satu mesin virtual, termasuk yang tidak terlihat. Juga, penghapusan snapshot membutuhkan waktu, tetapi ini tertunda. Kesalahan yang sama mungkin muncul selama waktu ini. Dalam kasus Xen Orchestra, proses replikasi adalah mekanisme untuk mengambil snapshot dan mentransfer perbedaan, jadi ini mungkin terjadi jika RPO terlalu pendek untuk jumlah pembaruan pada mesin virtual. Jika ini terjadi untuk beberapa mesin virtual, RPO perlu ditingkatkan.
Penanggap Pertama
Pengguna
Solusi
Hapus snapshot yang tidak perlu dari daftar snapshot. Mungkin ada snapshot tanpa nama yang dibuat secara otomatis oleh Xen Orchestra selama pencadangan yang masih ada. Untuk informasi tentang menghapus snapshot yang tidak perlu, silakan lihat di sini. Jika situasi ini terjadi, mungkin RPO terlalu pendek untuk pembaruan mesin virtual. Jika ini sering terjadi, silakan hubungi dukungan atau perwakilan penjualan kami.
Pernyataan Kesalahan
Alasan Dilewati: (rantai VDI tidak sehat) Tugas dibatalkan untuk melindungi rantai VDI
Penyebab
Ini terjadi ketika proses konsolidasi snapshot dari mesin virtual target diperlukan. Proses konsolidasi dilakukan secara otomatis, jadi Anda perlu menunggu sebentar. Ini mungkin terjadi saat menjalankan tugas segera setelah menghapus snapshot.
Penanggap Pertama
Pengguna
Solusi
Seperti yang dijelaskan dalam bagian tentang kapasitas penyimpanan yang diperlukan, Xen melakukan proses penggabungan disk yang tertunda setelah menghapus snapshot. Ini juga dapat terjadi jika status penggabungan disk tidak normal karena kesalahan dalam penghapusan snapshot atau menghentikan penghapusan di tengah jalan. Pada dasarnya, jika Anda menunggu sebentar, Xen akan secara otomatis melakukan proses penggabungan disk, dan masalah akan terselesaikan setelah beberapa saat. Jika kesalahan berlangsung setelah beberapa hari, pada kesempatan langka, kesalahan internal mungkin terjadi dan proses penggabungan mungkin tidak dapat dilakukan. Jika Anda berada dalam kondisi ini, cara termudah untuk kembali adalah dengan mengkloning mesin virtual dan kemudian menghapus yang asli. Lihat di sini untuk informasi tentang mengkloning mesin virtual.
Pernyataan Kesalahan
Tidak dapat menemukan VM dasar
Penyebab
Ini terjadi ketika titik pencadangan sebelumnya dari mesin virtual tidak dapat ditemukan atau tidak normal. Pencadangan dilakukan dengan menggabungkan perbedaan dari pencadangan sebelumnya, jadi jika pencadangan sebelumnya tidak dapat ditemukan, pencadangan akan gagal.
Penanggap Pertama
Pengguna
Solusi
Dari daftar snapshot, hapus titik pencadangan sebelumnya [XO Backup dp4-xenpool…]. Ini akan menyebabkan pencadangan mesin virtual tersebut memulai sinkronisasi penuh alih-alih sinkronisasi diferensial. Akibatnya, pesan “Kesalahan: tugas (XXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXXX) sudah berjalan” mungkin muncul untuk sementara waktu. Ini juga dapat terjadi ketika ada banyak snapshot. Dalam hal ini, snapshot yang tidak perlu akan diperlukan. Silakan lihat di sini untuk informasi tentang penghapusan.