กลับ

สาเหตุและวิธีแก้ไขเมื่อการสำรองข้อมูลล้มเหลว

หน้านี้อธิบายสาเหตุและวิธีแก้ไขเมื่อการสำรองข้อมูล (การจำลอง) ล้มเหลว

เมื่อการสำรองข้อมูลเครื่องเสมือนล้มเหลวหรือถูกข้าม คุณจะได้รับอีเมล “รายงานการสำรองข้อมูล” จากเซิร์ฟเวอร์ Xen Orchestra แม้ว่าสิ่งนี้จะเกิดขึ้น บริการเครื่องเสมือน จะยังคงดำเนินต่อไป แต่ในกรณีที่ไม่น่าเกิดขึ้นหากเกิดความล้มเหลวบนโฮสต์ Xen และไม่สามารถกู้คืนที่เก็บข้อมูลได้ จะมีความเสี่ยงที่ จุดกู้คืนจะสูญหาย

การสำรองข้อมูลล้มเหลวเกิดจากสาเหตุหลักสามประการ:

  1. เมื่อไม่มีพื้นที่ว่างเพียงพอในที่เก็บข้อมูลท้องถิ่น
  2. เมื่อมีสแนปช็อตของเครื่องเสมือนจำนวนมาก
  3. เมื่อขนาดดิสก์เสมือนของเครื่องเสมือนใหญ่เกินไปหรือมีการอัปเดตมากเกินไป และ RPO = 1 ชั่วโมง (สองครั้งต่อชั่วโมง) ไม่เพียงพออีกต่อไป

ด้านล่างนี้คือสาเหตุและวิธีแก้ไขสำหรับข้อความแสดงข้อผิดพลาดแต่ละข้อ

หากคุณพบข้อผิดพลาดนอกเหนือจากที่ระบุไว้ หรือหากปัญหายังไม่ได้รับการแก้ไขแม้จะดำเนินการตามมาตรการแล้ว เช่น สถานการณ์กลับสู่ปกติทันที โปรดติดต่อฝ่ายสนับสนุนหรือตัวแทนฝ่ายขายของเรา นอกจากนี้ ในกรณีของ 3 ข้อข้างต้น วิธีแก้ไขพื้นฐานคือ การจำกัดเป้าหมายการสำรองข้อมูลหรือขยายเวลา RPO (โปรดสอบถาม)

เกี่ยวกับรายงานการสำรองข้อมูล

ที่อยู่อีเมลของผู้ส่งคือ “sysadmin@justplayer.com” และหัวข้อคือ “[Xen Orchestra] failure(or skipped) − รายงานการสำรองข้อมูลสำหรับชื่องานสำรอง” โปรดตรวจสอบเนื้อหาของอีเมลสำหรับข้อมูลเกี่ยวกับงานสำรองและข้อความแสดงข้อผิดพลาด

ฉันต้องการพื้นที่เก็บข้อมูลเท่าไหร่?

ความจุที่เก็บข้อมูลที่ Xen ต้องการนั้นไม่เพียงขึ้นอยู่กับความจุที่เก็บข้อมูลที่ใช้งานอยู่ในปัจจุบันเท่านั้น แต่ยังขึ้นอยู่กับความแตกต่างของการอัปเดตข้อมูลภายในเครื่องเสมือนด้วย ดังนั้นจึงไม่สามารถระบุได้โดยทั่วไปว่าต้องใช้กี่กิกะไบต์

นี่เป็นเพราะสแนปช็อตของ Xen เป็นระบบสแนปช็อตประเภทหนึ่งที่ต้องการที่เก็บข้อมูลสำรอง

หากมีการอัปเดตที่เก็บข้อมูลจำนวนมากระหว่างสแนปช็อต (เช่น ในฐานข้อมูลหรือระบบที่มีล็อกจำนวนมาก) จำนวนดิสก์ที่แตกต่างจะเพิ่มขึ้น เมื่อลบสแนปช็อต ดิสก์ที่แตกต่างจะต้องถูกรวมเข้าด้วยกัน แต่เพื่อป้องกันการปิดระบบโดยไม่คาดคิด ข้อมูลดั้งเดิมจะถูกทิ้งไว้ในระหว่างกระบวนการรวม ซึ่งต้องใช้พื้นที่ว่างชั่วคราวจำนวนมาก ใน Xen กระบวนการรวมนี้จะไม่ดำเนินการทันทีหลังจากลบสแนปช็อต แต่จะดำเนินการโดยอัตโนมัติโดยระบบ ดังนั้นจึงมีความล่าช้าเล็กน้อยหลังจากกระบวนการเสร็จสิ้น

ปัญหาส่วนใหญ่เกิดจากลักษณะสองประการของกระบวนการรวมที่เก็บข้อมูลสำรองของสแนปช็อต: มันต้องการพื้นที่ว่างและดำเนินการแบบล่าช้า

SR_BACKEND_FAILURE_44 มักเป็นข้อผิดพลาดที่เกิดจากความจุที่เก็บข้อมูลเพียงอย่างเดียว จำเป็นต้องรักษาพื้นที่ว่างบางส่วนในที่เก็บข้อมูลท้องถิ่นของโฮสต์ไว้เสมอ

โปรดทราบว่า SR_BACKEND_FAILURE_109 ส่วนใหญ่เกี่ยวข้องกับพื้นที่ดิสก์ที่เหลืออยู่ เช่น ความล้มเหลวเนื่องจากที่เก็บข้อมูลไม่เพียงพอก่อนการลบหลังจากกระบวนการรวม

สามารถประหยัดที่เก็บข้อมูลได้โดยการลบเครื่องเสมือนที่ไม่จำเป็น หยุดการสำรองข้อมูลที่ไม่จำเป็น หรือปรับสมดุลโหลดโดยรวมบนโฮสต์ แต่ประโยชน์ของระบบนี้ในแง่ของการทำงานกู้คืนที่รวดเร็วและเวลา (RTO) ในกรณีที่เกิดเหตุการณ์ไม่สามารถมองข้ามได้ ขึ้นอยู่กับสัญญาของคุณ คุณอาจสามารถขยายความจุที่เก็บข้อมูลได้ หากคุณต้องการขยายที่เก็บข้อมูล (SSD) โปรดติดต่อฝ่ายสนับสนุนหรือตัวแทนฝ่ายขายของเรา


สาเหตุของข้อผิดพลาดและวิธีจัดการ

ข้อความแสดงข้อผิดพลาด
ข้อผิดพลาด: งาน (XXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXXX) กำลังทำงานอยู่แล้ว
*สตริงภายใน () จะแตกต่างกันไปสำหรับผู้ใช้แต่ละคน
สาเหตุ
เกิดขึ้นเมื่องานสำรองข้อมูลใหม่ถูกข้ามไปเพราะงานสำรองข้อมูลกำลังทำงานอยู่แล้ว
การสำรองข้อมูลล่าช้าเนื่องจากปัจจัยต่าง ๆ เช่น การอัปเดตดิสก์บ่อยครั้ง
ผู้ตอบสนองแรก
ผู้ใช้เปลี่ยนนโยบายการทำงานของ RPO และติดต่อเรา
วิธีแก้ไข
นี่หมายความว่าการสำรองข้อมูลถูกข้ามไปเพราะปริมาณข้อมูลที่ต้องสำรองมีมาก หากการสำรองข้อมูลสิ้นสุดตามปกติหลังจากนั้น ไม่จำเป็นต้องกังวล
หากเกิดขึ้นบ่อยครั้ง หน่วยการสำรองข้อมูลอาจสั้นเกินไปเมื่อเทียบกับปริมาณการอัปเดตดิสก์ ในกรณีนี้ หน่วยการสำรองข้อมูลต้องค่อย ๆ ขยายเป็น 1 ชั่วโมง, 2 ชั่วโมง, 3 ชั่วโมง ฯลฯ พร้อมกันนั้น RPO จะยาวขึ้น ซึ่งหมายความว่าเวลาย้อนกลับสูงสุดในระหว่างการกู้คืนจากความล้มเหลวจะเพิ่มขึ้น

ในกรณีนี้ จำเป็นต้องเปลี่ยนการตั้งค่า โปรดติดต่อฝ่ายสนับสนุนหรือตัวแทนฝ่ายขายของเรา
ข้อความแสดงข้อผิดพลาด
ข้อผิดพลาดล้มเหลว: SR_BACKEND_FAILURE_44(, พื้นที่ว่างไม่เพียงพอ, )
สาเหตุ
ความจุที่เก็บข้อมูลเต็ม
ผู้ตอบสนองแรก
ผู้ใช้
วิธีแก้ไข
โดยพื้นฐานแล้ว คุณต้องลบข้อมูลบางส่วนเพื่อเพิ่มพื้นที่ว่าง ลบเครื่องเสมือนที่ไม่จำเป็น
ลบสแนปช็อตที่ไม่จำเป็น สำหรับข้อมูลเกี่ยวกับการลบสแนปช็อตที่ไม่จำเป็น โปรดดู ที่นี่ หลีกเลี่ยงการสำรองข้อมูลเครื่องเสมือนที่ไม่จำเป็น หากต้องการยกเว้นจากการสำรองข้อมูล โปรดตรวจสอบ ที่นี่
ข้อความแสดงข้อผิดพลาด
ข้อผิดพลาดล้มเหลว: SR_BACKEND_FAILURE_109(, โซ่สแนปช็อตยาวเกินไป, )
สาเหตุ
เกิดขึ้นเมื่อมีสแนปช็อตของเครื่องเสมือนเป้าหมายจำนวนมาก สามารถสร้างสแนปช็อตได้สูงสุด 30 อันสำหรับเครื่องเสมือนหนึ่งเครื่อง รวมถึงอันที่มองไม่เห็นด้วย นอกจากนี้ การลบสแนปช็อตใช้เวลา แต่สิ่งเหล่านี้ล่าช้า ข้อผิดพลาดเดียวกันอาจปรากฏขึ้นในช่วงเวลานี้ ในกรณีของ Xen Orchestra กระบวนการจำลองเป็นกลไกในการถ่ายสแนปช็อตและโอนความแตกต่าง ดังนั้นอาจเกิดขึ้นหาก RPO สั้นเกินไปสำหรับปริมาณการอัปเดตของเครื่องเสมือน หากเกิดขึ้นกับเครื่องเสมือนหลายเครื่อง จำเป็นต้องเพิ่ม RPO
ผู้ตอบสนองแรก
ผู้ใช้
วิธีแก้ไข
ลบสแนปช็อตที่ไม่จำเป็นออกจากรายการสแนปช็อต อาจมีสแนปช็อตที่ไม่มีชื่อที่ Xen Orchestra สร้างขึ้นโดยอัตโนมัติระหว่างการสำรองข้อมูลที่ยังคงอยู่ สำหรับข้อมูลเกี่ยวกับการลบสแนปช็อตที่ไม่จำเป็น โปรดดู ที่นี่ หากเกิดสถานการณ์นี้ เป็นไปได้ว่า RPO สั้นเกินไปสำหรับการอัปเดตเครื่องเสมือน หากเกิดขึ้นบ่อยครั้ง โปรดติดต่อฝ่ายสนับสนุนหรือตัวแทนฝ่ายขายของเรา
ข้อความแสดงข้อผิดพลาด
เหตุผลที่ข้าม: (โซ่ VDI ไม่สมบูรณ์) งานถูกยกเลิกเพื่อปกป้องโซ่ VDI
สาเหตุ
เกิดขึ้นเมื่อจำเป็นต้องมีการรวมสแนปช็อตของเครื่องเสมือนเป้าหมาย กระบวนการรวมจะดำเนินการโดยอัตโนมัติ ดังนั้นคุณจะต้องรอสักครู่ อาจเกิดขึ้นเมื่อเรียกใช้งานงานทันทีหลังจากลบสแนปช็อต
ผู้ตอบสนองแรก
ผู้ใช้
วิธีแก้ไข
ตามที่อธิบายไว้ในส่วนเกี่ยวกับความจุที่เก็บข้อมูลที่ต้องการ Xen จะดำเนินการกระบวนการรวมดิสก์แบบล่าช้าหลังจากลบสแนปช็อต สิ่งนี้อาจเกิดขึ้นได้หากสถานะการรวมดิสก์ผิดปกติเนื่องจากการลบสแนปช็อตผิดพลาดหรือหยุดการลบกลางคัน โดยพื้นฐานแล้ว หากคุณรอสักครู่ Xen จะดำเนินการกระบวนการรวมดิสก์โดยอัตโนมัติ และปัญหาจะได้รับการแก้ไขหลังจากนั้นสักครู่ หากข้อผิดพลาดยังคงอยู่นานกกว่าสองสามวัน ในบางกรณีที่หายาก อาจเกิดข้อผิดพลาดภายในและกระบวนการรวมอาจไม่สามารถทำได้ หากคุณอยู่ในสถานะนี้ วิธีที่ง่ายที่สุดในการกลับมาคือการโคลนเครื่องเสมือนแล้วลบต้นฉบับ ดูข้อมูลเกี่ยวกับการโคลนเครื่องเสมือนได้ ที่นี่
ข้อความแสดงข้อผิดพลาด
ไม่พบ VM ฐาน
สาเหตุ
เกิดขึ้นเมื่อไม่พบจุดสำรองข้อมูลก่อนหน้าของเครื่องเสมือนหรือไม่ปกติ การสำรองข้อมูลจะดำเนินการโดยการรวมความแตกต่างจากข้อมูลสำรองก่อนหน้า ดังนั้นหากไม่พบข้อมูลสำรองก่อนหน้า การสำรองข้อมูลจะล้มเหลว
ผู้ตอบสนองแรก
ผู้ใช้
วิธีแก้ไข
จากรายการสแนปช็อต ลบจุดสำรองข้อมูลในอดีต [XO Backup dp4-xenpool…] สิ่งนี้จะทำให้การสำรองข้อมูลของเครื่องเสมือนนั้นเริ่มการซิงโครไนซ์แบบเต็มแทนการซิงโครไนซ์แบบแตกต่าง เป็นผลให้ข้อความ “ข้อผิดพลาด: งาน (XXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXXX) กำลังทำงานอยู่แล้ว” อาจเกิดขึ้นชั่วขณะหนึ่ง สิ่งนี้อาจเกิดขึ้นเมื่อมีสแนปช็อตจำนวนมาก ในกรณีนั้น จะต้องลบสแนปช็อตที่ไม่จำเป็น โปรดดูข้อมูลเกี่ยวกับการลบได้ ที่นี่