ทุกองค์กรต้องทำ BCP (Business Continuity Plan) หรือไม่ หากไม่ทำจะเป็นอย่างไร

ทุกองค์กรต้องทำ BCP (Business Continuity Plan) หรือไม่? แผน BCP กับแผน DR (Disaster Recovery) แตกต่างกันอย่างไร? หากไม่ทำแล้วจะเกิดอะไรขึ้น? พอพูดถึงเรื่อง BCP หรือ DR แล้วมักจะมีศัพท์ RPO และ RTO ขึ้นมาด้วย หมายความว่าอะไร? บทความนี้จะมาอธิบายเรื่องเหล่านี้กัน...

แผน BCP (Business Continuity Plan) คืออะไร
แผน BCP หรือ Business Continuity Plan คือแผนในการรับมือเหตุการณ์ต่างๆ ที่ธุรกิจอาจต้องหยุดชะงักลง ไม่ว่าจะเป็นเหตุที่ทำให้ธุรกิจหยุดลงเป็นเวลาเพียงไม่กี่ชั่วโมง หรือเป็นเวลาหลายวันก็ตาม และทำให้องค์กรสามารถกลับมาดำเนินธุรกิจต่อเนื่องได้ให้เร็วที่สุด เพื่อให้เกิดความเสียหายต่อลูกค้า ทรัพย์สิน ชื่อเสียง และการดำเนินธุรกิจขององค์กรให้น้อยที่สุด โดยสาเหตุแบ่งออกได้เป็น
  1. ภัยพิบัติตามธรรมชาติ (Natural Disasters) เช่น น้ำท่วม ไฟไหม้ แผ่นดินไหว หรือพายุ เป็นต้น
  2. ภัยพิบัติที่เกิดจากมนุษย์ (Man-Made Disasters) เช่น การวางเพลิง เหตุก่อการร้าย ขโมย ระบบไฟฟ้าขัดข้อง รวมไปถึงการเสียของอุปกรณ์ฮาร์ดแวร์ด้วย
ขั้นตอนการทำแผน BCP มีอย่างไร
เนื่องจากแนวทางการทำแผน BCP จากที่ค้นหาข้อมูลมากที่มีหลายที่ให้ขั้นตอนที่ไม่เหมือนกันแต่มีหลักการคล้ายคลึงกัน ในบทความนี้ขออ้างอิงจาก ISC2 ซึ่งเป็นองค์กรด้านความปลอดภัยองค์กรหนึ่ง ได้กำหนดเอาไว้ 4 ขั้นตอนดังนี้

  1. การกำหนดขอบเขตโครงการและแผนการดำเนินงาน (Project scope and planning) เป็นการประเมินองค์กร ทั้งในด้านความพร้อม การได้รับการสนับสนุนจากผู้บริหาร การตรวจสอบอุปกรณ์ภายในหากต้องดำเนินการแผนฉุกเฉิน รวมไปถึงการศึกษากฎหมายและข้อกำหนดว่าสามารถดำเนินการได้หรือไม่ มีข้อจำกัดอะไรหรือไม่
  2. การวิเคราะห์ความผลกระทบและเสี่ยงทางธุรกิจ (Business impact assessment หรือ BIA) เป็นการประเมินความเสี่ยงของระบบที่อยู่ภายใน รวมไปถึงผลกระทบว่าหากระบบดังกล่าวเกิดความเสียหาย ไม่สามารถทำงานได้จะกระทบกับธุรกิจหรือไม่ ยกตัวอย่างเช่น ระบบ Enterprise Resource Planning หรือ ERP หากไม่สามารถทำงานได้จะส่งผลกระทบต่อการผลิต (แต่อาจจะต้องคำนึงถึงรูปแบบการผลิตด้วย หากมีหลายโรงงานอยู่ต่างสถานที่และใช้ระบบ ERP บนระบบเดียวกันก็ถือว่ามีความสำคัญ) แต่ระบบ Printer หากไม่สามารถใช้งานได้ก็ยังไม่เสียหายกับธุรกิจ รวมไปถึงหากระบบเสียหายแล้วยอมรับความเสียหายได้มากที่สุดเป็นระยะเวลานานเท่าไหร่ โดยจะมีการกำหนดค่าต่างๆ ในการออกแบบเอาไว้ดังรูปด้านล่าง

    BCP_RPO_RTO_001.png

    สำหรับค่าต่างๆ (หรือคำศัพท์ต่างๆ) สามารถอธิบายได้ดังนี้

    • ค่า Recovery Point Objective (RPO) คือ ระยะเวลาที่ยอมรับความสูญเสียของข้อมูลได้ เช่น หากระบบของเราทำการสำรองข้อมูลทุกวันหลังเที่ยงคืนก็แปลได้ว่าระบบของเรายอมรับความเสียหายได้สูงสุด 24 ชั่วโมงนั่นเอง
    • ค่า Recovery Time Objective (RTO) คือ ระยะเวลาที่ใช้ในการกู้คืนข้อมูล โดยเป็นการกู้คืนจะข้อมูลชุดสุดท้ายที่สำรองเอาไว้ใช้ระยะเวลาในการกู้คืนนานแค่ไหน มักจะเป็นการดำเนินการโดยทีม IT
    • ค่า Work Recovery Time (WRT) คือ ระยะเวลาในการตรวจสอบข้อมูลที่กู้คืนว่าถูกต้องหรือไม่ ก่อนที่จะเริ่มใช้งานระบบ มักจะเป็นการดำเนินการโดยทีม IT และทีมผู้ดูแลข้อมูล รวมไปถึงแต่ละแผนกที่เกี่ยวข้องกับระบบดังกล่าว
    • ค่า Maximum Tolerable Downtime (MTD) คือ ระยะเวลารวมทั้งหมดในการกู้คืนระบบก่อนจะเริ่มใช้งานจริง ซึ่งโดยมากมักจะสับสนระหว่างค่า RTO และ MTD ซึ่งหากพิจารณาในมุมมองของธุรกิจ MTD คือระยะเวลารวมทั้งหมดตั้งแต่การกู้คืนข้อมูลจนข้อมูลพร้อมใช้งาน

    ผมขอยกตัวอย่างการวิเคราะห์ความเสี่ยงทางธุรกิจตามภาพตัวอย่างด้านล่าง
     
    BCP_RPO_RTO_002.png

    BCP_RPO_RTO_003.png

    BCP_RPO_RTO_004.png

    จากตัวอย่างด้านบนทั้ง 3 แบบ จะเห็นได้ว่าแผนสำรองของทั้ง 3 กรณีไม่เหมือนกัน โดยในกรณีแรกอาจจะไม่จำเป็น ส่วนในกรณีที่สองถือว่าเป็นส่วนเสริมหากมีก็สามารถดำเนินการกิจการได้เพราะนำสินค้าในสต็อกไปขาย ส่วนในกรณีที่สามถือว่าจำเป็นเพราะมีโรงงานทั้งสองแห่งหากเสียหายไปหนึ่งที่โรงงานก็ยังดำเนินการต่อไปได้

  3. การวางแผนดำเนินการ (Continuity planning) เป็นการกำหนดกลยุทธ์และวิธีการในการกู้คืนข้อมูล โดยจะครอบคลุมทั้งทางด้านเทคนิคในการดำเนินงาน การสื่อสารภายในองค์กร รวมไปถึงขั้นตอนและกระบวนการในการบริหารจัดการทั้งหมด เช่น หากมีการใช้งานแผนฉุกเฉินแล้วใครจะเป็นผู้แจ้งให้พนักงานแต่ละแผนก จะอพยพอย่างไร จะใช้งานเครื่องที่ไซต์สำรองได้อย่างไร ด้วยวิธีไหน เป็นต้น
  4. การอนุมัติและการใช้งาน (Approval and implementation) โดยทั้ง 3 ขั้นตอนก่อนหน้านี้เป็นการะประเมิน วางแผนเป็นหลัก ในขั้นตอนนี้เป็นการอนุมัติแผนและดำเนินการจริง ซึ่งรวมไปถึงการอบรมพนักงานให้เข้าใจการทำงาน รวมไปถึงการซักแผนการอย่างสม่ำเสมอเพื่อให้มั่นใจว่าสามารถดำเนินการได้จริง

จากการทำงานจริง พบว่ามีความสับสนระหว่างแผน BCP และแผน DR (Disaster Recovery) โดยแผน BCP จะเป็นแผนกลยุทธ์การทำงาน (Strategic Plan) แต่แผน DR จะเป็นแผนการปฏิบัติ (Tactical Plan) แต่ทั้งสองแผนก็มีวัตถุประสงค์ในด้านเดียวกันคือการดำเนินความต่อเนื่องทางธุรกิจนั่นเอง

การออกแบบแผน DR มีแนวทางอย่างไร
สำหรับแผน DR นั้น เนื่องจากมีหลายแนวคิดในการในการออกแบบระบบ DR แต่ในบทความนี้ขออ้างอิงตัวอย่างการออกแบบจาก IBM ใน “IBM System Storage Business Continuity Solutions Overview” เมื่อ February 2007 โดยมีการออกแบบเอาไว้ทั้งหมด 7 Tier ดังรูป

 BCP_RPO_RTO_005.png

โดยสามารถแบ่งกลุ่มของการออกแบบได้ดังรูป

 BCP_RPO_RTO_006.png

สำหรับการออกแบบแต่ละ Tier นั้น ขออธิบายคร่าวๆ เอาไว้ดังนี้

  1. Tier 0 หรือ No off-site data คือ องค์กรที่ยังไม่มีการกำหนดแผน BCP แต่อย่างใด
  2. Tier 1 หรือ Data backup with no hot site คือ องค์กรที่มีการสำรองข้อมูลและนำข้อมูลไปเก็บภายนอกองค์กร แต่ในขั้นตอนการกู้คืนไม่มีระบบในการกู้คืนที่ศูนย์ข้อมูลสำรอง โดยการส่งข้อมูลใช้เทปในการสำรองข้อมูล (ในปัจจุบันไม่เป็นที่นิยมแล้ว)
  3. Tier 2 หรือ Data backup with hot site คือ องค์กรที่มีการสำรองข้อมูลแบบ Tier 1 และมีศูนย์ข้อมูลสำรองแล้ว แต่การส่งข้อมูลใช้เทปเป็นหลัก (ในปัจจุบันไม่เป็นที่นิยมแล้ว)
  4. Tier 3 หรือ Electronic vaulting เป็นการประยุกต์ใช้งานจาก Tier 2 แต่เปลี่ยนสื่อการใช้งานจากเทปเป็นข้อมูลเป็นการส่งผ่านทางเครือข่ายอิเล็กทรอนิกส์แทน เช่น การสำรองข้อมูลผ่านระบบคลาวด์คอมพิวติ้ง (Backup as a Service) หากเกิดปัญหาก็ให้กู้คืนโดยใช้ระบบคลาวด์คอมพิวติ้ง เป็นต้น
  5. Tier 4 หรือ Point-in-time copies เป็นเทคนิคการคัดลอกข้อมูลตามช่วงเวลาที่กำหนด และนำข้อมูลไปกู้คืนที่ปลายทางตลอดเวลา เช่น การใช้งานโซลูชัน Disaster Recovery as a Service (DRaaS) สำหรับระบบ Virtual Machine (VM) ที่ใช้เทคนิคการ Snapshot ข้อมูลและ Replicate ข้อมูลไปยังศูนย์ข้อมูลสำรองตามช่วงเวลาที่กำหนด
  6. Tier 5 หรือ Transaction integrity เป็นเทคนิคการใช้งานโปรแกรมที่คอยดักจับ (Agent) การเปลี่ยนแปลงของข้อมูลที่ศูนย์ข้อมูลหลัก และทำการส่งข้อมูลไปยังศูนย์ข้อมูลสำรองแบบเรียลไทม์ ซึ่งผู้ดูแลระบบต้องมีความเข้าใจลักษณะการทำงานของโปรแกรม ซึ่งบางโปรแกรมอาจจะรองรับการทำงานดังกล่าวแต่ต้องพิจารณา License และความต้องการของซอฟต์แวร์ขั้นต่ำอีกด้วย
  7. Tier 6 หรือ Zero or little data loss เป็นการประยุกต์การใช้งานจาก Tier 5 โดยมีศูนย์ข้อมูลสำรองมากกว่า 1 ศูนย์เข้าด้วยกัน ซึ่งจะเป็นการลดความเสี่ยงของข้อมูลเสียหายไปได้
  8. Tier 7 หรือ Highly automated, business integrated solution เป็นการประยุต์จาก Tier 6 แต่เพิ่มฟีเจอร์การทำงานแบบอัตโนมัติเข้าไป ซึ่งระบบสามารถทำงานได้แบบอัตโนมัติ
การประยุกต์ใช้งาน DR นั้นคงต้องพิจารณาจากความสำคัญของข้อมูล รวมไปถึงผลกระทบทางธุรกิจ (Business Impact) เป็นหลัก เพราะในการออกแบบ Tier ที่สูงขึ้นจะมีค่าใช้จ่ายที่มากขึ้น ในบางระบบอาจจะมีค่าใช้จ่ายทั้งโครงการมากกว่าถึง 2 – 3 เท่าเลยทีเดียว

บทสรุป
แผนความต่อเนื่องทางธุรกิจเปรียบเสมือนกับการบริหารจัดการความเสี่ยงของธุรกิจ ซึ่งต้องมีการพิจารณาถึงผลการกระทบทางธุรกิจเป็นหลัก จากประสบการณ์ของผมเองพบว่าการประเมินความเสี่ยง และการกำหนดประเมิน BIA เป็นส่วนที่มักไม่ได้รับการพูดถึงมากนัก ส่วนมากมักจะกำหนดรายชื่อเครื่องที่จะทำระบบ DR เป็นหลัก (Technical Lead) แต่ไม่ได้คำนึงถึงความจำเป็น ความเร่งด่วน รวมไปถึงค่าใช้จ่ายที่ต้องใช้ในการทำ DR เพราะในมุมมองของผู้บริหาร และเจ้าของบริษัทจะมองว่าเป็นค่าใช้จ่ายที่ไม่ได้ก่อให้เกิดรายได้แต่อย่างใด และมักจะไม่ได้รับการอนุมัติเพราะแผนที่เสนอไม่เข้ากับบริบทขององค์กรนั่นเอง

อ้างอิง: