ระบบภูมิคุ้มกันดิจิทัล (Digital Immune System) คืออะไร?
Gartner เป็นบริษัทวิจัยและให้คำปรึกษาระดับโลกที่ให้ข้อมูลเชิงลึกแก่ผู้นำธุรกิจเพื่อช่วยในการตัดสินใจเกี่ยวกับเทคโนโลยี แนวโน้มของตลาด และกลยุทธ์ทางธุรกิจ โดยได้เผยแพร่รายงาน Gartner Top 10 Strategic Technology Trends สำหรับ CIO และผู้นำด้าน IT ซึ่งรายงานนี้เน้นย้ำถึงเทคโนโลยีและเทรนด์ที่ควรให้ความสำคัญและลงทุนในอนาคต หนึ่งใน 10 เทรนด์เทคโนโลยีที่ติดอันดับในปี 2023 คือ Digital Immune System หรือระบบภูมิคุ้มกันดิจิทัล ซึ่งถูกออกแบบมาเพื่อเพิ่มความสามารถในการฟื้นตัวของระบบดิจิทัลและลดเวลาหยุดชะงัก (downtime) ของระบบ
Digital Immune System (DIS) ประกอบด้วยองค์ประกอบสำคัญหลายประการที่ช่วยให้ระบบมีความแข็งแกร่งและมีประสิทธิภาพมากยิ่งขึ้น ดังนี้:
Observability: สามารถตรวจสอบและวิเคราะห์ปัญหาของระบบแบบเรียลไทม์ ช่วยให้ทีมงานมีข้อมูลเชิงลึกเกี่ยวกับประสิทธิภาพการทำงานของระบบตั้งแต่ระดับโครงสร้างพื้นฐาน (infrastructure) จนถึงพฤติกรรมของผู้ใช้งาน
AI-Augmented Testing: ใช้ AI ในการทดสอบซอฟต์แวร์อัตโนมัติ ช่วยลดข้อผิดพลาดและเพิ่มประสิทธิภาพในการทำงาน
Chaos Engineering: จำลองความล้มเหลวของระบบเพื่อทดสอบความสามารถในการรับมือกับเหตุการณ์ที่ไม่คาดคิด
Autoremediation: ตรวจจับและแก้ไขปัญหาโดยอัตโนมัติ ลดความจำเป็นที่ผู้ดูแลระบบจะต้องเข้ามาแก้ปัญหาด้วยตัวเอง
Site Reliability Engineering (SRE): เพิ่มความเสถียรของระบบ ทำให้บริการมีความน่าเชื่อถือ ขยายได้ง่าย และพร้อมใช้งานตลอดเวลา
Software Supply Chain Security: ปกป้องความปลอดภัยในทุกขั้นตอนของซัพพลายเชนซอฟต์แวร์ เพื่อลดความเสี่ยงที่อาจเกิดขึ้นตั้งแต่การพัฒนาไปจนถึงการใช้งานจริง
Auto-remediation คืออะไร? Auto-remediation คือกระบวนการที่ระบบสามารถตรวจจับและแก้ไขปัญหาได้โดยอัตโนมัติ ลดความจำเป็นในการใช้มนุษย์มาควบคุมการทำงาน โดยระบบนี้จะใช้เครื่องมือ Observability ร่วมกับเครื่องมือ Automation ที่มีการกำหนด script และเงื่อนไขไว้ล่วงหน้าเพื่อลด downtime ของระบบ
องค์ประกอบหลักของ Auto-remediation
1. Monitoring & Alerts tools: เครื่องมือสำหรับการตรวจสอบและแจ้งเตือนต่อเนื่อง เพื่อค้นหาความผิดปกติหรือปัญหาด้านประสิทธิภาพ เช่น Dynatrace, CloudWise หรือเครื่องมือโอเพ่นซอร์สอย่าง Prometheus
2. Decision-making: เมื่อระบบตรวจพบความผิดปกติ ระบบจะใช้เงื่อนไขที่ตั้งไว้ล่วงหน้าหรือ AI ในการตัดสินใจว่าจะทำ Auto-remediation หรือไม่ โดยพิจารณาจากความรุนแรงและสถานะของระบบ
· ตัวอย่างเช่น หากใช้ Dynatrace เป็นเครื่องมือมอนิเตอร์ Dynatrace จะสร้าง problem ticket หากค่าบางอย่างเกิน threshold ที่ตั้งไว้ โดย Dynatrace มีแอปในตัวที่เรียกว่า ‘Workflow’ ซึ่งช่วยให้ผู้ใช้งานสามารถสร้าง workflow ตามความต้องการได้ โดยไม่ต้องเขียนโค้ด
3. Execution: ขั้นตอนการรันสคริปต์โดยใช้เครื่องมืออัตโนมัติ เช่น Ansible เพื่อรันสคริปต์แก้ไขปัญหา เช่น รีสตาร์ท service หรือเพิ่ม resource ตามที่กำหนด
4. Feedback Loop: หลังการแก้ไข ระบบจะตรวจสอบอีกครั้งว่าปัญหาได้รับการแก้ไขหรือไม่ เพื่อเป็นข้อมูลย้อนกลับในการปรับปรุงระบบอย่างต่อเนื่อง
ตัวอย่างการทำงานของ Auto-remediation
สมมติว่าระบบของเรามีปัญหา high memory usage ใน production ซึ่งอาจทำให้ประสิทธิภาพลดลง ระบบ Auto-remediation จะทำงานดังนี้:
1. เครื่องมือ Observability เช่น Dynatrace ตรวจพบว่า application server มีการใช้ memory เกิน 85%
2. ระบบสร้างแจ้งเตือนเป็น problem ticket และตัดสินใจแก้ไขโดยรีสตาร์ท application service ผ่านการส่ง trigger ไปยังเครื่องมือ Automation
3. Ansible จะรันสคริปต์เพื่อรีสตาร์ท service หรือเพิ่ม resource เช่น memory หรือ instance ใหม่
4. หลังการดำเนินการ เครื่องมือ Observability ตรวจสอบว่าการใช้ memory กลับสู่ระดับปกติหรือไม่ หากยังไม่กลับ ระบบอาจส่งปัญหาให้ผู้ดูแลระบบเพื่อเข้ามาดำเนินการ
Auto-remediation ช่วยประหยัดเวลา ลด downtime และทำให้ระบบน่าเชื่อถือมากขึ้น