เมื่อปัจจุบัน ยุคของ Digital Transformation เข้ามามีบทบาทเป็นอย่างมากในโลกนี้ รวมถึงในประเทศไทยด้วยที่หลาย ๆ องค์กรเริ่มต้นโครงการไปแล้ว และเหตุการณ์ณ์ที่ดูเหมือนจะเป็นตัวเร่งให้เกิดการเปลี่ยนแปลงเป็นไปอย่างรวดเร็วอย่างมาก นั่นก็คือ COVID-19 นี่เอง องค์กรไอทีชั้นนำ หลากหลายอุตสาหกรรมมีการขยายระบบให้ใหญ่ขึ้นเป็นทวีคูณเพื่อให้ทันต่อความคาดหวังของลูกค้าที่หันมาใช้งานผ่านทาง Application บนมือถือกันมากขึ้น และสิ่งที่ตามมาก็คือการแจ้งเตือนที่มีมากมายจนยากต่อการตรวจสอบและแก้ไขปัญหา หากเกิดความขัดข้องบนระบบงาน ทำให้เป็นเรื่องที่กดดันอย่างมหาศาลให้กับทีม IT ในการที่ต้องคอยรักษาระบบให้มีความสเถียรและใช้งานได้อย่างไหลลื่นมากที่สุด หาสาเหตุให้ได้ไวและแก้ให้ได้เร็ว
หลังจาก หลาย ๆ บทความที่ผ่านมา เราได้พูดถึงประโยชน์ และ อธิบายความสำคัญ ของ APM กันไปแล้ว ติดตามบทความย้อนหลัง ได้ที่นี่
วันนี้เราจะมาว่าด้วยการที่ Dynatrace สามารถลดการแจ้งเตือนที่เยอะแสนเยอะได้อย่างไร หากระบบไอทีของคุณนั้นมีความยิ่งใหญ่และซับซ้อนมาก ๆ เราไปดูกันค่ะ 😎
การวิเคราะห์ของ Dynatrace มีข้อดีอย่างไร ?
ลดการแจ้งเตือนที่เยอะมากจนล้น และการแจ้งเตือนของสแปม หากคุณได้รับการแจ้งเตือนทุกครั้งเมื่อมีการเกินค่า threshold ที่กำหนด? Dynatrace สามารถรวบรวมปัญหาต่าง ๆ ทั้งหมดไว้ในเพียงการแจ้งเตือนเดียว ซึ่งลดการรบกวน, แก้ปัญหาได้ตรงจุด
สนใจแค่ปัญหาที่สำคัญจริง ๆ ไม่ใช่ทุกค่าที่เกิน threshold คือเกิดปัญหา และไม่ใช่ทุกปัญหาจะมี threshold ที่เท่ากัน โดย AI จะเป็นตัวระบุว่า ความผิดปกติตัวไหนที่เกิดขึ้นจริง หรืออาจส่งผลกระทบต่อผู้ใช้งาน
การตรวจจับปัญหาแบบไดนามิก Dynatrace รวบรวมข้อมูลพื้นฐานต่าง ๆ และนำมาวิเคราะห์เหตุการณ์ที่อาจจะส่งผลกระทบโดยที่ไม่ได้คาดการณ์ไว้ ได้โดยอัตโนมัติ โดยจะมีการแจ้งเตือนเฉพาะสิ่งที่คุณสนใจเท่านั้น
การตรวจหาความผิดปกติ ที่สร้างขึ้นเพื่อ environment แบบไดนามิก
วิธีการระบุปัญหาแบบเดิม คือ Reactive เป็นการที่ Dynatrace ตอบสนองต่อการแจ้งเตือนของค่า threshold นั้น ไม่สามารถใช้งานได้บน Infrastructure, Containers, และ Microservices ของ Elastic cloud ในปัจจุบัน เนื่องด้วยองค์ประกอบจำนวนมากที่ทำงานเรื่อย ๆ ไม่มีที่สิ้นสุด และด้วยองค์ประกอบต่าง ๆ ที่ออกแบบมาให้มีการอัปเดทอยู่ตลอดเวลา, environment แบบไดนามิกเหล่านี้ จึงต้องการอะไรใหม่ ๆ เช่น แนวทางเชิงรุก หรือ Proactive ที่ซึ่ง AI จะเข้ามามีส่วนเกี่ยวข้อง ด้วยองค์ความรู้ของ Topology ของระบบ, ประสิทธิภาพพื้นฐานแบบไดนามิก, และการทำงานของ Dynatrace โดยใช้ประโยชน์จากการวิเคราะห์ และการเรียนรู้ด้วยตัวเองของ AI เพื่อระบุความผิดปกติโดยอัตโนมัติบน metrics ที่มีความสำคัญต่อ environment เฉพาะของคุณ
ลดการแจ้งเตือนที่รบกวน และ ค่า False Negative / False Positive ซึ่งถูกกระตุ้นโดยค่า threshold
การตรวจสอบแบบครบวงจร สามารถตรวจสอบได้จนถึงความผิดปกติที่ยากต่อการมองเห็น
การจัดลำดับความสำคัญของปัญหา
Dynatrace ระบุความผิดปกติก่อนที่จะส่งผลกระทบต่อผู้ใช้งาน ลดการคำนวณลง และลดเวลาที่ใช้ในการแก้ปัญหา ใช้อัลกอริทึ่ม AI เพื่อระบุปัญหาที่เกิดขึ้นจริง หรืออาจส่งผลกระทบต่อผู้ใช้งาน เพราะว่ากลไกที่ใช้ในการตรวจจับความผิดปกตินั้น สามารถเข้าใจความสัมพันธ์ระหว่างการทำงาน กับตัวชี้วัดทางธุรกิจ คุณจะได้รับการแจ้งเตือนเพียงครั้งเดียว เมื่อมีบางสิ่งส่งผลกระทบต่อ customers' user experience
เน้นการแก้ไขปัญหา ไม่ใช่ตรวจหาปัญหา
การตรวจจับปัญหาจะขึ้นอยู่กับการใช้งานของผู้ใช้งาน 100% ไม่มีค่าเฉลี่ย หรือตัวอย่าง
วิเคราะห์ความผิดปกติของข้อมูลพื้นฐาน และการคาดการณ์ที่ชาญฉลาด
Dynatrace ใช้วิธีการต่าง ๆ เพื่อระบุว่าอาการใดควรแจ้งเป็นปัญหา โดย Automatic multidimensional baselining จะตรวจจับค่าที่เกิน threshold แต่ละรายการที่ซึ่งมีค่าเปลี่ยนแปลงอยู่ตลอดเวลา (เวลาในการตอบสนอง และอัตราข้อผิดพลาดของ Application หรือ Services) จะทำการคาดเดาการวิเคราะห์เพื่อตรวจจับความผิดปกติในการรรับ-ส่งข้อมูลของ Application และการโหลด Services การรับ-ส่งข้อมูล และการโหลดที่กล่าวมานั้น ขึ้นอยู่รูปแบบของแต่ละช่วงเวลา (เช่น วันทำงาน เทียบกับ วันหยุดสุดสัปดาห์, กลางวัน เทียบกับ กลางคืน, วัน Black Friday)
Dynatrace เรียนรู้รูปแบบการรับ-ส่งข้อมูลของ Application และแจ้งปัญหาเมื่อมีการตรวจพบ รวมถึงจำนวนผู้ใช้งานที่ได้รับผลกระทบ และ root cause ที่อาจจะเกิดขึ้น
การวิเคราะห์นี้ สามารถคาดการณ์การรับ-ส่งข้อมูลที่อาจจะเกิดขึ้นได้ และทรงพลังขึ้นเรื่อย ๆ
Automatic baselining สามารถปรับจูน เพื่อตรวจจับความผิดปกติของพารามิเตอร์ได้ โดยปรับค่า threshold ลง สำหรับ services ที่มีความสำคัญ หรือเพิ่มค่า threshold สำหรับ Application หรือ services ที่ยังอยู่ในช่วงของการพัฒนา
จากที่กล่าวมาทั้งหมดสรุปได้ว่า Dynatrace สามารถลด Alert ที่ไม่จำเป็นลงได้ด้วยการเรียนรู้ของ AI วิเคราะห์ข้อมูลในระบบแล้วแจ้งปัญหาที่เกิดขึ้นได้อย่างตรงจุด บอกได้ว่ามีผลกระทบกับลูกค้าที่เข้ามาใช้งานจริงกี่คน และไม่ใช่ข้อมูลที่สุ่มหรือมาจากค่าเฉลี่ย ทำให้เราไม่ต้องใช้เวลาโฟกัสกับการหาปัญหาที่เกิดขึ้น Dynatrace สรุปมาให้คุณแล้ว และทำให้ทีมไอทีทำงานได้ง่ายขึ้น รวดเร็วมากยิ่งขึ้น
ไว้เจอกันใหม่ในบทความถัดไปนะคะ