ซีอีโอแจง Cloudflare ล่มเพราะระบบจัดการบอตสร้างข้อมูลซ้ำๆ จนเกินขีดจำกัด ยันไม่ได้ถูกโจมตีทางไซเบอร์
จากเหตุการณ์ที่ Cloudflare ล่ม จนทำให้ระบบออนไลน์ทั่วโลกปั่นป่วน เมื่อวันที่ 18 พฤศจิกายนที่ผ่านมา โดยล่าสุด ระบบเริ่มกลับเข้ามาทำงานได้ตามปกติแล้ว
the Verge รายงานว่า ในคืนวันเดียวกัน แมทธิว พรินซ์ ผู้ก่อตั้งและซีอีโอของ Cloudflare ได้เขียนบนบล็อก แจ้งถึงรายละเอียดของสาเหตุที่ทำให้ระบบล่มร้ายแรงที่สุด นับตั้งแต่ปี ค.ศ.2019 เป็นต้นมา โดยระบุว่า สาเหตุของปัญหา เกิดจากความบกพร่องของระบบบริหารจัดการบอต (Bot Management) ซึ่งเป็นระบบที่มีไว้เพื่อควบคุมว่า โปรแกรมรวบรวมข้อมูลอัตโนมัติตัวใดบ้าง ที่ได้รับอนุญาตให้สแกนเว็บไซต์ที่ใช้เครือข่าย CDN ของตน
ทั้งนี้ Cloudflare ระบุว่า เมื่อปีที่แล้ว ราว 20 เปอร์เซ็นต์ของเว็บไซต์บนอินเตอร์ที่ใช้เครือข่ายของ Cloudflare ซึ่งมีหน้าที่ในการกระจายภาระงาน เพื่อให้เว็บไซต์ยังคงใช้งานได้ แม้ในยามที่มีปริมาณการเข้าชมสูงสุด และถูกโจมตีแบบ DDoS แต่เหตุการณ์ระบบล่มที่เกิดขึ้นเมื่อวันที่ 18 พ.ย. ได้ตัดการเชื่อมต่อเว็บไซต์เหล่านั้นไปเป็นจำนวนมาก ทำให้บริการทุกอย่าง ตั้งแต่ X ไปจนถึง ChatGPT และเครื่องมือติดตามระบบล่ม ที่เป็นที่รู้จักกันอย่าง Downdetector ไม่สามารถใช้งานได้เป็นเวลาหลายชั่วโมง
รายงานระบุว่า เหตุการณ์สะเทือนโลกออนไลน์ที่เกิดขึ้นครั้งนี้ คล้ายคลึงกับเหตุการณ์ระบบล่มที่เคยเกิดขึ้นเมื่อไม่นานมานี้ ทั้งบน Microsoft Azure และ Amazon Web Services (AWS) ที่ส่งผลกระทบต่อการทำงานต่อหลายแพลตฟอร์มทั่วโลก
ทั้งนี้ ระบบควบคุมบอตของ Cloudflare มีวัตถุประสงค์เพื่อช่วยในการรับมือกับปัญหาต่างๆ เช่น บอตที่รวบรวมข้อมูล เพื่อนำไปฝึกฝนการ เจนเนอเรทีฟ เอไอ (Generative AI) โดย Cloudflare ยังได้ประกาศระบบใหม่ล่าสุดที่ใช้ เจนเนอเรทีฟ เอไอ เพื่อสร้าง “AI Labyrinth” ซึ่งเป็นเทคโนโลยีที่ป้องกันบอตในการดูดข้อมูลไปฝึกฝนหรือเทรนเอไอ เป็นแนวทางเพื่อลดผลกระทบแบบใหม่ที่ใช้เนื้อหาที่สร้างโดยเอไอ เพื่อชะลอความเร็ว ทำให้สับสน และสิ้นเปลืองทรัพยากรของ AI Crawlers คือ โปรแกรมอัตโนมัติ หรือบอต ที่ใช้ เอไอ เพื่อรวบรวมและวิเคราะห์ข้อมูลจากเว็บไซต์ต่างๆ และบอตอื่นๆที่ไม่ปฏิบัติตามคำสั่ง “ห้ามรบกวนข้อมูล”
อย่างไรก็ตาม Cloudflare ระบุว่า ปัญหาที่เกิดขึ้นเมื่อวันที่ 18 พ.ย.นั้น เกิดจากการเปลี่ยนแปลงระบบการอนุญาตของฐานข้อมูล ที่ไม่ใช่เทคโนโลยี เจนเนอเรทีฟ เอเอ ไม่ใช่ DNS และไม่ใช่สิ่งที่ Cloudflare สงสัยในตอนแรก เช่น การโจมตีทางไซเบอร์ หรือกิจกรรมที่เป็นอันตราย เช่น การโจมตีแบบ DDoS ในระดับที่สูงมาก
แมทธิว พรินซ์ ระบุว่า โมเดลการเรียนรู้ของเครื่อง หรือ Machine Learning Model ที่อยู่เบื้องหลังระบบบริหารจัดการบอต ซึ่งสร้างคะแนนบอต สำหรับคำขอที่ไหลผ่านเครือข่ายของ Cloudflare มีการอัพเดตไฟล์กำหนดค่า คือ configuration file บ่อยครั้ง ที่ช่วยในการระบุคำขอที่เป็นระบบอัตโนมัติ
อย่างไรก็ตาม การเปลี่ยนแปลงพฤติกรรมการเรียกใช้คำสั่ง การเรียกใช้ข้อมูล (query) ClickHouse ที่สร้างไฟล์นี้ขึ้นมา ได้ทำให้ไฟล์ดังกล่าว มีแถวข้อมูลคุณลักษณะที่ซ้ำกันเป็นจำนวนมาก
โดยพรินซ์ ระบุรายละเอียดเพิ่มเติมถึงสิ่งที่เกิดขึ้นว่า การเปลี่ยนแปลงคำสั่ง Query หรือการเรียกใช้ข้อมูล ทำให้ฐานข้อมูล ClickHouse สร้างข้อมูลซ้ำซ้อนกันขึ้นมา เพื่อไฟล์กำหนดค่ามีขนาดใหญ่ขึ้นอย่างรวดเร็วจนเกินขีดจำกัดของหน่วยความจำที่ตั้งไว้ล่วงหน้า จึงทำให้ระบบพร็อกซี่หลัก ที่จัดการประมวลผลทราฟฟิกสำหรับลูกค้าของ Cloudflare สำหรับทราฟฟิกใดก็ตามที่ต้องพึ่งพาโมดูลบอต “ล่ม”
ผลที่ตามมาคือ บริษัทใช้กฎของ Cloudflare เพื่อบล็อกบอตบางตัวที่ได้ส่งสัญญาณบวกที่ผิดพลาดและตัดขาดทราฟฟิกจริงออกไป
ขณะที่ลูกค้าของ Cloudflare ที่ไม่ได้ใช้คะแนนบอตที่ถูกสร้างขึ้นในกฎของพวกเขา ยังคงใช้งานออนไลน์ได้ปกติ
ตอนนี้ บริษัท ได้ระบุแผนการที่เฉพาะเจาะจง 4 ข้อ เพื่อป้องกันไม่ให้ปัญหาแบบนี้ เกิดขึ้นอีก แม้ว่าการรวมศูนย์ของบริษัทอินเตอร์เน็ตที่เพิ่มขึ้น อาจทำให้เหตุการณ์ระบบล่มเหล่านี้เป็นสิ่งที่หลีกเลี่ยงไม่ได้
- เสริมความแข็งแกร่งในการรับเข้าไฟล์กำหนดค่าที่สร้างโดย Cloudflare ในลักษณะเดียวกับที่เราจัดการกับข้อมูลที่ผู้ใช้สร้างขึ้น (user-generated input)
- เปิดใช้งานสวิตช์หยุดการทำงานทั่วโลก (global kill switches) สำหรับฟีเจอร์ต่างๆมากขึ้น
- กำจัดความสามารถของการทิ้งข้อมูลหลัก หรือรายงานข้อผิดพลาดอื่นๆที่จะเข้ามารบกวนทรัพยากรของระบบมากเกินไป
- ทบทวนโหมดความล้มเหลวสำหรับเงื่อนไขข้อผิดพลาดทั่วทั้งโมดูลพร็อกซีหลักทั้งหมด

