Theo thông tin từ đại diện công ty, sự cố này xuất phát từ một thay đổi cấu hình định kỳ trong hệ thống bảo vệ bot, dẫn đến sự cố tại lớp giảm thiểu bot.
Vào ngày 18 tháng 11, Cloudflare đã thông báo về sự cố lớn trong hệ thống của mình, làm gián đoạn dịch vụ toàn cầu và ảnh hưởng đến các nền tảng nổi tiếng như X (trước đây là Twitter), và Downdetector. Sự cố này bắt đầu vào khoảng 11:48 UTC và kéo dài trong nhiều giờ, tác động mạnh mẽ đến lưu lượng truy cập Internet.
Giám đốc Công nghệ của Cloudflare, Dane Knecht, đã gửi lời xin lỗi công khai khi các dịch vụ được khôi phục, cho rằng đây là một sự cố "không thể chấp nhận được". Ông giải thích nguyên nhân của sự gián đoạn là do một thay đổi cấu hình định kỳ trong hệ thống bảo vệ bot của công ty, dẫn đến sự cố trong lớp giảm thiểu bot.

Nguyên Nhân Của Sự Cố
Cloudflare thông báo sự cố bắt đầu khi dịch vụ của họ gặp phải "sự suy giảm nội bộ", ảnh hưởng đến các công cụ bảo mật và hệ thống giảm thiểu bot. Đây không phải là một cuộc tấn công, mà do một lỗi kỹ thuật trong hệ thống phòng thủ bot, dẫn đến việc các dịch vụ không thể hoạt động bình thường. Sự cố này không chỉ tác động đến các trang web sử dụng Cloudflare mà còn ảnh hưởng đến dịch vụ Access và WARP.
Vào khoảng 14:42 UTC, Cloudflare đã phát hành bản sửa lỗi và bắt đầu khôi phục dần các dịch vụ bị gián đoạn. Tuy nhiên, chức năng bảng điều khiển của công ty, bao gồm các phân tích và ghi nhật ký lỗi, vẫn gặp sự cố vào buổi chiều cùng ngày.
Với vai trò là nền tảng cung cấp dịch vụ mạng cho khoảng 19% Internet, Cloudflare cho thấy lỗi trong hệ thống giảm thiểu bot không chỉ ảnh hưởng đến các trang web mà còn gây gián đoạn trên các API và dịch vụ nổi tiếng. Sự cố này khiến người dùng hợp pháp gặp khó khăn khi truy cập các dịch vụ, mặc dù cơ sở hạ tầng cốt lõi của Cloudflare như CDN và DNS vẫn hoạt động bình thường.

Sự cố của Cloudflare xảy ra chỉ vài tuần sau khi Amazon AWS và Microsoft Azure cũng gặp phải sự cố nghiêm trọng. Vào tháng 10, AWS gặp phải sự cố DNS khiến một phần lớn khu vực US-East-1 ngừng hoạt động trong hơn hai giờ. Ngay sau đó, Azure cũng gặp phải sự cố tương tự.
Những sự cố này lại một lần nữa gióng lên câu hỏi về cách các dịch vụ lớn xử lý các sự cố nội bộ và cách thức tách biệt các phụ thuộc quan trọng trong hệ thống, nhất là khi những nền tảng này chiếm tỷ lệ lớn trên thị trường. AWS và Azure lần lượt chiếm khoảng 30% và 24% thị trường điện toán đám mây, trong khi Cloudflare chiếm khoảng 19% của Internet.
Kết Luận
Sự cố của Cloudflare đã một lần nữa nhấn mạnh tầm quan trọng của các dịch vụ hạ tầng Internet và những rủi ro tiềm ẩn khi sự cố kỹ thuật xảy ra trong các hệ thống quan trọng. Việc nhanh chóng khắc phục sự cố và tối ưu hóa các phụ thuộc trong hệ thống sẽ giúp nâng cao độ tin cậy và giảm thiểu gián đoạn dịch vụ trong tương lai.
