
Facebook không thể tránh khỏi sự sụp đổ. Chờ chút, nó đã bị đánh đổ, và phải mất tới 6 giờ mới khôi phục lại, khiến WhatsApp, Instagram cũng gặp nguy hiểm, và nhiều dự án và công ty phụ thuộc vào dịch vụ của Facebook cũng bị tác động...
Hôm nay, vào lúc 15:51 UTC, chúng tôi ghi nhận một sự cố với Facebook với tên gọi là “Lỗi DNS trả về SERVFAIL”. Ban đầu, Cloudflare nghĩ rằng dịch vụ 1.1.1.1 của họ gặp vấn đề không thể tìm thấy máy chủ của Facebook. Nhưng sau đó, cả thế giới đã thừa nhận rằng sự cố nằm ở Facebook, hạ tầng của họ đã “biến mất” khỏi Internet toàn cầu. Thậm chí các địa chỉ IP của máy chủ Facebook cũng không thể truy cập được. Dường như có ai đó đã ngắt điện toàn bộ máy chủ của họ cùng một lúc.
Facebook tuyên bố rằng các nhà kỹ sư của họ đã thiết lập sai cấu hình cho các router được sử dụng trong các trung tâm dữ liệu của công ty, gây ra sự cố trong việc điều hướng dữ liệu giữa các trung tâm dữ liệu. Hậu quả là nhiều trung tâm dữ liệu và nhiều dịch vụ khác bị ảnh hưởng.
Về phía Cloudflare, họ phát hiện ra rằng vấn đề chính đặt ở BGP và DNS.
BGP là gì?
Vào thời điểm 15:58 UTC, Cloudflare phát hiện rằng Facebook đã ngừng thông báo các tuyến đường khả thi trong hệ thống DNS của họ. Điều này có nghĩa là ít nhất là máy chủ sử dụng để phân giải tên miền của Facebook đã ngừng hoạt động. DNS có nhiệm vụ chuyển đổi tên miền chữ, như facebook.com, thành một địa chỉ IP cụ thể, như 234.14.200.89. Thông thường, trong các trang web và ứng dụng, khi cần truy cập dữ liệu hoặc giao tiếp với nhau, người ta thường chỉ sử dụng tên miền chữ, hiếm khi nhập trực tiếp địa chỉ IP.Do đó, khi hệ thống của Facebook gặp sự cố, ứng dụng và trang web của Facebook không thể tìm thấy máy chủ, không thể truy xuất dữ liệu về, cũng không thể gửi dữ liệu lên. Mọi thứ đều bị mắc kẹt, và đó là lúc chúng ta nhận ra Facebook đã gặp sự cố. Cloudflare cũng gặp phải tình huống tương tự, DNS 1.1.1.1 của họ không biết phải làm thế nào để tìm thấy địa chỉ IP cho các yêu cầu liên quan đến facebook.com.
Nếu phân tích các đợt cập nhật này chi tiết hơn, có thể thấy rằng các tuyến đường của dữ liệu đã bị rút ngắn, máy chủ DNS của Facebook không hoạt động nữa, và sau đó, chỉ trong vòng 1 phút, các kỹ sư của Cloudflare đã bắt đầu tự hỏi tại sao 1.1.1.1 không thể kết nối với facebook.com. Tóm lại, việc rút các tuyến đường này đã khiến Facebook tự mình tách ra khỏi Internet.
Cách mà các máy chủ DNS hoạt động là kiểm tra trong bộ nhớ cache để xác định xem facebook.com có trỏ đến địa chỉ IP nào mà máy chủ DNS đã biết hay không. Nếu có, nó sẽ sử dụng luôn; nếu không, nó sẽ gửi yêu cầu đến nameserver của tên miền, thường được quản lý bởi công ty sở hữu tên miền. Nếu nameserver gặp sự cố, bị lỗi hoặc không hoạt động, mã lỗi SERVFAIL sẽ được trả về, sau đó trình duyệt sẽ thông báo lỗi cho người dùng.
Vì Facebook đã dừng phát dữ liệu cần thiết, các máy chủ DNS của Cloudflare và nhiều công ty khác không thể kết nối với nameserver của Facebook. Do đó, 1.1.1.1, 8.8.8.8 và các ISP của nhà mạng đều nhận được mã lỗi SERVFAIL.Nhưng chưa dừng lại ở đó. Bây giờ là lúc con người tự nhiên hành động. Khi thấy trang web và ứng dụng bị lỗi, người dùng trên toàn thế giới bắt đầu làm mới trang hoặc mở lại ứng dụng, điều này dẫn đến một loạt yêu cầu được gửi đến các máy chủ DNS, và vấn đề vẫn tiếp tục, làm cho tình hình trở nên tồi tệ hơn. Ngoài con người, các hệ thống cũng được lập trình để tự động thử lại khi yêu cầu thất bại, thậm chí có thể thử lại nhiều lần trước khi dừng lại, điều này càng làm cho tình hình trở nên tồi tệ hơn.
Vì Facebook quá lớn, số lượng yêu cầu tăng đột biến lên đến 30 lần so với thông thường và có thể gây ra sự cố với một số nhà cung cấp dịch vụ DNS khác, nhưng 1.1.1.1 không bị ảnh hưởng. Đa số yêu cầu phân giải DNS được xử lý trong thời gian dưới 10ms.Tác động đến các dịch vụ khác
Khi Facebook gặp sự cố, người dùng chuyển sang các nền tảng khác để thảo luận. Các nền tảng như Twitter, Signal, Telegram, TikTok ghi nhận mức tăng vượt ngưỡng về lưu lượng truy cập.
Vào khoảng 21:00 UTC, các gói cập nhật BGP từ Facebook bắt đầu hiện lại, đỉnh điểm là vào lúc 21:17 và các dịch vụ của Facebook dần dần bắt đầu hoạt động trở lại.
