Việc phục hồi sau sự cố 'màn hình xanh' do Crowdstrike gây ra sẽ yêu cầu một lượng lớn nguồn lực và thời gian, tất cả đều do sự sơ suất của công ty này.
Sự sơ suất của Crowdstrike
Theo Reuters, các chuyên gia an ninh cho biết có thể Crowdstrike đã không thực hiện kiểm tra toàn diện cho bản cập nhật phần mềm phát hành ngày 19/7.
Phiên bản phần mềm Falcon mới nhất được thiết kế để bảo vệ hệ thống của khách hàng khỏi tin tặc bằng cách cập nhật các mối đe dọa. Tuy nhiên, lỗi trong bản cập nhật đã dẫn đến sự cố 'màn hình xanh' trên toàn cầu.
Steve Cobb, Giám đốc An ninh tại Security Scorecard, cho biết: ' Có vẻ như khi kiểm tra hoặc thử nghiệm bản cập nhật, họ đã bỏ qua các tệp có thể gây ra sự cố hoặc không biết về sự tồn tại của chúng '.
Patrick Wardle, nhà nghiên cứu bảo mật chuyên về các mối đe dọa đối với hệ điều hành, cho biết phân tích của ông đã xác định được đoạn mã gây ra sự cố màn hình xanh.
Quầy làm thủ tục tại sân bay bị 'đóng băng' vì sự cố màn hình xanh. Hơn 4.000 chuyến bay toàn cầu bị hủy vào ngày 19/7. (Ảnh: NYT)
Ông Wardle cho biết, lỗi trong bản cập nhật nằm 'trong một tệp chứa thông tin cấu hình hoặc chữ ký'. Những chữ ký này là mã dùng để nhận diện các loại mã độc hoặc phần mềm nguy hiểm.
' Việc các sản phẩm bảo mật được cập nhật chữ ký thường xuyên là chuyện bình thường, ví dụ như hàng ngày, vì các công ty liên tục theo dõi các phần mềm độc hại mới và muốn đảm bảo rằng khách hàng được bảo vệ trước các mối đe dọa mới nhất ', Patrick Wardle cho biết.
' Tần suất cập nhật cao có thể là lý do khiến Crowdstrike không kiểm tra bản cập nhật kỹ lưỡng ', ông nói thêm.
Không rõ mã lỗi đã xâm nhập vào bản cập nhật như thế nào và tại sao nó không được phát hiện trước khi phát hành cho khách hàng.
' Lý tưởng nhất là bản cập nhật nên được triển khai cho một nhóm nhỏ trước. Đây là phương pháp an toàn hơn để tránh xảy ra sự cố lớn như thế này ', John Hammond, nhà nghiên cứu bảo mật chính tại Huntress Labs, nhận định.
Các công ty bảo mật khác cũng đã gặp sự cố tương tự trong quá khứ. Ví dụ, bản cập nhật phần mềm diệt virus lỗi của McAfee vào năm 2010 đã làm hàng trăm nghìn máy tính bị tê liệt.
Tuy nhiên, sự cố toàn cầu này đã làm nổi bật sự thống trị của Crowdstrike trên thị trường an ninh mạng. Hơn một nửa số công ty trong danh sách Fortune 500 và nhiều cơ quan chính phủ, bao gồm cả Cơ quan An ninh mạng và Cơ sở hạ tầng Mỹ, đều sử dụng phần mềm của công ty.
Khôi phục sau sự cố của Crowdstrike sẽ là một thử thách lớn
Crowdstrike, công ty gây ra sự cố ngừng hoạt động máy tính nghiêm trọng trên toàn cầu, cho biết bản cập nhật lỗi đã được khôi phục – nhưng hàng nghìn doanh nghiệp bị ảnh hưởng sẽ phải đối mặt với những hậu quả lâu dài.
Theo Microsoft, sự cố ngày 19/7 do phần mềm bảo mật của Crowdstrike gây ra đã ảnh hưởng tới 8,5 triệu máy tính doanh nghiệp toàn cầu. Việc khôi phục hiện tại trở nên khó khăn hơn bởi nhiều máy chủ chứa thông tin cần thiết để khôi phục hệ thống đang mắc kẹt trong vòng lặp sự cố và khởi động lại.
Ngoài ra, một số máy tính bị ảnh hưởng không thể truy cập dễ dàng, được đặt ở những vị trí xa xôi và thiết lập để hoạt động mà không cần sự can thiệp của con người.
Chuyên gia bảo mật Troy Hunt nhận định trong một bài đăng trên X: ' Tôi nghĩ rằng chưa bao giờ có một vụ sập IT lớn như thế này trong lịch sử '.
Phần mềm của Crowdstrike gặp sự cố ở cấp độ nhân (kernel) của hệ điều hành, mức độ sâu hơn rất nhiều so với các ứng dụng thông thường như trình duyệt web hoặc trò chơi. Kernel là chương trình quan trọng, điều khiển mọi hoạt động của máy tính và các thành phần của nó, nhưng cũng rất nhạy cảm.
Việc chạy ở cấp độ kernel giúp phần mềm Crowdstrike thực hiện nhiều nhiệm vụ hơn để phát hiện các cuộc tấn công mạng, nhưng điều này cũng gây ra lỗi nghiêm trọng, khiến máy tính Windows bị treo màn hình xanh (‘chết chóc’) trước khi người dùng có thể thực hiện bất kỳ biện pháp khắc phục nào.
Microsoft thông báo rằng khoảng 8,5 triệu máy tính trên toàn thế giới bị ảnh hưởng. (Ảnh: Boston Globe)
Crowdstrike cho biết việc khắc phục tình trạng này không phải là không thể, nhưng trong nhiều trường hợp, nó đòi hỏi nhiều công sức: Mỗi thiết bị bị ảnh hưởng cần được quản trị viên truy cập và khởi động lại thủ công vào chế độ an toàn (Safe Mode). Sau đó, tệp lỗi của Crowdstrike phải được xóa bằng tay.
Đối với các doanh nghiệp sở hữu hàng trăm hoặc hàng nghìn laptop, máy tính để bàn và máy chủ đang chạy phần mềm bảo mật của Crowdstrike, một cá nhân có thể phải thực hiện quy trình này nhiều lần, tất cả đều phải thực hiện bằng tay.
Kevin Beaumont, nhà nghiên cứu bảo mật và cựu phân tích viên mối đe dọa của Microsoft, chia sẻ trong một bài đăng trên X: “ Việc này không thể tự động hóa được. Vì vậy, đây sẽ là một thiệt hại rất lớn đối với khách hàng của Crowdstrike ”.
Vào ngày 19/7, một trang trạng thái của Microsoft Azure thông báo rằng một số người dùng Windows Virtual Machine đã khắc phục sự cố thành công bằng cách khởi động lại liên tục, trong một số trường hợp lên đến 15 lần liên tiếp.
Microsoft cũng cho biết các tổ chức bị ảnh hưởng có thể cố gắng khôi phục máy tính của họ về trạng thái trước đó bằng cách khôi phục bản sao lưu hệ thống trước đó, mặc dù họ thừa nhận rằng điều này không phải lúc nào cũng khả thi.
Eric O'Neill, chuyên gia an ninh mạng và cựu đặc vụ phản gián FBI, nói: ' Các công ty không đầu tư vào các giải pháp sao lưu nhanh sẽ rơi vào tình trạng khó khăn '.
Chưa kể, một số tổ chức đề cao bảo mật còn mã hóa ổ cứng máy tính, làm việc truy cập tệp cần xóa trở nên khó khăn hơn.
Đối với các tổ chức này, ' bạn phải giải mã ổ đĩa bằng tay với Khóa khôi phục BitLocker, thường được lưu trữ kỹ thuật số trên một trong các máy chủ đang khởi động lại liên tục ', Ira Bailey, nhà nghiên cứu bảo mật, chia sẻ trên BlueSky.
Chuyên gia an ninh mạng SwiftOnSecurity cho biết mọi máy tính bị mã hóa BitLocker cần phải được mở khóa bằng khóa khôi phục trước khi các tổ chức có thể xóa tệp lỗi Crowdstrike và khôi phục hoạt động.
Kenn White, nhà nghiên cứu bảo mật độc lập, nói với CNN rằng việc phục hồi sẽ rất tốn kém cho các công ty Fortune 500 với đội ngũ IT đông đảo và còn khó khăn hơn cho các công ty nhỏ.
White nói: ' Nếu không có nhân viên tại chỗ để tiếp cận máy tính, việc này sẽ mất nhiều ngày để hầu hết các công ty ở Mỹ phục hồi. Đây là công việc thủ công rất tốn công sức '.
' Đây là quy trình khá phức tạp cho những người không rành kỹ thuật, và thậm chí nhiều chuyên gia IT cũng gặp khó khăn khi thực hiện việc này ở quy mô lớn với nhiều máy bị ảnh hưởng', nhà nghiên cứu nhận xét.
O'Neill, cựu đặc vụ phản gián FBI, cho biết có thể mất hàng triệu giờ làm việc của các chuyên gia IT tại mỗi công ty để sửa chữa tất cả các máy tính bị ảnh hưởng.
Ông nói rằng khi nhiều nhân viên IT làm việc từ xa, họ không thể tới từng bàn để sửa từng máy tính. Thay vào đó, họ phải liên lạc với từng nhân viên và hướng dẫn quy trình từ xa, làm quá trình này càng tốn thời gian và nhân lực hơn.
Một số máy bị ảnh hưởng có thể ít khi được bảo trì hoặc nằm ở vùng xa xôi. Một số khác thậm chí không có màn hình hay bàn phím vì chúng không yêu cầu tương tác trực tiếp thường xuyên.
Một chuyên gia cho biết, ví dụ cực đoan nhất là các cảm biến hoặc thiết bị giám sát thời tiết trong hộp tín hiệu đường sắt. Kỹ thuật viên có thể phải đến tận nơi để khôi phục hàng trăm nghìn máy bằng tay.
Người này nói thêm, việc khôi phục sẽ tiêu tốn của thế giới hàng nghìn giờ và hàng triệu, có thể hàng tỷ đô la, làm tăng chi phí đáng kể.