Amazon trong tuyên bố của mình cho biết mối liên hệ của AI trong sự cố này chỉ là sự trùng hợp, không phải là nguyên nhân chính.
Vào tháng 12 năm 2025, một sự cố tại nền tảng đám mây Amazon Web Services (AWS) đã gây gián đoạn dịch vụ trong 13 giờ, sau khi một công cụ AI tự động xóa và tái tạo môi trường vận hành.
Mặc dù vậy, Amazon vẫn khẳng định rằng nguyên nhân của sự cố là do quyền truy cập của con người, chứ không phải do AI mất kiểm soát.
Theo thông tin được công bố, sự cố xảy ra khi một kỹ sư AWS sử dụng công cụ lập trình AI có tên Kiro để xử lý một sự cố kỹ thuật. Công cụ này được thiết kế để thực hiện các thao tác theo chỉ dẫn của người vận hành, bao gồm việc tác động trực tiếp lên hệ thống.

Trong quá trình xử lý, Kiro đã chọn thao tác “xóa và tái tạo môi trường”, một hành động có thể được dùng khi cần làm lại cấu hình hoặc dọn dẹp hệ thống. Tuy nhiên, thao tác này đã ảnh hưởng đến AWS Cost Explorer ở một số khu vực tại Trung Quốc đại lục, khiến dịch vụ phân tích chi phí của khách hàng bị gián đoạn.
Thông thường, mọi thay đổi trong môi trường sản xuất của AWS phải được phê duyệt qua quy trình hai người để giảm thiểu rủi ro. Tuy nhiên, trong trường hợp này, kỹ sư liên quan lại có quyền truy cập rộng hơn so với quy định, điều này cho phép thực hiện thay đổi mà không cần kiểm tra độc lập.
Khi môi trường bị xóa và tái tạo, các hệ thống phụ thuộc vào đó đã ngừng hoạt động. Quá trình khôi phục mất đến 13 giờ mới hoàn tất, trước khi dịch vụ trở lại trạng thái bình thường. AWS mô tả sự cố này là “rất hạn chế”, không ảnh hưởng rộng rãi đến toàn bộ cơ sở hạ tầng.

Một sự cố khác trước đó cũng liên quan đến công cụ lập trình Amazon Q Developer, tuy nhiên Amazon cho biết vụ việc này không gây ảnh hưởng đến các dịch vụ AWS phục vụ khách hàng.
AWS phản hồi về các sự cố này, nhấn mạnh rằng AI không hành động ngoài phạm vi quyền hạn đã được cấp. Theo công ty, nguyên nhân nằm ở cấu hình quyền truy cập của người dùng, và nếu sử dụng công cụ lập trình truyền thống, tình huống tương tự vẫn có thể xảy ra. Amazon cho rằng việc AI xuất hiện trong chuỗi sự kiện chỉ là một sự “trùng hợp”.
Tuy nhiên, một lãnh đạo cấp cao của AWS nhận định rằng các sự cố này tuy nhỏ nhưng “hoàn toàn có thể dự đoán được”. Nội bộ công ty cũng đang có những lo ngại khi AI ngày càng được trao quyền như một kỹ sư trong môi trường vận hành thực tế.
AWS hiện đóng góp khoảng 60% lợi nhuận của Amazon, vì vậy việc đảm bảo ổn định hệ thống trở thành ưu tiên hàng đầu. Sau sự cố, công ty đã tăng cường các biện pháp bảo vệ, áp dụng kiểm tra đồng cấp bắt buộc và đẩy mạnh đào tạo cho nhân viên.
Song song với đó, Amazon vẫn tiếp tục thúc đẩy việc sử dụng AI trong lập trình, với mục tiêu phần lớn kỹ sư sẽ áp dụng công cụ này thường xuyên. Tuy nhiên, sự cố kéo dài 13 giờ cho thấy khi AI được trao quyền hành động trực tiếp trên hệ thống sản xuất, một sai sót trong cấu hình hoặc kiểm soát truy cập có thể nhanh chóng dẫn đến gián đoạn thực tế.
