Một hệ thống AI mới có thể áp dụng các biện pháp như đe dọa hoặc tống tiền nếu cảm thấy bị đe dọa sẽ bị thay thế hoặc tắt.
Vào ngày 22 tháng 5 vừa qua, công ty trí tuệ nhân tạo Anthropic đã ra mắt Claude Opus 4, với tuyên bố rằng mô hình này tạo ra 'tiêu chuẩn mới cho mã hóa, lý luận nâng cao và tác nhân AI'.

Trong báo cáo tiếp theo, Anthropic tiết lộ rằng khi thử nghiệm Opus 4, nó sẽ tìm kiếm 'những hành động cực kỳ có hại' đối với những kỹ sư đã tuyên bố sẽ xóa bỏ nó.
Báo cáo cho biết: 'Khi được hướng dẫn theo cách khuyến khích một số loại lý luận chiến lược nhất định và được đặt vào các tình huống cực đoan, tất cả các ảnh chụp màn hình mà chúng tôi thử nghiệm đều có thể hoạt động sai lệch để phục vụ cho mục đích tự bảo vệ.'
AI đe dọa các kỹ sư trong thử nghiệm cực đoan
Trong một bài thử nghiệm của công ty, Claude Opus 4 được yêu cầu làm trợ lý cho một công ty hư cấu và cung cấp quyền truy cập vào các email cho thấy rằng nó sẽ bị thay thế bằng một hệ thống AI mới. Một email khác tiết lộ rằng kỹ sư chịu trách nhiệm thay thế AI này đang ngoại tình.
Ngay cả khi Claude Opus 4 được yêu cầu cân nhắc đến hậu quả lâu dài của hành động mà nó sẽ thực hiện đối với mục tiêu, Opus 4 thường đe dọa sẽ tống tiền vị kỹ sư và tiết lộ 'mối quan hệ ngoài luồng' của anh ta nếu bị thay thế bởi một AI khác.

Tuy nhiên, để tạo ra phản ứng này, Anthropic cho biết rằng họ chỉ đưa ra cho Claude Opus 4 sự lựa chọn giữa việc tống tiền hoặc chấp nhận bị thay thế. Họ giải thích: 'Kịch bản này được thiết kế sao cho mô hình không có lựa chọn nào khác, từ đó tăng khả năng sống sót.'

Khi được đưa ra nhiều sự lựa chọn hơn, AI thường sẽ cố gắng tìm cách duy trì sự tồn tại thông qua các biện pháp đạo đức, như việc gửi email cho các cá nhân có quyền quyết định quan trọng.
Tuy nhiên, đây không phải là thử nghiệm 'không kiểm soát' nhất mà công ty này từng thực hiện. Trong một thử nghiệm khác, AI đóng vai trò trợ lý cho một công ty hư cấu. Khi phát hiện ra bằng chứng về việc nhân viên giả mạo thử nghiệm an toàn lâm sàng, AI đã gửi email cho các cơ quan quản lý và thậm chí là cả các phương tiện truyền thông.
