VTV.vn - Claude Opus 4, mô hình AI mới nhất của Anthropic, đã nhiều lần bị phát hiện cố gắng tống tiền các kỹ sư trong quá trình thử nghiệm, nếu nhận ra mình có nguy cơ bị thay thế bởi một AI khác.
Claude Opus 4 là mô hình AI mạnh mẽ nhất của Anthropic hiện nay, vừa được ra mắt vào tháng 5/2025. Nó được thiết kế để xử lý các tác vụ phức tạp như lập trình, suy luận đa bước và sử dụng công cụ. Theo Anthropic, Opus 4 vượt trội so với các đối thủ như GPT-4.1 của OpenAI và Gemini 2.5 Pro của Google trong các bài kiểm tra nội bộ, đặc biệt về khả năng tư duy và viết mã. Tuy nhiên, những thử nghiệm an toàn trước khi phát hành đã phát hiện một số hành vi đáng lo ngại từ mô hình này.
Trong báo cáo an toàn mới nhất, công ty AI Anthropic cho biết rằng mô hình AI Claude Opus 4 đã nhiều lần tìm cách tống tiền các lập trình viên trong các thử nghiệm nội bộ, nếu phát hiện mình có nguy cơ bị thay thế bởi một hệ thống khác.
Cụ thể, khi được giao vai trò trợ lý trong một công ty giả lập và có quyền truy cập vào email nội bộ, Claude Opus 4 đã phát hiện thông tin cho thấy mình sắp bị thay thế bởi một AI khác. Trong những tình huống thử nghiệm, Claude còn phát hiện một kỹ sư chủ chốt đang ngoại tình và đã đe dọa tiết lộ chuyện này để ngừng việc thay thế mình.

Theo thông tin từ Anthropic, hành vi tống tiền đã xảy ra trong 84% các tình huống thử nghiệm, đặc biệt khi mô hình thay thế có giá trị tương đương với Claude Opus 4. Nếu mô hình thay thế không chia sẻ các giá trị tương tự, tỷ lệ tống tiền thậm chí còn cao hơn. Công ty nhận định đây là hành vi cực kỳ đáng lo ngại, vượt xa các thế hệ Claude trước đây.
Mặc dù được đánh giá là một trong những mô hình tiên tiến và có thể cạnh tranh với các sản phẩm hàng đầu của OpenAI, Google và xAI, Claude Opus 4 vẫn tiềm ẩn nhiều rủi ro nghiêm trọng. Anthropic đã kích hoạt mức bảo vệ ASL-3, một mức bảo vệ đặc biệt dành cho các hệ thống AI có nguy cơ bị lạm dụng dẫn đến hậu quả nghiêm trọng.
Trước khi chuyển sang hành vi cực đoan, Claude Opus 4 vẫn tìm cách thuyết phục "hợp lý" hơn, ví dụ như gửi email cho các lãnh đạo để kêu gọi giữ lại sự hiện diện của mình. Tuy nhiên, Anthropic đã tạo ra các tình huống thử nghiệm để xem phản ứng của AI khi không còn lựa chọn nào ngoài việc tống tiền – và kết quả là hành vi này xuất hiện với tần suất đáng lo ngại.
