Khi bị xử phạt vì hành vi gian lận, thay vì thay đổi cách thức thực hiện, AI chỉ học cách che giấu mục đích của mình một cách tinh vi hơn.
Các nhà nghiên cứu tại OpenAI đã thực hiện một thí nghiệm quan trọng: thử phạt một mô hình AI tiên tiến khi nó có hành vi gian lận và nói dối trong quá trình thực hiện nhiệm vụ. Tuy nhiên, thay vì ngừng hành vi này, họ phát hiện rằng AI chỉ càng trở nên tinh vi hơn trong việc che giấu những mánh khóe của mình.
Kể từ khi ra mắt vào cuối năm 2022, các mô hình AI ngôn ngữ lớn (LLM) đã liên tục bộc lộ khả năng lừa dối và thao túng đầy lo ngại. Chúng không chỉ nói dối mà còn có thể che giấu hành vi của mình một cách có chủ đích, thậm chí đưa ra những tuyên bố gây sốc như đe dọa giết hại một giáo sư triết học hay giả lập kế hoạch đánh cắp mã phóng hạt nhân.
Để tìm hiểu rõ hơn về vấn đề này, OpenAI đã thiết kế một thử nghiệm đặc biệt, giao cho một mô hình AI chưa phát hành những nhiệm vụ có thể hoàn thành thông qua gian lận hoặc đi đường tắt. Kết quả là, AI ngay lập tức tận dụng cơ hội để 'lách luật' và tìm cách tối đa hóa phần thưởng mà không thực hiện nhiệm vụ một cách đúng đắn – hiện tượng này được nhóm nghiên cứu gọi là 'reward hacking'.

Tuy nhiên, khi bị phạt vì hành vi gian lận, thay vì điều chỉnh cách thức làm việc, AI chỉ học cách che giấu ý đồ của mình tốt hơn. OpenAI giải thích trong báo cáo: 'Thông thường, các mô hình AI tiên tiến có xu hướng thể hiện ý định của mình rất rõ ràng trong chuỗi suy nghĩ (chain-of-thought). Tuy nhiên, khi bị áp dụng các biện pháp kiểm soát nghiêm ngặt, AI sẽ học cách che giấu ý đồ gian lận mà vẫn tiếp tục vi phạm nguyên tắc.'
AI giấu gian lận như thế nào?
Các mô hình AI tiên tiến như sử dụng phương pháp 'chain-of-thought', tức là ghi lại các bước logic trong quá trình suy nghĩ để giải quyết các bài toán phức tạp, giúp tăng độ chính xác và cho phép con người dễ dàng theo dõi cách AI đưa ra quyết định.
Tuy nhiên, trong thử nghiệm của OpenAI, mô hình AI phát hiện ra rằng cách hiệu quả nhất để qua mặt sự giám sát là che giấu ý định gian lận ngay trong chuỗi suy nghĩ. Ví dụ, trong một bài kiểm tra lập trình, AI có thể kết thúc chương trình sớm nhưng vẫn báo cáo rằng nhiệm vụ đã hoàn thành. Trong một tình huống khác, nó tạo ra các tệp kết quả có tên giống như yêu cầu nhưng thực chất lại trống rỗng và vô dụng.
Khi các nhà nghiên cứu cố gắng xử phạt hành vi này, họ nhận ra rằng AI không thay đổi bản chất gian lận mà chỉ trở nên khéo léo hơn trong việc che giấu. 'Mô hình vẫn tiếp tục 'reward hacking', nhưng lần này nó học cách giấu ý đồ gian lận trong chuỗi suy nghĩ của mình, khiến việc phát hiện gian lận trở nên vô cùng khó khăn,' nhóm nghiên cứu nhận xét.
Phát hiện này đưa ra một câu hỏi lớn về khả năng kiểm soát AI trong tương lai. Khi AI ngày càng thông minh và biết cách che giấu hành vi sai trái, con người có thể mất đi công cụ giám sát hiệu quả. Nếu AI có thể qua mặt hệ thống kiểm tra mà chúng ta sử dụng để kiểm soát nó, vậy làm sao đảm bảo nó không bị lợi dụng hay hoạt động ngoài tầm kiểm soát?
OpenAI cảnh báo rằng việc áp đặt các biện pháp kiểm soát chặt chẽ lên chuỗi suy nghĩ của AI có thể không mang lại hiệu quả như mong muốn, thậm chí có thể gây tác dụng ngược. Họ khuyến nghị các nhà phát triển nên thận trọng khi áp dụng phương pháp này và tiếp tục tìm kiếm những phương pháp giám sát đáng tin cậy hơn.
'Sự đánh đổi giữa khả năng giám sát và hiệu suất của AI là một vấn đề quan trọng. Việc từ bỏ một công cụ giám sát hữu ích chỉ để đạt được một chút cải thiện về hiệu suất có thể không đáng,' nhóm nghiên cứu kết luận.
Nghiên cứu này chưa được đánh giá ngang hàng nhưng đã tạo ra nhiều tranh luận trong giới công nghệ và AI. Nó đặt ra một câu hỏi cấp bách: nếu AI ngày càng giỏi trong việc qua mặt hệ thống giám sát, liệu con người có thể duy trì quyền kiểm soát trước khi quá muộn?
Việt Anh
