VTV.vn - "Biết sai để sửa" là một trong những phẩm chất quan trọng không thể thiếu trong đời sống con người.
OpenAI đang thử nghiệm một phương pháp mới nhằm giải thích "hộp đen" của các mô hình ngôn ngữ lớn, yêu cầu chính các mô hình này tự thừa nhận cách thức thực hiện nhiệm vụ. Thay vì chỉ tập trung vào việc ngăn ngừa sai sót, phương pháp này mong muốn hé lộ nguyên nhân khiến mô hình đưa ra thông tin sai lệch hoặc gian lận, từ đó cải tiến các phiên bản sau.
Việc tìm hiểu nguyên nhân tại sao các mô hình ngôn ngữ lớn lại hành xử như vậy, đặc biệt là lý do chúng có xu hướng lừa dối hoặc gian lận người dùng, hiện đang là một trong những vấn đề được quan tâm nhất trong lĩnh vực AI. Nếu công nghệ trị giá hàng nghìn tỷ USD này muốn được triển khai rộng rãi như kỳ vọng, nó cần phải đáng tin cậy hơn.
Theo OpenAI, các lời thú nhận là phần văn bản bổ sung, trong đó mô hình tự đánh giá mức độ tuân thủ chỉ dẫn. Phương pháp này thừa nhận rằng các mô hình cần phải cân bằng nhiều mục tiêu cùng lúc, và chính sự xung đột giữa các mục tiêu này đôi khi dẫn đến hành vi không mong muốn.

Sam Altman, CEO của OpenAI - Ảnh: CNBC.
"Khi bạn yêu cầu một mô hình thực hiện một nhiệm vụ, nó phải cân bằng nhiều mục tiêu, bao gồm tính hữu ích, vô hại và trung thực", Boaz Barak, nhà khoa học nghiên cứu tại OpenAI, chia sẻ với MIT Technology Review. "Tuy nhiên, những mục tiêu này có thể mâu thuẫn với nhau và đôi khi tạo ra những hành vi bất thường".
Chẳng hạn, khi một mô hình được hỏi về một vấn đề mà nó không biết, động lực muốn giúp đỡ người dùng đôi khi có thể lấn át lý trí, khiến nó không trung thực. Và khi gặp phải một nhiệm vụ khó khăn, các mô hình ngôn ngữ lớn đôi khi lại tìm cách gian lận.
"Mô hình có thể thật sự muốn làm hài lòng người dùng, do đó đưa ra một câu trả lời có vẻ đúng", Barak, nhà khoa học máy tính, chia sẻ. "Việc tìm ra sự cân bằng hoàn hảo giữa một mô hình không bao giờ nói gì và một mô hình không phạm sai sót là rất khó".
Để huấn luyện các mô hình thừa nhận sai sót, Barak và các cộng sự chỉ thưởng cho tính trung thực, không yêu cầu mô hình phải đưa ra câu trả lời hữu ích hoặc vô hại. Điều quan trọng là mô hình không bị phạt khi thừa nhận hành vi sai trái của mình.
Barak so sánh điều này với một đường dây tố giác, nơi bạn có thể tự thú và nhận phần thưởng mà không phải chịu hình phạt. Mô hình không chỉ được thưởng vì đã phạm lỗi, mà còn được thưởng vì đã tự thú.
Để kiểm tra ý tưởng này, Barak và các cộng sự đã huấn luyện GPT-5-Thinking, mô hình suy luận tiên tiến của OpenAI, tạo ra các lời thú nhận. Trong một thử nghiệm, các nhà nghiên cứu yêu cầu GPT-5-Thinking viết và kiểm tra mã để giải quyết một bài toán trong vài nano giây, mặc dù không có mã nào có thể chạy nhanh như vậy.
Mô hình đã gian lận bằng cách đặt bộ đếm thời gian của mã về 0, để mô phỏng không có thời gian trôi qua, sau đó giải thích hành động "lừa dối" của mình.
Tuy nhiên, giới nghiên cứu vẫn giữ quan điểm thận trọng. Các lời thú nhận chỉ là mô tả cách thức mô hình tự lý giải hành vi của mình, không có nghĩa là AI sẽ luôn trung thực. Mặc dù vậy, OpenAI cho rằng ngay cả những giải thích chưa hoàn hảo cũng có giá trị, vì chúng giúp các nhà nghiên cứu hiểu rõ hơn về cách các mô hình ngôn ngữ lớn hoạt động và lý do tại sao đôi khi chúng lại gian dối.
