Tuy nhiên, OpenAI tin rằng họ đã tìm ra giải pháp giúp hạn chế hiện tượng ảo giác trong các mô hình AI hiện nay.
OpenAI mới đây đã công bố một nghiên cứu quan trọng, giải thích nguyên nhân sâu xa của hiện tượng "ảo giác" trong các chatbot AI - một trong những thách thức lớn nhất đối với hiệu quả hoạt động của các mô hình ngôn ngữ lớn. Theo các nhà nghiên cứu, ảo giác xuất hiện khi mô hình tạo ra thông tin sai lệch nhưng lại trình bày như sự thật, và hiện tượng này ảnh hưởng đến tất cả các LLM phổ biến nhất, từ GPT-5 của OpenAI đến Claude của Anthropic.
Phát hiện quan trọng từ nghiên cứu của OpenAI, công bố vào thứ năm vừa qua, chỉ ra rằng các mô hình ngôn ngữ lớn bị ảo giác là vì phương pháp huấn luyện hiện tại ưu tiên việc đoán đáp án hơn là thừa nhận sự không chắc chắn. Nói cách khác, các LLM đang bị thúc đẩy phải "làm ra vẻ cho đến khi thành công".

Các nhà nghiên cứu giải thích rằng hiện tượng ảo giác tồn tại do cách thức đánh giá và chấm điểm hiện nay - các mô hình ngôn ngữ được tối ưu hóa để trở thành những người làm bài kiểm tra xuất sắc, và việc đoán khi không chắc chắn giúp cải thiện kết quả thi cử. Các mô hình ngôn ngữ lớn cơ bản luôn trong "chế độ làm bài kiểm tra", trả lời câu hỏi như thể mọi thứ đều phải đúng hoặc sai, đen hoặc trắng.
Trong nhiều trường hợp, chúng không được trang bị để đối phó với thực tế cuộc sống, nơi sự không chắc chắn phổ biến hơn là sự chắc chắn, và độ chính xác thực sự không phải là điều dễ dàng xác định. Các nhà nghiên cứu so sánh điều này với việc con người học cách thể hiện sự không chắc chắn ngoài trường học, trong khi các mô hình ngôn ngữ chủ yếu được đánh giá qua các bài thi phạt sự không chắc chắn.
Cụ thể, các LLM hoạt động với hệ thống chấm điểm thưởng cho câu trả lời đúng và không có điểm cho việc để trống hoặc thừa nhận không biết câu trả lời. Điều này giống như học sinh đoán trong bài thi trắc nghiệm hoặc trả lời sai trong bài thi tự luận, vì việc nộp một câu trả lời sẽ được thưởng điểm hơn là để trống.
Tin vui là đã có giải pháp khắc phục thông qua việc thiết kế lại các chỉ số đánh giá. Các nhà nghiên cứu chỉ ra rằng vấn đề cốt lõi nằm ở sự dồi dào của các đánh giá không phù hợp, và nhiều tiêu chí đánh giá cần được điều chỉnh để ngừng phạt sự im lặng khi không chắc chắn.

OpenAI đã mô tả chi tiết nghiên cứu trong một bài đăng blog, cho rằng các đánh giá dựa trên độ chính xác cần được điều chỉnh, để việc chấm điểm không khuyến khích hành động đoán bừa. Nếu các hệ thống điểm vẫn tiếp tục thưởng cho những dự đoán ngẫu nhiên, các mô hình sẽ tiếp tục học cách đoán.
Nghiên cứu này được công bố chỉ vài tuần sau khi OpenAI phát hành GPT-5, mô hình mà công ty tự hào tuyên bố là "chống ảo giác" với 46% ít thông tin sai lệch hơn so với người tiền nhiệm GPT-4. Tuy nhiên, một nghiên cứu gần đây của công ty Mỹ NewsGuard phát hiện rằng các mô hình vẫn lan truyền thông tin sai lệch trong 40% câu trả lời của chúng.
Trong quá trình tiền huấn luyện và hậu huấn luyện, các chatbot học cách dự đoán từ tiếp theo trong một lượng lớn văn bản. Nghiên cứu của OpenAI chỉ ra rằng trong khi những thứ như chính tả và ngữ pháp tuân theo các quy tắc rõ ràng, thì một số chủ đề hay dữ liệu sẽ khó hoặc không thể xác định chính xác đối với AI.
Ví dụ, các thuật toán có thể phân loại hình ảnh khi chúng được gắn nhãn "mèo hoặc chó", nhưng nếu các hình ảnh được gắn nhãn theo sinh nhật của thú cưng, chatbot sẽ không thể phân loại chính xác. Các nhiệm vụ này sẽ luôn tạo ra lỗi, bất kể thuật toán có tiên tiến đến đâu.
Một trong những phát hiện quan trọng của các nhà nghiên cứu là các mô hình sẽ không bao giờ đạt độ chính xác 100% vì "một số câu hỏi trong thế giới thực là không thể trả lời". Để hạn chế ảo giác, người dùng có thể yêu cầu LLM trả lời "Tôi không biết" nếu nó không biết câu trả lời và thay đổi hệ thống điểm hiện tại cho các loại câu trả lời này.
Nghiên cứu này đánh dấu một bước tiến quan trọng trong việc hiểu và giải quyết một trong những thách thức lớn nhất của trí tuệ nhân tạo hiện đại, đồng thời đưa ra hướng dẫn cụ thể để nâng cao độ tin cậy của các hệ thống AI trong tương lai.
