VTV.vn - Theo Neil Chowdhury, nhà nghiên cứu tại Transluce và cựu nhân viên của OpenAI, nguyên nhân có thể liên quan đến phương pháp huấn luyện tăng cường (reinforcement learning) mà OpenAI đang sử dụng
OpenAI vừa công bố hai mô hình AI tiên tiến mới là o3 và o4-mini, được ca ngợi với khả năng suy luận và xử lý logic vượt trội. Tuy nhiên, trái ngược với kỳ vọng, cả hai lại gặp phải vấn đề nghiêm trọng: xu hướng 'tự tưởng tượng' thông tin – hay nói cách khác, bịa chuyện nhiều hơn so với các phiên bản trước.
Hallucination (tạm dịch: ảo giác hay "phát ngôn sai") là một vấn đề dai dẳng của trí tuệ nhân tạo. Đây là tình trạng AI tạo ra thông tin sai lệch với sự tự tin, dễ dàng đánh lừa người dùng. Các phiên bản trước đã phần nào giảm thiểu tình trạng này, nhưng với o3 và o4-mini, vấn đề dường như trở nên trầm trọng hơn.
Theo báo cáo kỹ thuật từ chính OpenAI, o3 và o4-mini – thuộc nhóm mô hình "reasoning models" tập trung vào suy luận logic – lại tạo ra thông tin sai lệch cao hơn so với các phiên bản trước như o1, o1-mini và o3-mini, thậm chí cả GPT-. Trong bài đánh giá nội bộ PersonQA, o3 có tỷ lệ bịa chuyện lên tới 33%, cao gấp đôi so với o1 và o3-mini (16% và 14,8%). Đáng báo động hơn, o4-mini đạt tới 48% - gần như là đoán mò.
Một điều đáng lo ngại khác: ngay cả OpenAI cũng không rõ lý do tại sao điều này xảy ra.

Trong báo cáo, OpenAI thừa nhận "cần nghiên cứu thêm" để tìm hiểu nguyên nhân vì sao khi mở rộng mô hình suy luận thì tỷ lệ bịa đặt lại gia tăng. Dù o3 và o4-mini thể hiện vượt trội trong các bài toán lập trình và toán học, chúng cũng "phát ngôn nhiều hơn" - tức là tạo ra nhiều thông tin hơn, bao gồm cả đúng và sai.
Một nhóm nghiên cứu độc lập từ tổ chức phi lợi nhuận Transluce cũng đã xác nhận điều này. Họ phát hiện o3 không chỉ tự tạo ra dữ kiện, mà còn... sáng tạo cả quy trình đưa ra câu trả lời. Trong một trường hợp, o3 khẳng định đã chạy code trên MacBook Pro 2021 "bên ngoài " rồi sao chép kết quả vào – điều mà bản thân nó hoàn toàn không thể làm được.
Theo Neil Chowdhury, nhà nghiên cứu tại Transluce và cựu nhân viên của OpenAI, vấn đề có thể nằm ở phương pháp huấn luyện tăng cường (reinforcement learning) mà OpenAI áp dụng cho dòng o-series. Phương pháp này giúp nâng cao hiệu suất ở một số tác vụ, nhưng cũng có thể vô tình khuếch đại xu hướng 'tự bịa' thông tin.
Mặc dù vậy, một số người dùng vẫn nhìn thấy tiềm năng của o3. Kian Katanforoosh, giảng viên Stanford và CEO của startup Workera, chia sẻ rằng nhóm của ông đang thử nghiệm o3 trong quy trình lập trình và nhận thấy nó 'vượt trội hơn các đối thủ'. Tuy nhiên, ông cũng thừa nhận o3 thường xuyên tạo ra liên kết web không tồn tại – một dạng hallucination gây khó chịu trong các ứng dụng thực tế.
Vấn đề là: trong khi khả năng 'bịa chuyện' đôi khi giúp AI trở nên sáng tạo hơn, nó cũng là lý do khiến các doanh nghiệp - đặc biệt trong các lĩnh vực đòi hỏi độ chính xác cao như pháp lý, y tế hay tài chính - e ngại khi áp dụng AI vào công việc.
Một giải pháp tiềm năng là tích hợp AI với công cụ tìm kiếm. Ví dụ, GPT- khi được cấp quyền truy cập web đạt độ chính xác lên tới 90% trên bộ câu hỏi SimpleQA. Điều này cho thấy rằng khả năng tra cứu bên ngoài có thể là chìa khóa để giảm thiểu việc AI tự bịa đặt – nếu người dùng sẵn sàng đánh đổi bằng việc chia sẻ prompt với bên thứ ba.
Người phát ngôn của OpenAI khẳng định rằng đây vẫn là 'một lĩnh vực nghiên cứu liên tục' và họ đang nỗ lực để nâng cao độ tin cậy của tất cả các mô hình.
Trong năm qua, ngành AI đã chuyển hướng mạnh mẽ sang các mô hình suy luận logic nhằm tăng hiệu suất mà không cần tiêu tốn lượng lớn dữ liệu và tài nguyên. Nhưng giờ đây, các nhà nghiên cứu phải đối mặt với một nghịch lý: mô hình càng thông minh, lại càng 'bịa giỏi'. Và việc giải quyết nghịch lý này có thể sẽ trở thành thách thức lớn nhất tiếp theo của trí tuệ nhân tạo.
