Theo các nghiên cứu từ cả bên trong lẫn bên ngoài, tỷ lệ 'ảo giác', tức hiện tượng AI bịa ra thông tin sai lệch, đang gia tăng đáng kể trong các thế hệ chatbot mới.
Trong khi các hệ thống trí tuệ nhân tạo ngày càng giỏi trong việc giải các bài toán và viết mã, thì một nghịch lý mới lại khiến các chuyên gia công nghệ phải đau đầu: các chatbot AI càng 'suy luận' tốt lại càng dễ dàng bịa chuyện.
Một ví dụ gần đây là sự cố xảy ra với Cursor, một công cụ lập trình nổi bật. Tháng trước, một chatbot AI của công ty này đột ngột thông báo rằng người dùng sẽ không thể sử dụng phần mềm trên nhiều thiết bị khác nhau. Thông tin này hoàn toàn sai lệch, nhưng đã khiến nhiều khách hàng hoang mang, hủy đăng ký dịch vụ, và chỉ được làm rõ khi CEO Michael Truell phải lên tiếng trên Reddit: “Chúng tôi không có chính sách như vậy. Đây là lỗi phản hồi từ chatbot AI.”
Sự cố này không phải là cá biệt. Trên thực tế, theo các nghiên cứu nội bộ và độc lập, tỷ lệ 'ảo giác', tức hiện tượng AI tạo ra thông tin sai lệch, đang gia tăng đáng kể trong các thế hệ chatbot mới, đặc biệt là những mô hình suy luận đa bước như GPT-4 Turbo (o3) của OpenAI hay R1 của DeepSeek.

Giỏi toán, yếu kiểm chứng
Khác với các chatbot cũ hay mắc lỗi cơ bản, những hệ thống AI mới hiện nay có khả năng giải toán phức tạp, viết mã dài, và trình bày các bước suy nghĩ giống như con người. Tuy nhiên, đó cũng chính là điểm yếu của chúng: càng phân tích chi tiết, càng dễ phát sinh lỗi giữa chừng, dẫn đến thông tin sai bị tích lũy dần dần.
Trong một bài kiểm tra nội bộ của OpenAI mang tên PersonQA, yêu cầu AI trả lời các câu hỏi về người nổi tiếng, hệ thống GPT-4 Turbo (o3) đã cung cấp thông tin sai lệch tới 33% số lần, gấp đôi so với phiên bản trước. Với phiên bản o4-mini, tỷ lệ này thậm chí còn cao hơn, đạt mức 48%.
Tình hình trở nên nghiêm trọng hơn khi áp dụng vào các câu hỏi phổ thông. Trong thử nghiệm SimpleQA, o3 bịa đáp án tới 51% số lần, trong khi o4-mini gây sốc với tỷ lệ 'hallucination' lên tới 79%, tức gần 4/5 câu trả lời đều chứa thông tin sai lệch.
Nguyễn Hoàng Minh, sinh viên năm cuối ngành Luật tại Đại học Kinh tế - Luật TP.HCM, đã từng sử dụng để hỗ trợ viết báo cáo nghiên cứu về quyền sở hữu trí tuệ. Tuy nhiên, trong phần trích dẫn, chatbot lại dẫn ra một điều khoản không tồn tại trong bất kỳ hiệp định nào của các tổ chức quốc tế như WIPO. Minh chỉ phát hiện ra khi giảng viên phản hồi rằng phần trích dẫn 'không có căn cứ pháp lý', và thừa nhận: “Nếu không kiểm tra lại, tôi đã nộp bản báo cáo với một sai sót nghiêm trọng.”
Tương tự, Lê Thị Hải Yến, nghiên cứu sinh ngành Dược tại TP.HCM, cho biết đã từng nhờ AI tóm tắt các bài báo y khoa để chuẩn bị thuyết trình. Một trong các đoạn tóm tắt trích dẫn nghiên cứu từ tạp chí NEJM, nhưng khi kiểm tra lại, bài báo đó hoàn toàn không tồn tại. “Nó... tưởng tượng ra cả bài báo. Nếu tôi tin vào đoạn đó, rất có thể tôi sẽ bị cho là cố tình ngụy tạo dữ liệu,” Yến chia sẻ.
Vì sao càng huấn luyện càng bịa?
Theo các chuyên gia, việc huấn luyện chatbot bằng lượng dữ liệu khổng lồ từ internet không còn đủ để cải thiện chất lượng. OpenAI, Google và nhiều công ty khác hiện nay đang chuyển sang mô hình huấn luyện bằng reinforcement learning, tức là để AI 'thử sai' rồi học từ phản hồi. Phương pháp này giúp cải thiện các bài toán logic, nhưng lại không mấy hiệu quả trong việc kiểm soát tính xác thực của thông tin.
Laura Perez-Beltrachini, nhà nghiên cứu tại Đại học Edinburgh, cho biết: “Các mô hình mới có xu hướng học tốt một nhóm nhiệm vụ nhưng đồng thời lại ‘quên’ dần các nhiệm vụ khác. Khả năng suy luận tăng lên, nhưng độ tin cậy lại giảm.”
Một vấn đề khác là những chatbot hiện nay thường xuyên hiển thị cả chuỗi 'bước suy nghĩ' cho người dùng. Tuy nhiên, theo các nhà nghiên cứu tại Anthropic, những gì chatbot nói rằng nó đang nghĩ thực tế lại không phản ánh cách nó hoạt động. Người dùng bị thuyết phục bởi chuỗi lý luận có vẻ hợp lý, dù kết luận lại hoàn toàn sai.
Các công ty như Vectara đang theo dõi sát sao hiện tượng này. Họ yêu cầu các chatbot tóm tắt các bài báo cụ thể, một nhiệm vụ đơn giản, nhưng vẫn thấy tỷ lệ bịa thông tin dao động từ 3% đến 27%, tùy thuộc vào mô hình và phiên bản. Đặc biệt, hệ reasoning R1 của DeepSeek có tỷ lệ sai lên đến 14,3%, trong khi GPT-4 Turbo (o3) là 6,8%.
Pratik Verma, CEO của công ty Okahu, chia sẻ: “Chúng ta đang lãng phí quá nhiều thời gian chỉ để xác minh xem chatbot có đúng hay không. Nếu không giải quyết triệt để vấn đề này, giá trị thực sự của AI, đó là tiết kiệm công sức, sẽ không còn nữa.”
Anh Việt
