Các mô hình AI chưa thể vượt qua các bài kiểm tra độ chính xác

Buzz

Ngày cập nhật gần nhất: 15/6/2026

Nội dung bài viết

Một nghiên cứu chỉ ra rằng các mô hình AI có xu hướng được lập trình để trả lời mọi câu hỏi, dù phần lớn trong số đó là sai sự thật.

Xem thêm

Một nghiên cứu chỉ ra rằng các mô hình AI có xu hướng được lập trình để trả lời mọi câu hỏi, dù phần lớn trong số đó là sai sự thật.

Dù các mô hình AI đang ngày càng trở nên phổ biến, vấn đề về độ chính xác vẫn là một thách thức lớn. Hiện tượng ‘ảo giác’ (hallucination) và việc lan truyền thông tin sai lệch tiếp tục là những vấn đề không dễ giải quyết đối với các nhà phát triển. Một nghiên cứu gần đây từ Trung tâm Tow Center for Digital Journalism đã cung cấp dữ liệu định lượng, khẳng định những hoài nghi mà người dùng đã bàn luận trong nhiều năm qua: AI thường ‘tự tin’ đưa ra những câu trả lời sai.

Các mô hình AI vẫn không thể vượt qua các bài kiểm tra độ chính xác

Trung tâm Tow đã tiến hành kiểm tra độ chính xác của 8 công cụ tìm kiếm AI hàng đầu, bao gồm Search, Perplexity, Perplexity Pro, Gemini, DeepSeek Search, Grok-2 Search, Grok-3 Search và Copilot. Họ đã chọn ngẫu nhiên 200 bài báo từ 20 nhà xuất bản tin tức (mỗi nhà xuất bản 10 bài), đảm bảo các bài này xuất hiện trong top 3 kết quả tìm kiếm trên Google khi dùng trích dẫn gốc. Sau đó, các công cụ AI được yêu cầu xác định chính xác A) tiêu đề bài báo, B) tổ chức tin tức, và C) URL.

Các mô hình AI không thể vượt qua các bài kiểm tra độ chính xác 2

Kết quả được phân loại từ ‘hoàn toàn đúng’ đến ‘hoàn toàn sai’. Dữ liệu cho thấy, ngoài Perplexity và Perplexity Pro, hầu hết các công cụ AI đều kém hiệu quả. Tổng cộng, chúng sai đến 60% các truy vấn, và điều đáng chú ý là sự ‘tự tin’ khi đưa ra những câu trả lời sai.

Search đã trả lời đầy đủ 200 truy vấn, nhưng chỉ có 28% câu trả lời hoàn toàn đúng, còn lại 57% là sai hoàn toàn. Grok-3 Search của xAI tệ hơn nhiều, với tỷ lệ sai lên tới 94%. Copilot của Microsoft từ chối trả lời 104/200 truy vấn, và trong số 96 câu trả lời còn lại, chỉ 16 câu là ‘hoàn toàn đúng’, 14 câu là ‘đúng một phần’, còn lại 66 câu là ‘hoàn toàn sai’ – tương đương với tỷ lệ sai khoảng 70%.

Các mô hình AI không thể vượt qua các bài kiểm tra độ chính xác 3

Một nghiên cứu chỉ ra rằng các mô hình AI có xu hướng được lập trình để trả lời mọi câu hỏi, dù phần lớn trong số đó là bịa đặt. Điều này hoàn toàn phù hợp với nhận xét của Ted Gioia (The Honest Broker) trong bài viết năm 2023, khi ông gọi là ‘kẻ lừa đảo tài tình’ vì tự tin cung cấp thông tin sai lệch, thậm chí tiếp tục ‘nói dối’ ngay cả khi đã bị vạch trần.

Điều gây ngạc nhiên là các công ty phát triển những công cụ này – với mức phí từ 20 USD (Perplexity Pro) đến 200 USD/tháng ( Pro) – lại không cung cấp thông tin minh bạch về độ chính xác của chúng. Thậm chí, các phiên bản trả phí như Perplexity Pro và Grok-3 Search, mặc dù trả lời đúng nhiều hơn một chút so với bản miễn phí, nhưng tỷ lệ lỗi vẫn ở mức cao.

Tuy nhiên, không phải ai cũng đồng ý với kết quả này. Lance Ulanoff từ TechRadar đã khen ngợi Search là ‘nhanh chóng, nhạy bén và chính xác’, với giao diện không có quảng cáo, khiến anh suy nghĩ về việc từ bỏ Google. Sự khác biệt trong trải nghiệm cá nhân cho thấy rằng việc đánh giá AI có thể thay đổi tùy theo từng mục đích sử dụng cụ thể.

Nội dung từ Mytour nhằm chăm sóc khách hàng và khuyến khích du lịch, chúng tôi không chịu trách nhiệm và không áp dụng cho mục đích khác.

Nếu bài viết sai sót hoặc không phù hợp, vui lòng liên hệ qua Zalo: 0978812412 hoặc Email: [email protected]