VTV.vn - Điều gì sẽ xảy ra nếu AI vượt qua kỳ thi này?

Bài kiểm tra cuối cùng đang thử thách giới hạn của trí tuệ nhân tạo - Ảnh: Getty.
Trong bối cảnh AI phát triển nhanh chóng, các nhà khoa học đã tạo ra “Kỳ thi cuối cùng của nhân loại” (Humanity’s Last Exam – HLE) để đánh giá giới hạn khả năng của AI. HLE không chỉ là bài kiểm tra kiến thức thông thường mà yêu cầu các mô hình ngôn ngữ lớn như , Gemini hay DeepSeek chứng minh sự hiểu biết thực sự, không chỉ dựa vào việc học thuộc dữ liệu lớn.
Kỳ thi được phối hợp bởi Trung tâm An toàn AI (Center for AI Safety), một tổ chức phi lợi nhuận nhằm giảm thiểu rủi ro xã hội từ AI, và Scale AI, công ty cung cấp dữ liệu huấn luyện cho các tập đoàn công nghệ lớn. Mặc dù kết quả ban đầu còn hạn chế, nghiên cứu mở ra tương lai nơi AI có thể giải quyết những câu hỏi hóc búa nhất trong học thuật.
Kết quả nghiên cứu đã được công bố trên nền tảng arXiv và đang chờ đánh giá từ cộng đồng khoa học.

Bài kiểm tra đòi hỏi AI phải thành thạo nhiều lĩnh vực khác nhau - Hình minh họa.
Với hơn 2.700 câu hỏi từ các chuyên gia toàn cầu, HLE không chỉ là bài kiểm tra tổng hợp mà còn là bản đồ tri thức nhân loại. Khoảng 41% câu hỏi thuộc về toán học, còn lại trải rộng từ y học, vật lý, hóa học đến nhân văn, khoa học máy tính và kỹ thuật. Có câu yêu cầu AI dịch chữ La Mã cổ; câu khác thử thách kiến thức về cấu trúc gân cơ của chim ruồi; thậm chí có câu khiến AI phải suy nghĩ về bản thân mình.
Điểm nổi bật của HLE là tính khách quan tuyệt đối. Mỗi câu hỏi có một đáp án duy nhất, không thể bị đánh lừa bằng mẹo tìm kiếm trên mạng. Việc chấm điểm được tự động hóa bằng AI GPT-40, đánh giá câu trả lời linh hoạt và chấp nhận những đáp án đúng về bản chất.
Như dự đoán, AI đã trượt toàn bộ kỳ thi, và các nhà nghiên cứu cho rằng nguyên nhân chính là đề quá khó: HLE đẩy AI đến giới hạn, một số mô hình như Gemini và DeepSeek chỉ đạt độ chính xác 3-14%.
Nhóm nghiên cứu nhận định, nếu tốc độ phát triển AI giữ nguyên, các hệ thống hoàn toàn có thể đạt 50% câu trả lời đúng vào cuối năm 2025.
Giai đoạn tiếp theo trong huấn luyện AI sẽ tập trung giúp nó nhận diện mức độ không chắc chắn thay vì tự tin trả lời sai. AI sẽ được yêu cầu đánh giá mức độ tin cậy của câu trả lời trên thang điểm từ 0 đến 100%.
Chỉ số “độ tự tin” này sẽ giúp giảm nguy cơ sai sót hệ thống – yếu tố được xem là rào cản lớn nhất đối với AI trong các lĩnh vực như y học, pháp lý và tài chính.
Dù còn nhiều thất bại, AI đang tiến gần hơn bao giờ hết tới ngưỡng tri thức con người. Khi vượt qua “kỳ thi cuối cùng”, câu hỏi tiếp theo có thể sẽ không còn là: “AI biết gì?”, mà là: “AI còn cần đến chúng ta bao nhiêu?”
