Kết quả chỉ ra rằng Claude 3.7 của Anthropic nổi bật là “người chơi” xuất sắc nhất, với phản ứng nhanh nhạy, thực hiện các cú nhảy chuẩn xác và khéo léo tránh né các kẻ thù.
Việc đánh giá khả năng của trí tuệ nhân tạo (AI) từ lâu đã gây ra nhiều tranh cãi, khi các công ty thường chỉ khoe những thành tích nổi bật mà không đề cập đến những điểm yếu. Thay vì các bài kiểm tra logic hay toán học thông thường, một nhóm nghiên cứu tại Phòng thí nghiệm AI Hao thuộc Đại học California San Diego (UC San Diego) đã thử nghiệm một phương pháp khác biệt: sử dụng trò chơi kinh điển Super Mario Bros. để thử thách các mô hình AI hàng đầu. Nếu AI không thể vượt qua Goombas hay Koopa Troopas, liệu nó có thể tin cậy trong thế giới đầy phức tạp này?

Trong thử nghiệm này, các nhà nghiên cứu đã sử dụng một phiên bản mô phỏng của Super Mario Bros., tích hợp cùng GamingAgent – một khuôn khổ do Hao Lab phát triển. GamingAgent cho phép AI điều khiển Mario thông qua mã Python, dựa trên các chỉ dẫn đơn giản như “Nhảy qua kẻ thù” cùng với hình ảnh chụp màn hình từ trò chơi. Mặc dù trông giống một tựa game 2D đơn giản, nhưng Super Mario Bros. đòi hỏi AI phải có khả năng lập kế hoạch nhanh chóng và điều chỉnh chiến lược trong thời gian thực – một thử thách không hề dễ dàng.
Kết quả cho thấy Claude 3.7 của Anthropic là “người chơi” xuất sắc nhất, với phản ứng nhanh chóng, thực hiện các cú nhảy chính xác và né tránh kẻ thù một cách tài tình. Phiên bản tiền nhiệm Claude cũng rất xuất sắc. Trong khi đó, những mô hình nổi bật về khả năng lý luận như GPT- của OpenAI và Gemini 1.5 Pro của Google lại gặp phải khó khăn. Dù mạnh về tư duy logic, chúng không thể bắt kịp tốc độ nhanh của trò chơi.

Theo các nhà nghiên cứu, yếu tố quyết định thành công trong Super Mario Bros. không phải là khả năng lý luận mà là tốc độ. Một chút chậm trễ khi tính toán bước đi tiếp theo có thể khiến Mario rơi xuống vực. Các mô hình quá “suy nghĩ” dường như mất quá nhiều thời gian để đưa ra quyết định, dẫn đến thất bại liên tiếp.
Dĩ nhiên, việc dùng một trò chơi điện tử cổ điển để đánh giá AI mang tính chất giải trí nhiều hơn là một thước đo nghiêm túc về hiệu quả thực tế. Khả năng chơi Super Mario Bros. không phản ánh trực tiếp giá trị của AI trong các ứng dụng thực tiễn. Tuy nhiên, cảnh tượng những mô hình tiên tiến “vật lộn” với một trò chơi tưởng như đơn giản vẫn tạo ra sự thích thú cho không ít người.
Đối với những ai muốn tự mình khám phá, Hao AI Lab đã công khai mã nguồn của GamingAgent trên GitHub, mở ra cơ hội cho cộng đồng thử nghiệm và trải nghiệm. Bạn nghĩ AI của mình có thể vượt qua Mario không? Hãy thử và tìm hiểu.
