Những kỹ năng mà con người thành thạo từ thuở ấu thơ lại đang trở thành thách thức lớn đối với trí tuệ nhân tạo.
Một nhóm nghiên cứu tại Đại học Edinburgh đã tiến hành kiểm tra một số mô hình ngôn ngữ lớn đa phương thức hàng đầu trên thị trường, nhằm đánh giá khả năng trả lời câu hỏi dựa trên hình ảnh đồng hồ và lịch.
Các hệ thống được thử nghiệm bao gồm Gemini 2.0 của Google DeepMind, Claude Sonnet của Anthropic, Llama 3.2-11B-Vision-Instruct của Meta, Qwen2-VL7B-Instruct của Alibaba, MiniCPM-V-2.6 của ModelBest, cũng như GPT- và GPT-o1 của OpenAI.
Trong bài kiểm tra, các hình ảnh được sử dụng bao gồm nhiều loại đồng hồ khác nhau: một số có chữ số La Mã, một số có hoặc không có kim giây, mặt đồng hồ với các màu sắc đa dạng, v.v… Kết quả cuối cùng khiến chúng ta phải suy ngẫm sâu sắc.
Các hệ thống chỉ đọc giờ chính xác chưa đến 25% số lần thử. Các mô hình AI gặp nhiều khó khăn khi xử lý đồng hồ sử dụng chữ số La Mã và kim thiết kế cách điệu.

Các mô hình AI gặp phải trở ngại lớn khi xem giờ - Ảnh: Internet.
Việc loại bỏ kim giây không giúp cải thiện hiệu suất của AI, khiến các nhà nghiên cứu kết luận rằng vấn đề chính nằm ở khả năng xác định vị trí kim đồng hồ và diễn giải góc độ mà kim tạo ra trên mặt đồng hồ.
Trong thử nghiệm sử dụng hình ảnh lịch, các nhà nghiên cứu đã đưa ra các câu hỏi như: "Ngày đầu năm mới rơi vào thứ mấy?" và "Ngày thứ 153 của năm là ngày nào?". Ngay cả những mô hình AI tốt nhất cũng trả lời sai 20% số câu hỏi liên quan đến lịch.
Tỷ lệ thành công của các mô hình không đồng đều. Trong đó, Gemini 2.0 đạt điểm cao nhất trong bài kiểm tra đồng hồ, trong khi GPT-o1 đạt độ chính xác 80% đối với các câu hỏi về lịch.
"Hầu hết mọi người có thể xem giờ và sử dụng lịch từ khi còn nhỏ. Phát hiện của chúng tôi cho thấy một khoảng cách đáng kể trong khả năng của AI khi thực hiện những kỹ năng cơ bản của con người", trưởng nhóm nghiên cứu Rohit Saxena từ Trường Tin học của Đại học Edinburgh chia sẻ.
"Những hạn chế này cần được khắc phục nếu các hệ thống AI muốn được tích hợp thành công vào các ứng dụng thực tế yêu cầu tính chính xác về thời gian, chẳng hạn như lập lịch, tự động hóa và công nghệ hỗ trợ", ông nói thêm.
Aryo Gema, một nhà nghiên cứu khác từ Trường Tin học của Đại học Edinburgh, nhận định: "Nghiên cứu AI hiện nay thường tập trung vào các nhiệm vụ suy luận phức tạp, nhưng trớ trêu thay, nhiều hệ thống vẫn gặp khó khăn với những nhiệm vụ đơn giản và quen thuộc hàng ngày".

Các mô hình AI vẫn chưa thể xem giờ và ngày tháng chính xác - Hình minh họa.
Những phát hiện này được trình bày chi tiết trong một bài nghiên cứu đã qua quá trình bình duyệt và sẽ được giới thiệu tại hội thảo Reasoning and Planning for Large Language Models (Lập luận và Lập kế hoạch cho Các Mô hình Ngôn ngữ Lớn) trong khuôn khổ Hội nghị Quốc tế lần thứ 13 về Learning Representations (ICLR), tổ chức tại Singapore vào ngày 28 tháng 4 tới. Hiện tại, kết quả nghiên cứu đã được công bố trên arXiv.
Đây không phải là nghiên cứu đầu tiên gần đây chỉ ra những sai sót của các hệ thống AI. Trung tâm Báo chí Kỹ thuật số Tow đã khảo sát tám công cụ tìm kiếm AI và phát hiện chúng cung cấp thông tin không chính xác trong 60% trường hợp. Đáng chú ý, Grok-3 có tỷ lệ sai sót cao nhất, lên tới 94%.
