Nghiên cứu gần đây của các nhà khoa học tại Apple đã xóa tan những lo ngại về năng lực của các mô hình AI hiện hành.
Khi chứng kiến những khả năng ấn tượng của các mô hình ngôn ngữ lớn – hay còn gọi là LLMs – nền tảng cho những chatbot AI nổi bật như , Gemini và Copilot, nhiều người bắt đầu lo sợ về một tương lai u ám khi mà những cỗ máy này có khả năng suy nghĩ giống con người. Tuy nhiên, nhóm nghiên cứu AI tại Apple lại không đồng tình. Theo nghiên cứu mới được công bố của họ, các LLMs hiện tại vẫn còn xa mới đạt được khả năng suy luận như con người.
Thay vì sử dụng những công cụ thông thường, người đứng đầu nghiên cứu này tại Apple, ông Samy Bengio, đã áp dụng một công cụ mới mang tên GSM-Symbolic. Phương pháp này dựa trên các tập dữ liệu như GSM8K, nhưng được bổ sung thêm các mẫu ký hiệu phức tạp hơn nhằm đánh giá hiệu suất của AI.
Bài kiểm tra mà các nhà nghiên cứu AI của Apple thực hiện đã được áp dụng cho cả những mô hình mã nguồn mở như Llama của Meta và các mô hình độc quyền như o1 mới của OpenAI. Kết quả cho thấy, ngay cả mô hình có điểm số cao nhất như o1 của OpenAI cũng không đạt được các kỹ năng suy luận thông thường.
Ví dụ về một bài toán đơn giản: "Oliver đã hái được 44 quả kiwi vào thứ Sáu. Sau đó, cậu ấy hái được 58 quả kiwi vào thứ Bảy. Vào Chủ Nhật, cậu ấy hái được gấp đôi số quả kiwi mà cậu ấy đã hái vào thứ Sáu. Vậy Oliver có tổng cộng bao nhiêu quả kiwi?" Tuy nhiên, việc thêm vào một câu vu vơ như "nhưng 5 quả trong số đó nhỏ hơn mức trung bình một chút" đã khiến cả hai mô hình đưa ra các câu trả lời ngớ ngẩn.
Một điều thú vị mà nhóm nghiên cứu phát hiện là khả năng trả lời câu hỏi của các mô hình này có thể dễ dàng bị ảnh hưởng chỉ với một vài thay đổi nhỏ. Chẳng hạn, họ chỉ cần thêm một câu vu vơ vào bài toán – một điều chỉnh nhỏ – cũng có thể làm hỏng câu trả lời của hầu hết các mô hình, bao gồm cả o1 mới của OpenAI.
Trưởng nhóm dự án, ông Mehrdad Farajtabar, đã nhấn mạnh rằng chỉ cần một thay đổi nhỏ cũng có thể làm giảm đáng kể độ chính xác. Ông Farajtabar cho biết điều này không xảy ra trong khả năng suy luận của con người - việc thay đổi tên trong một bài toán không ảnh hưởng đến khả năng giải bài của học sinh. Tuy nhiên, với các mô hình AI hiện tại, những thay đổi như vậy dẫn đến việc giảm độ chính xác từ 10% trở lên, gây ra những lo ngại nghiêm trọng về tính ổn định của chúng.
Một bài toán khác đặt ra: "Liam muốn mua một số đồ dùng học tập. Cậu ấy mua 24 cục tẩy, mỗi cục có giá 6,75 USD, 10 quyển vở với giá 11,0 USD mỗi quyển, và một tập giấy bìa cứng có giá 19 USD. Liam sẽ phải trả bao nhiêu tiền bây giờ, giả sử giá giảm 10% do lạm phát vào năm ngoái?" Đây là một bài toán đơn giản, nhưng việc thêm một câu về lạm phát đã khiến mô hình o1 của OpenAI gặp khó khăn trong việc đưa ra câu trả lời.
Nói cách khác, rất khó để coi các mô hình LLMs hiện nay là có khả năng suy luận; chúng chỉ đơn giản là hoạt động theo các mẫu phức tạp đã được lập trình sẵn trong dữ liệu.
Những phát hiện này đặt ra nhiều câu hỏi đáng lo ngại cho các ứng dụng AI trong các lĩnh vực như chăm sóc sức khỏe, ra quyết định và giáo dục, nơi mà tính nhất quán logic là rất quan trọng. Nếu không cải thiện khả năng suy luận logic, các hệ thống AI hiện tại có thể gặp khó khăn khi hoạt động trong những môi trường phức tạp hoặc có tầm quan trọng cao.
Nghiên cứu này cũng đặt dấu hỏi về độ tin cậy của các tiêu chuẩn như GSM8K, nơi các mô hình AI như GPT- đạt điểm cao tới 95%, một sự cải thiện đáng kể so với 35% của GPT-3 chỉ cách đây vài năm. Tuy nhiên, nhóm nghiên cứu của Apple cho rằng những tiến bộ này có thể do việc đưa dữ liệu huấn luyện vào các bộ kiểm tra.
Sự bất đồng giữa hai tổ chức nghiên cứu AI hàng đầu hiện nay thật đáng chú ý. OpenAI hiện coi mô hình o1 của mình là một bước đột phá trong khả năng suy luận, khẳng định đây là một trong những bước đầu tiên trong việc phát triển các tác nhân AI thực sự có khả năng logic. Trong khi đó, nhóm của Apple, được hỗ trợ bởi nhiều nghiên cứu khác, lập luận rằng có rất ít bằng chứng để ủng hộ tuyên bố này.
Garcy Marcus, một nhà phê bình lâu năm về các mạng nơ-ron nhân tạo, đã đồng tình với những lo ngại này trong nghiên cứu của Apple. Ông chỉ ra rằng nếu không tích hợp một số hình thức suy luận ký hiệu vào hệ thống AI, các mô hình như o1 của OpenAI sẽ vẫn tiếp tục thiếu sót trong các lĩnh vực đòi hỏi tư duy logic, bất kể chúng có được đào tạo với bao nhiêu dữ liệu.