Theo thông báo từ OpenAI, mô hình o3 mới đã đạt điểm số kỷ lục trong bài kiểm tra năng lực AGI.

Vào thứ Sáu, trong khuôn khổ sự kiện "12 ngày của OpenAI", CEO Sam Altman đã ra mắt các mô hình AI mới nhất của công ty, o3 và o3-mini, dựa trên các mô hình o1 đã được giới thiệu đầu năm. Mặc dù chưa được phát hành rộng rãi, OpenAI sẽ cấp quyền truy cập cho các nhà nghiên cứu và thử nghiệm an toàn từ hôm nay.
Các mô hình này sử dụng công nghệ "chuỗi suy nghĩ riêng tư" mà OpenAI phát triển, cho phép hệ thống tạm dừng để kiểm tra nội bộ và lên kế hoạch trước khi đưa ra phản hồi. Đây có thể coi là một dạng "suy luận mô phỏng" (SR) - vượt xa các mô hình ngôn ngữ lớn (LLM) thông thường.

OpenAI cho biết mô hình o3 đã đạt điểm số kỷ lục trong bài kiểm tra ARC-AGI, một phép đo lý luận trực quan chưa từng có từ khi ra đời vào năm 2019. Trong các tình huống tính toán thấp, o3 đạt 75,7%, và trong các tình huống tính toán cao, tỷ lệ này là 87,5%, tương đương với khả năng của con người ở mức 85%.
Mô hình o3 cũng đạt 96,7% trong kỳ thi Toán học Mời của Mỹ năm 2024, chỉ thiếu một câu hỏi. Ngoài ra, o3 đạt 87,7% trên bài kiểm tra GPQA Diamond, với các câu hỏi về sinh học, vật lý và hóa học ở cấp độ sau đại học. Trong bài kiểm tra Frontier Math của EpochAI, o3 giải được 25,2% bài toán, trong khi không có mô hình nào khác đạt trên 2%.

Biến thể o3-mini, cũng được công bố vào thứ Sáu, mang đến tính năng suy nghĩ thích ứng theo thời gian, với các tốc độ xử lý thấp, trung bình và cao. Công ty cho biết các cài đặt tính toán cao hơn sẽ đem lại hiệu quả tốt hơn. OpenAI cho biết o3-mini vượt trội so với người tiền nhiệm o1 trong bài kiểm tra Codeforces.
Thông báo của OpenAI được đưa ra trong bối cảnh các công ty khác cũng đang phát triển các mô hình SR của riêng mình, bao gồm Google với phiên bản Gemini 2.0 Flash Thinking Experimental, ra mắt vào thứ Năm. Trong tháng 11, DeepSeek sẽ tung ra DeepSeek-R1, trong khi nhóm Qwen của Alibaba phát hành QwQ - phiên bản "mở" đầu tiên thay thế o1.
Những mô hình AI mới này được phát triển trên nền tảng các LLM truyền thống, nhưng có sự khác biệt rõ rệt: Chúng được điều chỉnh để tạo ra một quá trình suy nghĩ lặp đi lặp lại, có khả năng tự đánh giá kết quả của chính mình, mô phỏng suy luận theo kiểu gần như vét cạn và có thể mở rộng quy mô ngay khi suy luận, thay vì chỉ tập trung cải thiện trong quá trình huấn luyện mô hình AI.
OpenAI sẽ cấp quyền truy cập cho các nhà nghiên cứu an toàn để thử nghiệm các mô hình SR mới. CEO Altman cho biết công ty dự kiến sẽ phát hành o3-mini vào cuối tháng 1, và o3 sẽ ra mắt ngay sau đó.

Một số điểm đáng chú ý về khả năng của mô hình o3 bao gồm:
- Điều chỉnh thời gian suy luận: Các mô hình có thể được điều chỉnh ở mức tính toán thấp, trung bình hoặc cao, tương ứng với các thời gian "suy nghĩ" khác nhau. Mức tính toán càng cao, hiệu suất của o3 càng tốt hơn.
- Điểm số ấn tượng trên các bài kiểm tra như ARC-AGI (87,5%), Kỳ thi Toán học Mời của Mỹ (96,7%), GPQA Diamond (87,7%) và Frontier Math (25,2%), vượt trội so với các mô hình khác. Tuy nhiên, các kết quả này cần được kiểm chứng thêm từ các đánh giá độc lập.
- Khả năng tự kiểm tra và sửa lỗi của o3 giúp tránh được nhiều sai sót phổ biến ở các mô hình AI khác. Tuy nhiên, o3 vẫn có thể mắc phải một số lỗi.
Một số chuyên gia cho rằng o3 đang tiến gần hơn đến Trí tuệ Nhân tạo Tổng quát (AGI), loại AI có thể thực hiện bất kỳ nhiệm vụ nào của con người. Tuy nhiên, François Chollet, đồng sáng lập bài kiểm tra ARC-AGI, cho rằng o3 vẫn thất bại trong một số nhiệm vụ đơn giản và có sự khác biệt lớn với trí thông minh của con người. Ông cũng cảnh báo không nên sử dụng ARC-AGI như là một chỉ số cho siêu trí tuệ nhân tạo.
Mặc dù cần thêm xác minh cho các tuyên bố của OpenAI, nhưng sự ra mắt của o3 phản ánh xu hướng phát triển mạnh mẽ của các mô hình AI lý luận. Nhiều công ty đang chuyển sang phương pháp này khi các kỹ thuật mở rộng quy mô mô hình truyền thống không còn hiệu quả. Tuy nhiên, một số chuyên gia vẫn nghi ngờ về tính tối ưu của các mô hình lý luận trong tương lai, do chúng yêu cầu tài nguyên tính toán lớn và chưa có dấu hiệu rõ ràng về khả năng duy trì tốc độ phát triển.
Việc OpenAI ra mắt o3 trùng với sự ra đi của nhà khoa học nổi tiếng Alec Radford, người sáng lập ra loạt mô hình AI "GPT" của công ty. Radford đã quyết định rời OpenAI để theo đuổi nghiên cứu độc lập.
