Lần đầu tiên, một hệ thống AI đã vượt qua thí sinh đạt HCV Olympic Toán Quốc tế với bộ đề khó đến mức chưa từng thấy.

Phát triển bởi phòng thí nghiệm DeepMind trực thuộc Google, hệ thống AI này được cho là vượt trội hơn thí sinh đạt huy chương vàng tại kỳ thi Olympic Toán học Quốc tế (IMO), một kỳ thi dành cho học sinh trung học.
DeepMind khẳng định, hệ thống của họ giỏi hơn thí sinh đạt HCV trong giải hình học. Có tên AlphaGeometry2, hệ thống này tiến bộ hơn phiên bản AlphaGeometry từ tháng 1 năm ngoái, với khả năng giải thành công 84% các bài toán hình học trong kỳ thi IMO suốt 25 năm qua.
Theo DeepMind, họ tập trung vào giải toán hình cấp trung học vì tin rằng, thông qua việc tìm ra các cách giải mới cho các bài toán hình học phức tạp, đặc biệt là các bài toán hình học Euclid, họ có thể cải thiện hiệu suất các hệ thống AI.
Chứng minh các định lý toán học hoặc giải thích lý do tại sao một định lý (ví dụ định lý Pythagoras) đúng đòi hỏi khả năng lập luận và lựa chọn các bước giải tối ưu. DeepMind kỳ vọng phát triển AI có khả năng giải quyết vấn đề, trở thành một hệ thống trí tuệ nhân tạo đa năng.

Trong bài toán yêu cầu chứng minh tổng góc KIL và XPY bằng 180 độ, AlphaGeometry2 đã đề xuất vẽ thêm điểm E sao cho góc AEB bằng 90 độ. Qua đó, tận dụng điểm L là trung điểm đoạn AB để tạo các cặp tam giác tương đồng như ABE và YBI, hay ALE và IPC, từ đó giải quyết bài toán thành công - Ảnh chụp màn hình.
Mùa hè vừa qua, DeepMind đã kết hợp AlphaGeometry2 với AlphaProof - một mô hình AI cho lập luận toán học chính quy - để giải quyết 4 trong số 6 bài toán tại IMO 2024. Các phương pháp này không chỉ áp dụng cho hình học mà còn có thể mở rộng sang các lĩnh vực toán học và khoa học khác, như hỗ trợ các tính toán kỹ thuật phức tạp.
AlphaGeometry2 bao gồm các thành phần chủ yếu như mô hình ngôn ngữ thuộc dòng Gemini của Google và một “bộ máy ký hiệu - symbolic engine”. Bộ máy ký hiệu này sử dụng các quy tắc toán học để suy luận ra lời giải, kết hợp với “họ hàng của Gemini” để tìm ra các chứng minh hợp lý cho các định lý hình học.
Các bài toán hình học Olympic thường yêu cầu bổ sung “yếu tố cấu trúc” như vẽ thêm điểm, đường thẳng hoặc đường tròn trước khi giải. Mô hình Gemini của AlphaGeometry2 sẽ dự đoán các yếu tố cấu trúc hữu ích, giúp bộ máy ký hiệu suy luận ra kết quả.
AlphaGeometry2 thành công trong việc giải một bài toán khi nó kết hợp chứng minh từ mô hình Gemini và các nguyên lý của bộ máy ký hiệu để tìm ra lời giải hợp lý.
Trong quá trình nghiên cứu, nhóm DeepMind đã chọn 45 bài toán hình học từ các kỳ thi IMO trong 25 năm qua, từ 2000 đến 2024, bao gồm các phương trình tuyến tính và các bài toán yêu cầu di chuyển đối tượng hình học trên mặt phẳng. Sau đó, họ đã “dịch” những bài toán này thành một bộ đề gồm 50 bài toán, với một số bài phải được tách thành hai vì lý do kỹ thuật.
Theo bài nghiên cứu, AlphaGeometry2 đã giải được 42 trong số 50 bài toán, vượt qua mức điểm trung bình của thí sinh giành huy chương vàng là 40,9.

Trực thuộc Google, DeepMind là phòng thí nghiệm AI đứng sau những thành công vang dội của AlphaGo hay AlphaStar - Ảnh: Google.
Mặc dù đã có những hệ thống AI đạt được trình độ này, AlphaGeometry2 là mô hình AI đầu tiên đạt hiệu suất cao khi giải quyết một bộ đề lớn như vậy.
Nhóm nghiên cứu tiếp tục kiểm tra khả năng của AlphaGeometry2, yêu cầu các chuyên gia toán học chọn một bộ đề khó hơn, chưa từng xuất hiện tại kỳ IMO nào. Trong tổng số 29 bài toán, AlphaGeometry2 chỉ giải quyết thành công 20 bài.
Kết quả nghiên cứu này có thể sẽ làm dấy lên cuộc tranh luận về cách thức xây dựng các hệ thống AI, liệu chúng nên dựa vào thao tác ký hiệu - thao tác với các ký hiệu đại diện cho tri thức theo các quy tắc - hay nên dựa vào mạng nơ-ron, mô phỏng cách não bộ con người tiếp thu kiến thức.
AlphaGeometry2 sử dụng một phương pháp tiếp cận độc đáo, kết hợp mô hình Gemini với kiến trúc mạng nơ-ron, trong khi bộ máy ký hiệu hoạt động dựa trên các quy tắc toán học. Thành công mới của DeepMind có thể khiến các chuyên gia trong ngành phải xem xét lại cách tiếp cận vấn đề.
Dù vậy, trong báo cáo nghiên cứu, nhóm DeepMind cho biết họ có bằng chứng cho thấy mô hình ngôn ngữ vẫn có thể tạo ra phần lớn câu trả lời đúng mà không cần phải sử dụng bộ máy ký hiệu.
“Kết quả này ủng hộ quan điểm rằng các mô hình ngôn ngữ lớn có thể hoạt động độc lập mà không cần phụ thuộc vào các công cụ bên ngoài [như bộ máy ký hiệu],” nhóm DeepMind viết trong bài báo nghiên cứu, “ nhưng cho đến khi tốc độ của mô hình được cải thiện và vấn đề ảo giác được giải quyết hoàn toàn, các công cụ này vẫn là yếu tố thiết yếu trong các ứng dụng toán học .”
