Mô hình ngôn ngữ lớn Qwen2-Math do Alibaba phát triển hứa hẹn sẽ giúp xử lý những bài toán phức tạp.
Alibaba đang nỗ lực nâng cao tiêu chuẩn trong phát triển AI với việc giới thiệu Qwen2-Math, một nhóm mô hình ngôn ngữ lớn (LLM) tập trung vào toán học. Công ty thương mại điện tử này kỳ vọng mô hình này sẽ vượt qua khả năng của GPT-.
“Trong năm qua, chúng tôi đã đầu tư nhiều công sức vào việc nghiên cứu và cải thiện khả năng giải toán của các mô hình ngôn ngữ lớn, đặc biệt là khả năng giải quyết các bài toán số học”, nhóm Qwen cho biết trên GitHub.
Các mô hình ngôn ngữ lớn của Alibaba được phát hành từ tháng 6 và có ba phiên bản với số lượng tham số khác nhau. Tham số là những yếu tố giúp AI học cách đưa ra kết quả chính xác từ dữ liệu đầu vào.
AI của Alibaba chuyên giải toán đã vượt qua GPT-, Claude Sonnet và Gemini. (Ảnh minh họa: Shutterstock)
Theo thông tin từ nhóm Qwen, mô hình Qwen2-Math-72B-Instruct, với số lượng tham số lớn nhất, đã chứng tỏ mình vượt trội hơn các LLM hàng đầu của Mỹ trong các bài kiểm tra toán học. Các LLM này bao gồm GPT-, Claude Sonnet của Anthropic, Gemini 1.5 Pro của Google và Llama-3.1-405B của Meta Platforms.
Nhóm phát triển hy vọng rằng Qwen2-Math sẽ góp phần đáng kể vào việc giải quyết các bài toán phức tạp trong cộng đồng.
Các mô hình Qwen2-Math đã được thử nghiệm với các chuẩn toán học bằng tiếng Anh và tiếng Trung, bao gồm GSM8K với 8.500 bài toán tiểu học ngôn ngữ nâng cao, OlympiadBench với các bài kiểm tra khoa học đa ngữ cấp cao, và kỳ thi cao khảo của Trung Quốc.
Vào tháng 7, mô hình Qwen2-72B-Instruct xếp thứ hai chỉ sau GPT- và Claude Sonnet trong bảng xếp hạng LLM của SuperClue, nền tảng đánh giá dựa trên các yếu tố như năng lực tính toán, suy luận logic và hiểu văn bản.
SuperClue cho biết sự chênh lệch giữa các mô hình AI của Trung Quốc và Mỹ đang ngày càng thu hẹp, đồng thời ghi nhận tiến bộ đáng kể của Trung Quốc trong việc phát triển các LLM nội địa trong nửa đầu năm nay.
Một bài kiểm tra độc lập được công bố vào tháng 7 bởi LMSYS, tổ chức nghiên cứu hỗ trợ bởi Đại học California, Berkeley, đã xếp hạng Qwen2-72B ở vị trí 20, trong khi các mô hình của OpenAI, Anthropic và Google chiếm đa số trong top 10.