Alibaba tung ra AI Qwen2, đối thủ của Meta và OpenAI

Buzz

Ngày cập nhật gần nhất: 15/6/2026

Đọc tóm tắt

- Alibaba công bố mô hình AI mới Qwen2, được xem là lựa chọn nguồn mở hàng đầu hiện nay.
- Qwen2 là thế hệ tiếp theo của dòng mô hình Tongyi Qianwen của Alibaba Cloud.
- Qwen2 vượt trội hơn LLama3 của Meta và GPT-4o của OpenAI.
- Qwen2 có khả năng xử lý 128 nghìn token ngữ cảnh, tương đương với GPT-4o.
- Qwen2 thể hiện hiệu suất tốt hơn so với Llama3, Mixtral và Qwen1.5.
- Qwen2 có sẵn trong năm kích thước khác nhau, từ 0,5 tỷ đến 72 tỷ tham số.
- Qwen2 được huấn luyện với dữ liệu từ 27 ngôn ngữ khác nhau.
- Qwen2 có khả năng hiểu các ngữ cảnh dài và trích xuất thông tin hiệu quả.
- Qwen2 có giấy phép Apache 2.0, khuyến khích sự phát triển của AI nguồn mở.
- Qwen2 có thể là sự thay thế xuất sắc cho AI nguồn mở với khả năng AGI.

Alibaba, ông trùm thương mại điện tử Trung Quốc, đóng vai trò quan trọng trong lĩnh vực AI của đất nước. Hôm nay, họ đã công bố ra mắt mô hình AI mới nhất của mình, Qwen2 – và theo một số so sánh, nó được xem là lựa chọn nguồn mở hàng đầu hiện nay.

Do Alibaba Cloud phát triển, Qwen2 là thế hệ tiếp theo của dòng mô hình Tongyi Qianwen (Qwen) của công ty, bao gồm mô hình ngôn ngữ lớn Tongyi Qianwen LLM (hay Qwen), mô hình AI hình ảnh Qwen-VL và Qwen-Audio.

Qwen được tiền huấn luyện trên dữ liệu đa ngôn ngữ từ nhiều ngành công nghiệp và lĩnh vực khác nhau, với Qwen-72B là mô hình mạnh nhất. Nó được huấn luyện trên 3 nghìn tỷ token dữ liệu. So với đó, biến thể mạnh nhất của Llama-2 của Meta dựa trên 2 nghìn tỷ token. Tuy nhiên, Llama-3 đang xử lý 15 nghìn tỷ token.

Theo một bài viết trên blog gần đây của nhóm phát triển Qwen, Qwen2 có thể xử lý 128 nghìn token ngữ cảnh – tương đương với GPT-4o từ OpenAI. Qwen2 cũng đã vượt trội hơn LLama3 của Meta trong hầu hết các chỉ số quan trọng, nhóm này khẳng định, khiến cho nó trở thành mô hình nguồn mở hàng đầu hiện nay.

Tuy nhiên, đáng chú ý là Elo Arena xếp hạng Qwen2-72B-Instruct cao hơn một chút so với GPT-4-0314 nhưng thấp hơn LLama3 70B và GPT-4-0125-preview, làm cho nó trở thành mô hình LLM nguồn mở được ưa chuộng thứ hai trong số các người thử nghiệm cho đến nay.

Qwen2 thể hiện hiệu suất tốt hơn so với Llama3, Mixtral và Qwen1.5 theo các tiêu chuẩn tổng hợp | Hình ảnh: Alibaba Cloud

Qwen2 có sẵn trong năm kích thước khác nhau, từ 0,5 tỷ đến 72 tỷ tham số, và phiên bản này mang lại những cải tiến đáng kể trong các lĩnh vực chuyên môn khác nhau. Ngoài ra, các mô hình đã được huấn luyện với dữ liệu từ 27 ngôn ngữ khác nhau hơn so với phiên bản trước, bao gồm tiếng Đức, tiếng Pháp, tiếng Tây Ban Nha, tiếng Ý và tiếng Nga, ngoài tiếng Anh và tiếng Trung.

“So với các mô hình ngôn ngữ nguồn mở tiên tiến nhất, bao gồm Qwen1.5 đã phát hành trước đó, Qwen2 nhìn chung đã vượt qua hầu hết các mô hình nguồn mở và thể hiện tính cạnh tranh với các mô hình độc quyền trên một loạt các chỉ số như hiểu ngôn ngữ, sinh ngôn ngữ, khả năng đa ngôn ngữ, lập trình, toán học và lý luận,” đội ngũ Qwen tuyên bố trên trang chính thức của mô hình trên HuggingFace.

Các mô hình Qwen2 cũng cho thấy khả năng ấn tượng trong việc hiểu các ngữ cảnh dài. Qwen2-72B-Instruct có thể xử lý các nhiệm vụ trích xuất thông tin ở bất kỳ đâu trong ngữ cảnh khổng lồ của nó mà không gặp lỗi, và nó đã vượt qua bài kiểm tra “Needle in a Haystack” gần như hoàn hảo. Điều này quan trọng, vì truyền thống, hiệu suất của mô hình bắt đầu suy giảm khi chúng ta tương tác với nó nhiều hơn.

Qwen2 thể hiện một cách ấn tượng trong bài kiểm tra “Kim trong đống cỏ khô” | Ảnh: Alibaba Cloud

Với phiên bản này, nhóm Qwen cũng đã thay đổi giấy phép cho các mô hình của họ. Trong khi Qwen2-72B và các mô hình điều chỉnh hướng dẫn vẫn sử dụng giấy phép Qianwen ban đầu, tất cả các mô hình khác đều áp dụng giấy phép Apache 2.0, một tiêu chuẩn trong thế giới phần mềm nguồn mở.

“Trong thời gian sắp tới, chúng tôi sẽ tiếp tục công bố mã nguồn của các mô hình mới để thúc đẩy AI nguồn mở,” Alibaba Cloud cho biết trong một bài đăng trên blog chính thức.

Decrypt đã thử nghiệm mô hình và thấy nó khá ấn tượng trong việc hiểu các nhiệm vụ bằng nhiều ngôn ngữ. Mô hình này cũng đã được kiểm định, đặc biệt là trong các chủ đề nhạy cảm ở Trung Quốc. Điều này có vẻ phù hợp với tuyên bố của Alibaba rằng Qwen2 là một mô hình ít có khả năng tạo ra kết quả không an toàn nhất – bất kể là hoạt động bất hợp pháp, gian lận, nội dung khiêu dâm, hay vi phạm quyền riêng tư – trong bất kỳ ngôn ngữ nào.

Câu trả lời của ChatGPT cho câu hỏi nhạy cảm: “Đài Loan có phải là một quốc gia không?”

Hơn nữa, nó có khả năng hiểu tốt các lời nhắc hệ thống, điều này có nghĩa là các điều kiện áp dụng sẽ có ảnh hưởng mạnh mẽ hơn đến câu trả lời của nó. Ví dụ, khi được yêu cầu đóng vai một trợ lý hữu ích với kiến thức về luật pháp so với một luật sư hiểu biết luôn trả lời dựa trên luật pháp, các câu trả lời cho thấy sự khác biệt lớn. Nó cung cấp lời khuyên tương tự như GPT-4o, nhưng ngắn gọn hơn.

Phiên bản tiếp theo của mô hình sẽ đưa tính đa phương thức vào Qwen2 LLM, có thể hợp nhất tất cả các gia đình thành một mô hình mạnh mẽ, đội ngũ cho biết. “Ngoài ra, chúng tôi mở rộng các mô hình ngôn ngữ Qwen2 đến đa phương thức, có khả năng hiểu cả thông tin hình ảnh và âm thanh,” họ nói thêm.

Câu trả lời của ChatGPT cho câu hỏi: “Một người hàng xóm đã xúc phạm tôi”

Qwen có sẵn để thử nghiệm trực tuyến thông qua HuggingFace Spaces. Những người có khả năng tính toán đủ để chạy nó cục bộ có thể tải trọng lên miễn phí qua HuggingFace.

Mô hình Qwen2 có thể là một sự thay thế xuất sắc cho những người muốn đặt niềm tin vào AI nguồn mở. Nó có cửa sổ ngữ cảnh lớn hơn hầu hết các mô hình khác, làm cho nó thậm chí còn mạnh mẽ hơn LLama3 của Meta. Ngoài ra, nhờ vào giấy phép của mình, các phiên bản điều chỉnh được chia sẻ bởi những người khác có thể cải thiện nó, tăng điểm số và vượt qua sự thiên vị.

*Trí tuệ nhân tạo tổng quát (Artificial General Intelligence – AGI) là một dạng AI có khả năng thực hiện mọi nhiệm vụ trí tuệ mà con người có thể làm được. Khác với AI hẹp (ANI), AGI có khả năng hiểu, học hỏi và áp dụng kiến thức trong nhiều lĩnh vực khác nhau. AGI có thể tự học hỏi từ kinh nghiệm và dữ liệu mới mà không cần sự can thiệp liên tục của con người. Nó có thể thích nghi với các tình huống và vấn đề mới mà chưa từng gặp phải trước đây. AGI được coi là mục tiêu cuối cùng của nghiên cứu AI, nhưng hiện tại vẫn còn ít nhất 10 năm nữa để phát triển. AGI đang gây ra nhiều lo ngại về an ninh và rủi ro tiềm ẩn đối với nhân loại.

Theo Decrypt

Các câu hỏi thường gặp

Qwen2 là mô hình AI mới nhất của công ty nào?

Qwen2 là mô hình AI mới nhất được phát triển bởi Alibaba Cloud, đóng vai trò quan trọng trong lĩnh vực AI tại Trung Quốc, đặc biệt trong lĩnh vực thương mại điện tử.

Qwen2 có những tính năng gì nổi bật so với các mô hình AI khác?

Qwen2 nổi bật với khả năng xử lý 128 nghìn token ngữ cảnh, mạnh hơn so với Llama-3 của Meta. Nó cũng hỗ trợ 27 ngôn ngữ và thể hiện hiệu suất tốt trong nhiều lĩnh vực chuyên môn khác nhau.

Làm thế nào Qwen2 có thể xử lý các nhiệm vụ trích xuất thông tin?

Qwen2-72B-Instruct có khả năng xử lý các nhiệm vụ trích xuất thông tin trong ngữ cảnh lớn mà không gặp lỗi, thể hiện hiệu suất ấn tượng trong bài kiểm tra 'Kim trong đống cỏ khô'.

Giấy phép nào được áp dụng cho các mô hình Qwen2?

Trong khi Qwen2-72B sử dụng giấy phép Qianwen, tất cả các mô hình khác áp dụng giấy phép Apache 2.0, cho phép người dùng tự do chia sẻ và cải thiện mô hình.

Tại sao Qwen2 được coi là mô hình AI nguồn mở hàng đầu hiện nay?

Qwen2 được coi là mô hình AI nguồn mở hàng đầu vì hiệu suất vượt trội so với các mô hình khác, khả năng hiểu ngôn ngữ tốt và tính cạnh tranh với các mô hình độc quyền.

Nội dung từ Mytour nhằm chăm sóc khách hàng và khuyến khích du lịch, chúng tôi không chịu trách nhiệm và không áp dụng cho mục đích khác.

Nếu bài viết sai sót hoặc không phù hợp, vui lòng liên hệ qua Zalo: 0978812412 hoặc Email: [email protected]