Hệ thống gồm bốn Arc Pro B70 sở hữu tổng cộng 128 GB VRAM, đủ sức xử lý các mô hình AI lên tới 120 tỷ tham số, với giá dự kiến dưới 26 triệu đồng khi ra mắt.
MLCommons vừa công bố kết quả MLPerf Inference v6.0, bộ benchmark đánh giá hiệu năng AI inference trên GPU và CPU từ nhiều hãng. Đây là lần đầu tiên Intel đưa Arc Pro B70 và Arc Pro B65 vào bảng xếp hạng – hai GPU mới trang bị chip Big Battlemage vừa ra mắt.
Arc Pro B70 nhanh hơn B60 tới 80%
Cấu hình Intel dùng để benchmark là hệ thống bốn GPU Arc Pro B70, tổng VRAM 128 GB, đủ sức chạy các mô hình ngôn ngữ lớn tới 120 tỷ tham số, kết hợp với CPU Intel Xeon thế hệ 6.
Trong bài kiểm tra GPT-OSS-120B, bốn Arc Pro B70 đạt 1.536,90 token/giây offline và 951,67 token/giây server. Trong khi đó, bốn Arc Pro B60 đơn (96 GB VRAM) chỉ đạt 841,04 và 452,19 token/giây – tức B70 nhanh hơn khoảng 83% offline và hơn 110% server.

Ở bài kiểm tra llama2-70b-99, bốn Arc Pro B70 đạt 2.459,18 token/giây offline và 1.698,57 token/giây server, so với bốn Arc Pro B60 đơn chỉ 1.697,66 và 1.106,26 – vượt trội 45% và 54%. Với bài llama3.1 8b, Intel đưa thêm Arc Pro B60 Dual (192 GB), Arc Pro B50 (64 GB), và Xeon 6 (128 nhân). Kết quả: bốn B60 Dual dẫn đầu với 52,83 token/giây offline, tiếp theo bốn B70 36,07, bốn B60 đơn 26,15, bốn B50 13,45, và hai Xeon 6 9,61 token/giây.
Tối ưu phần mềm giúp GPU hiện tại tăng thêm 18% hiệu năng
Bên cạnh phần cứng mới, Intel liên tục cải tiến phần mềm, giúp các GPU hiện có như Arc Pro B60 nâng hiệu năng thêm 18% mà không cần thay phần cứng. Thành quả này đến từ việc tối ưu driver và phần mềm AI song song với phát triển phần cứng mới.

Xeon 6 cải thiện hiệu năng tới 90% so với thế hệ trước
Intel cũng công bố kết quả riêng cho Xeon 6 với P-Cores, đạt hiệu năng tăng 90% nhờ tích hợp AMX và AVX-512, hỗ trợ chạy LLM inference, fine-tuning, và machine learning cổ điển mà không cần phần cứng tăng tốc bổ sung. Intel là nhà sản xuất CPU máy chủ duy nhất nộp kết quả độc lập trong MLPerf inference, trong khi hơn một nửa lần nộp MLPerf 6.0 sử dụng Xeon làm CPU chủ.
Intel mô tả hệ thống Arc Pro B70 và B65 là nền tảng inference toàn diện, hỗ trợ Linux container, mở rộng đa GPU qua PCIe P2P, tích hợp tính năng doanh nghiệp như ECC, SRIOV, đo từ xa và cập nhật firmware từ xa. So với GPU tương đương đối thủ, Arc Pro B70 trong cấu hình đa GPU có dung lượng KV cache lớn hơn 1,6 lần khi chạy mô hình lớn.
Arc Pro B70 dự kiến sớm lên kệ với giá dưới 1.000 USD (~26,26 triệu đồng), cung cấp 32 GB VRAM cho mỗi GPU.
