Tại GTC 2026, NVIDIA trình làng khay tính toán Vera Rubin với tám đơn vị Groq3 LPX, nhằm tăng tốc hiệu suất suy luận AI.
Mối quan hệ hợp tác giữa NVIDIA và Groq chính thức được công nhận khi CEO Jensen Huang giới thiệu khay tính toán lai mới, tích hợp các đơn vị Groq3 LPX trong rack Rubin tại GTC 2026, với mục tiêu tăng tốc các tác vụ AI yêu cầu tốc độ cao, đặc biệt trong suy luận, nơi NVIDIA muốn cạnh tranh mạnh mẽ hơn.
Theo thông báo từ NVIDIA, khay tính toán Vera Rubin với Groq3 LPX sở hữu tám đơn vị Groq3 LPX mới, mang lại hiệu suất suy luận vượt trội, tăng thông lượng suy luận lên gấp 35 lần mỗi megawatt, giúp NVIDIA củng cố vị thế trong thị trường suy luận AI.

Mỗi rack tính toán chứa đến 256 đơn vị LPU, với tổng dung lượng 128GB SRAM và băng thông scale-up đạt 640TB/s, là lời đáp trả của NVIDIA trước đối thủ Cerebras. Việc kết hợp GPU Rubin với LPU Groq giúp tối ưu hóa các giai đoạn prefill và decode trong suy luận, làm tăng khả năng cạnh tranh của NVIDIA trong lĩnh vực không phải là người tiên phong.

Về mặt thông số kỹ thuật, mỗi chip Groq3 có 500MB SRAM, băng thông SRAM đạt 150TB/s và khả năng tính toán 1,2 PFLOPs (FP8). Khi kết hợp với khay Rubin và Groq3 LPX, tổng hiệu suất suy luận AI mà CEO NVIDIA công bố có thể lên tới 315 PFLOPs. NVIDIA cũng đã chia sẻ hình ảnh thực tế của khay tính toán tại sự kiện.

Kiến trúc đồng thiết kế LPX được tối ưu hóa cho các mô hình AI với hàng nghìn tỷ tham số và ngữ cảnh hàng triệu token, kết hợp cùng Vera Rubin để nâng cao hiệu quả về điện năng, bộ nhớ và năng lực xử lý.
NVIDIA kỳ vọng rằng các đơn vị LPU của Groq sẽ đóng vai trò quan trọng giống như Mellanox trong ngành mạng, giúp công ty dẫn đầu trong các tác vụ AI yêu cầu độ trễ thấp. Với sự phát triển mạnh mẽ dự báo của AI tác tử (agentic AI), hợp tác với Groq sẽ giúp NVIDIA đáp ứng nhu cầu tính toán ngày càng tăng.
