Trong thông cáo báo chí, Intel đã nhắc đến NVIDIA, cho biết rằng Gaudi 3 đạt được tỉ lệ giá/hiệu năng gấp đôi so với H100 khi thực hiện suy luận trên mô hình LLaMa 2 70B.
Gần đây, Intel đã công bố vi xử lý Xeon 6 mới cùng bộ tăng tốc AI Gaudi 3. Xeon 6 có lõi hiệu suất (P-core) tăng gấp đôi hiệu suất xử lý hình ảnh AI, trong khi Gaudi 3 cải thiện tốc độ xử lý lên tới 20%. Đặc biệt, Intel đã trực tiếp nhắc đến Nvidia trong thông báo, nhấn mạnh rằng Gaudi 3 có tỉ lệ giá/hiệu năng gấp đôi so với H100 khi thực hiện suy luận với mô hình LLaMa 2 70B.
Bộ tăng tốc AI Gaudi 3 của Intel
Gaudi 3 được trang bị hai chiplet với 64 nhân xử lý tensor (TPC), cấu trúc MAC 256x256 và bộ tích lũy FP32, 8 công cụ nhân ma trận (MME), cùng với bộ nhớ đệm SRAM 96MB và băng thông lên tới 19,2 TB/giây.

Hơn nữa, Gaudi 3 còn được trang bị 24 cổng Ethernet 200 Gb và 14 bộ xử lý đa phương tiện, có khả năng xử lý các định dạng như H.265, H.264, JPEG và VP9, nhằm hỗ trợ cho việc xử lý hình ảnh. Bộ xử lý này đi kèm với 128GB bộ nhớ HBM2E, cung cấp băng thông 3,67 TB/giây.

So với Gaudi 2, Gaudi 3 của Intel đã có những nâng cấp đáng kể, với 64 TPC, hai MME và 128GB bộ nhớ HBM2E. Tuy nhiên, có vẻ như Intel đã đơn giản hóa thiết kế TPC và MME, vì Gaudi 3 chỉ hỗ trợ các phép toán ma trận FP8 và các phép toán ma trận và vector BFloat16, không còn hỗ trợ FP32, TF32 và FP16 nữa.
Intel cho biết Gaudi 3 có khả năng cung cấp đến 1856 TFLOPS cho các phép toán ma trận BF16/FP8 và tối đa 28,7 TFLOPS cho các phép toán vector BF16 với mức TDP khoảng 600W. So với H100 của Nvidia, Gaudi 3 có hiệu suất ma trận BF16 thấp hơn một chút (1.856 so với 1.979 TFLOPS), hiệu suất ma trận FP8 chỉ đạt một nửa (1.856 so với 3.958 TFLOPS) và hiệu suất vector BF16 thấp hơn nhiều (28,7 so với 1.979 TFLOPS).

Tuy nhiên, yếu tố quan trọng hơn so với thông số kỹ thuật lý thuyết chính là hiệu suất thực tế của Gaudi 3. Sản phẩm này cần phải cạnh tranh với dòng Instinct MI300 của AMD cũng như bộ xử lý H100 và B100/B200 của Nvidia. Hiệu quả thực tế còn cần được kiểm chứng, vì rất nhiều yếu tố như phần mềm có thể ảnh hưởng đến điều này. Hiện tại, Intel đã công bố một số slide khẳng định rằng Gaudi 3 có thể mang lại lợi thế đáng kể về tỉ lệ giá/hiệu năng so với H100 của Nvidia.

Đầu năm nay, Intel thông báo rằng một bộ tăng tốc bao gồm tám Gaudi 3 trên một bo mạch chủ sẽ có giá 125.000 USD, tương đương với mỗi Gaudi 3 có giá khoảng 15.625 USD. Trong khi đó, giá của một card Nvidia H100 hiện đang là 30.678 USD, cho thấy Intel có lợi thế lớn về giá so với đối thủ. Tuy nhiên, với hiệu suất vượt trội mà GPU của Nvidia mang lại, vẫn chưa rõ Intel có thể duy trì được lợi thế này không.

Ông Justin Hotard, Phó Chủ tịch Điều hành kiêm Tổng Giám đốc Nhóm Trung tâm Dữ liệu và Trí tuệ Nhân Tạo tại Intel, chia sẻ: 'Nhu cầu ngày càng gia tăng về AI đã dẫn đến sự chuyển mình lớn trong lĩnh vực trung tâm dữ liệu. Ngành công nghệ đang yêu cầu nhiều lựa chọn hơn về phần cứng, phần mềm và công cụ phát triển. Với Xeon 6 tích hợp P-core và bộ tăng tốc AI Gaudi 3, Intel đang hỗ trợ một hệ sinh thái mở để các doanh nghiệp có thể triển khai mọi ứng dụng hiệu quả hơn, từ khả năng xử lý, tiết kiệm điện năng đến tính bảo mật.'
Intel Xeon 6

Về phần Xeon 6, Intel cho biết vi xử lý này được thiết kế để đáp ứng các ứng dụng yêu cầu sức mạnh tính toán cao với hiệu quả sử dụng điện tốt hơn, Xeon 6 mang lại hiệu suất gấp đôi so với thế hệ trước. Dòng vi xử lý mới này có số lượng nhân nhiều hơn, băng thông bộ nhớ gấp đôi và khả năng tăng tốc AI tích hợp vào mọi nhân.
Xeon 6 được thiết kế nhằm đáp ứng các yêu cầu hiệu suất của AI từ các thiết bị vùng biên cho đến trung tâm dữ liệu và môi trường đám mây. Thông qua quan hệ hợp tác chiến lược với Intel, Google Cloud có thể cung cấp các giải pháp với hiệu suất và tính linh hoạt phù hợp với nhu cầu doanh nghiệp, bao gồm cả những giải pháp tích hợp Intel Xeon 6 với P-core trong tương lai.

Đối với Intel, việc tối ưu hóa giá thành có vẻ là mục tiêu hàng đầu. Công ty cho biết triển khai AI quy mô lớn đòi hỏi doanh nghiệp phải xem xét nhiều yếu tố, bao gồm sự linh hoạt của các tùy chọn triển khai để đáp ứng nhu cầu, tính cạnh tranh của tỉ lệ hiệu năng trên giá thành, cũng như khả năng ứng dụng của các công nghệ AI. Hạ tầng x86 mạnh mẽ và hệ sinh thái mã nguồn mở phong phú của Intel giúp doanh nghiệp xây dựng các hệ thống AI với giá trị cao, tối ưu tổng chi phí sở hữu và hiệu năng trên mỗi watt điện. Đặc biệt, 73% máy chủ sử dụng GPU tăng tốc đều lựa chọn Intel Xeon làm CPU chính.

Bộ tăng tốc AI Gaudi 3 của Intel sẽ có mặt trên IBM Cloud và Intel Tiber Developer Cloud. Thêm vào đó, hệ thống dựa trên Intel Xeon 6 và Gaudi 3 sẽ được cung cấp trên các sản phẩm của các đối tác như Dell, HPE và Supermicro vào quý 4. Cụ thể, các hệ thống từ Dell và Supermicro sẽ được giao hàng vào tháng 10, trong khi các máy từ Supermicro dự kiến sẽ được giao vào tháng 12.
