Tất cả các dòng chip Intel từ Gaudi 3, Xeon Granite Rapids đến Core Ultra đều đã sẵn sàng cho Llama 3

Buzz

Đọc tóm tắt

- Sau khi Meta giới thiệu mô hình Llama 3, Intel nhanh chóng công bố các dòng chip của họ đã được tối ưu hóa để tương thích với Llama 3, từ các dòng Gaudi 2 đến Xeon Scalable Granite Rapids và GPU Arc.
- Hiệu suất của Llama 3 trên các phiên bản khác nhau đạt kết quả rất ấn tượng, với độ trễ suy luận giảm đáng kể.

Ngay sau khi Meta giới thiệu mô hình Llama 3, gần như ngay lập tức Intel cũng công bố về những con chip của hãng đã thể hiện ra sao với mô hình AI mới này của Meta, đồng thời cung cấp chi tiết về các điểm chuẩn của các dòng chip khi được kiểm thử với Llama 3.Với mục tiêu “AI Everywhere”, Intel không thể chậm trễ trong việc tối ưu hóa các dòng chip hiện có của mình với các mô hình AI mới nhất. Các dòng vi xử lý từ Gaudi 2 và Gaudi 3, Xeon Scalable Granite Rapids cho đến các dòng Intel Core Ultra cho người dùng thông thường và dòng GPU Arc đều đã sẵn sàng cho Llama 3.

Các dòng chip Gaudi 2 trước đây đã được thử nghiệm với Llama 2 từ 7 tỷ, 13 tỷ và 70 tỷ tham số. Bây giờ, Gaudi 2 tiếp tục được tối ưu hóa với Llama 3. Kết quả thể hiện ở bảng benchmark trên, giữa hai phiên bản inference và phiên bản đã được điều chỉnh của Llama 3, mỗi phiên bản sẽ có 2 tham số khác nhau.

Hiệu suất suy luận của Meta Llama 3 8B trên phiên bản AWS m7i.metal-48x dựa trên Intel Xeon Scalable Shappire Rapids.

Khi Intel thử nghiệm benchmark Llama 3 trên thế hệ mới nhất của Intel Xeon, Granite Rapids, độ trễ suy luận của Llama 3 8B cải thiện gấp 2 lần so với các dòng chip Intel Xeon thế hệ 4. Với các model lớn hơn như Llama 3 70B, độ trễ đều dưới 100ms cho mỗi token, trong 1 server với 2 socket. Lưu ý là tại sự kiện Intel Vision 2024, Intel đã thay đổi tên gọi của dòng chip Intel Xeon Scalable thành Intel Xeon. Granite Rapids là dòng chip Intel Xeon 6 với các nhân P sẽ ra mắt vào nửa cuối năm nay, còn dòng chip Intel Xeon 6 với các nhân E (Sierra Forest) sẽ ra mắt trong quý 2 này.

Với các dòng vi xử lý dành cho người dùng cuối như Intel Core Ultra và GPU Intel Arc, Intel đã thể hiện hiệu suất của iGPU trong Core Ultra H series và dGPU Intel Arc A770 khi thử nghiệm với model Llama 3 8B Instruct INT4, độ trễ chung là dưới 20ms.

Đối với iGPU 8 nhân Xe trong Intel Core Ultra, tốc độ đáp ứng nhanh hơn tốc độ đọc bình thường của con người, nhờ vào bộ tăng tốc AI DP4a và băng thông bộ nhớ lên đến 120GB/s. Intel cam kết sẽ tiếp tục tối ưu hiệu suất và hiệu quả năng lượng với Llama 3 trên các thế hệ vi xử lý tiếp theo.

Nội dung được phát triển bởi đội ngũ Mytour với mục đích chăm sóc khách hàng và chỉ dành cho khích lệ tinh thần trải nghiệm du lịch, chúng tôi không chịu trách nhiệm và không đưa ra lời khuyên cho mục đích khác.

Nếu bạn thấy bài viết này không phù hợp hoặc sai sót xin vui lòng liên hệ với chúng tôi qua email [email protected]

Các câu hỏi thường gặp

Llama 3 là gì và nó có tác động gì đến các dòng chip của Intel?

Llama 3 là mô hình AI mới của Meta, và Intel đã tối ưu hóa các dòng chip của mình, bao gồm Gaudi 2, Xeon Scalable, Core Ultra và GPU Arc, để hỗ trợ mô hình này với hiệu suất vượt trội.

Các dòng chip Intel nào được tối ưu hóa để chạy Llama 3?

Intel đã tối ưu hóa nhiều dòng chip cho Llama 3, bao gồm Gaudi 2, Gaudi 3, Xeon Scalable Granite Rapids, Intel Core Ultra, và GPU Intel Arc, tất cả đều thể hiện hiệu suất vượt trội.

Hiệu suất suy luận của Llama 3 được cải thiện như thế nào trên các dòng chip Intel?

Hiệu suất suy luận của Llama 3 được cải thiện gấp đôi trên các dòng Intel Xeon Granite Rapids so với các thế hệ chip Xeon trước đó, với độ trễ suy luận giảm xuống dưới 100ms cho mỗi token trên các mô hình lớn.

Llama 3 có hỗ trợ trên các dòng chip Intel Core Ultra không?

Có, Llama 3 được tối ưu hóa để chạy trên dòng vi xử lý Intel Core Ultra, đặc biệt là với iGPU trong Core Ultra H series, mang đến độ trễ thấp và hiệu suất vượt trội.