
Tạp chí The Information mới đây đã trích dẫn một số nguồn tin từ các nhà sản xuất máy chủ và khách hàng của Nvidia, cho biết các con chip GB200 thuộc dòng GPU Blackwell gặp phải sự cố quá nhiệt khi được lắp đặt vào các máy chủ xử lý AI. Cụ thể, khi các chip này hoạt động trong các rack máy chủ kết hợp nhiều bộ xử lý, nhiệt độ tỏa ra quá cao, gây ảnh hưởng đến hiệu suất.
Kết quả là, Nvidia sẽ phải trì hoãn việc giao Blackwell cho các đối tác lớn như Google, Meta và Microsoft, vì hãng này cần thay đổi thiết kế để đảm bảo rằng các hệ thống hoạt động ổn định nhất khi vận hành trong các data center, đặc biệt trong bối cảnh cuộc đua AI đang ngày càng gay gắt.Các cụm máy chủ hiệu năng cao trang bị chip GB200 của Nvidia được thiết kế để tối đa 72 chip Blackwell hoạt động cùng lúc, với mức tiêu thụ điện lên đến 120 kW. Tuy nhiên, do các chip có kích thước rất lớn và phải ghép nhiều die silicon của TSMC lại với nhau, hệ thống gặp phải vấn đề quá nhiệt trong quá trình vận hành.Vì lý do này, Nvidia đã phải điều chỉnh thiết kế các máy chủ trang bị chip Blackwell, như máy chủ Azure của Microsoft với các chip B200. Điều này đã khiến các đối tác lớn như Meta, Google và Microsoft lo ngại rằng việc triển khai máy chủ Blackwell của họ sẽ bị trì hoãn.Nvidia đã yêu cầu các đối tác sản xuất máy chủ thay đổi bố cục trong các rack để khắc phục vấn đề quá nhiệt của các chip Blackwell có hiệu năng và mức tiêu thụ điện cao. Mặc dù việc điều chỉnh thiết kế máy chủ để tối ưu nhiệt đã không còn là điều mới mẻ, nhưng kết quả là Nvidia lại phải hoãn giao máy chủ Blackwell cho các khách hàng lớn của mình.
Phát ngôn viên của Nvidia đã chia sẻ với Reuters rằng việc thay đổi thiết kế máy chủ trong quá trình hợp tác phát triển với các đối tác lắp ráp máy chủ đám mây là điều hoàn toàn bình thường.Trước đó, nguồn tin cho biết Nvidia đã phải hoãn tiến độ sản xuất chip Blackwell do lỗi thiết kế của các con chip B100 và B200. Quá trình gia công các chip này qua TSMC bao gồm kỹ thuật đóng gói CoWoS-L, sử dụng máy quang khắc EUV, với kỹ thuật ghép hai die bán dẫn để tạo ra một thiết kế chiplet lớn, cho phép tăng hiệu năng tính toán và băng thông bộ nhớ. Thiết kế này còn ứng dụng cả interposer RDL và cầu nối LSI, mang lại băng thông kết nối dữ liệu giữa các die chiplet lên tới 10 TB/s.Tuy nhiên, Nvidia phát hiện vấn đề về tính chất nhiệt không đồng nhất của chiplet GPU, cầu nối LSI và interposer RDL, dẫn đến tình trạng cong vênh của chip. Điều này khiến toàn bộ hệ thống gặp lỗi phần cứng và bị crash. Để khắc phục, Nvidia đã phải thay đổi lớp kim loại trên die silicon, nơi chứa các nhân tensor, đồng thời củng cố độ bền cấu trúc để đảm bảo sự ổn định trong quá trình vận hành của chip.Do đó, Nvidia đã phải thiết kế lại hoàn toàn bản mask mới để TSMC tiến hành quang khắc. Theo một số nguồn tin không chính thức, sản xuất Blackwell chỉ mới bắt đầu vào cuối tháng 10, và dự kiến đến đầu tháng 1 năm sau, các tập đoàn công nghệ lớn cùng các đơn vị cung cấp dịch vụ máy chủ đám mây mới nhận được đơn hàng chip Blackwell đầu tiên.Các vấn đề nêu trên có thể ảnh hưởng trực tiếp đến kế hoạch kinh doanh, doanh thu và lợi nhuận của Nvidia trong hai quý tới. Đồng thời, khách hàng của Nvidia cũng sẽ phải điều chỉnh, trì hoãn kế hoạch triển khai Blackwell để nâng cao hiệu suất huấn luyện và vận hành các mô hình AI thế hệ mới.Theo Tom's Hardware