Frontier của phòng thí nghiệm quốc gia Oak Ridge là siêu máy tính exascale đầu tiên trên thế giới sử dụng toàn bộ phần cứng của AMD, bao gồm CPU EPYC Trento và GPU gia tốc Instinct MI250X. Hệ thống này bao gồm nhiều node tính toán được kết nối thông qua giải pháp liên kết nối Slingshot của HPE. Tuy nhiên, siêu máy tính này đang gặp phải vấn đề về hoạt động khi xuất hiện nhiều lỗi phần cứng mỗi vài giờ làm việc. Hiệu suất cũng đạt thấp hơn so với mức thiết kế, chỉ khoảng 1 ExaFLOPS.
Frontier là hệ thống siêu máy tính công nghiệp đầu tiên được thiết kế để mang lại hiệu suất tính toán lên tới ExaFLOPS, cụ thể là 1.685 FP64 ExaFLOPS. Nó được xây dựng dựa trên kiến trúc siêu máy tính Cray-X của Cray - công ty đã được HP Enterprise mua lại. Các node tính toán sẽ được kết nối với nhau thông qua HPE Slingshot. Mỗi node tính toán sử dụng CPU EPYC Trento - phiên bản được tối ưu hóa về xung nhịp và tiêu thụ điện năng của EPYC Milan, với 64 nhân, 128 luồng. Mỗi CPU đi kèm với 512 GB bộ nhớ DDR4.
Bên cạnh vi xử lý EPYC Trento, mỗi nút tính toán còn sở hữu 2 Đơn vị Xử lý Đồ họa (GCD), mỗi cụm bao gồm 2 Đồ họa gia tốc Instinct MI250X với kiến trúc CDNA2. Mỗi Đồ họa MI250X mang lại hiệu suất đỉnh FP64 ở mức 52 TFLOPS. Bộ nhớ hệ thống được trang bị cho mỗi GCD là 128 GB HBM2e, mỗi Đồ họa có khả năng truy xuất đến 64 GB với băng thông 3.2 TB/s. Các GCD kết nối với nhau thông qua cầu Infinity Fabric với băng thông hai chiều 200 GB/s.
Trong một cuộc phỏng vấn với InsideHPC, Justin Whitt - Giám đốc chương trình OLCF tại Viện nghiên cứu Oak Ridge, đã chia sẻ rằng nhóm của ông đang tập trung giải quyết các vấn đề phần cứng để hiểu rõ nguyên nhân xuất phát. Ông cũng chia sẻ rằng thời gian trung bình giải quyết sự cố trên hệ thống là vài giờ chứ không phải là một ngày.
Trước đó, có nhiều đồn đoán xoay quanh vấn đề phần cứng trên Frontier. Một số người nghĩ rằng hệ thống gặp sự cố với Slingshot của HPE, trong khi một số khác cho rằng Đồ họa Instinct MI250X của AMD không ổn định. Phiên bản X có nhân Stream nhiều hơn và xung nhịp cao hơn so với MI250 và chỉ được AMD cung cấp cho một số khách hàng nhất định. Tuy nhiên, Justin Whitt không xác nhận lỗi xuất phát từ thành phần nào. Whitt cho rằng vào thời điểm hiện tại, phần cứng của AMD không có vấn đề gì đáng lo ngại, chỉ đơn giản là hệ thống gặp nhiều vấn đề.
Bộ Năng lượng Hoa Kỳ (DOE) - tổ chức đầu tư mạnh mẽ lên đến 600 triệu đô cho Frontier, hiện đang hợp tác chặt chẽ với phòng thí nghiệm Oak Ridge để khắc phục mọi khó khăn, nhằm đưa siêu máy tính này vào hoạt động toàn diện ngay từ đầu năm 2023. Frontier sẽ đóng vai trò quan trọng trong nhiều lĩnh vực, từ mô phỏng phân tử dược phẩm tiên tiến với hàng nghìn nguyên tử, đến mô phỏng máy tính lượng tử và thậm chí là các thử nghiệm phản ứng hạt nhân...
Tom's Hardware