AMD hy vọng rằng chip AI MI300X mới mạnh mẽ của họ sẽ mang lại ưu thế trước Nvidia, nhưng hệ thống phần cứng này vẫn gặp khó khăn vì phần mềm chưa được tối ưu hóa đầy đủ
Cuộc đối đầu giữa AMD và Nvidia trong lĩnh vực tăng tốc GPU cho AI càng trở nên căng thẳng với sự ra mắt của MI300X từ AMD. Được thiết kế trên nền tảng CDNA 3, MI300X được kỳ vọng sẽ là đối thủ đáng gờm của Nvidia H100 và H200 trong các tác vụ AI. Tuy nhiên, theo phân tích từ SemiAnalysis, dù MI300X có phần cứng vượt trội, AMD vẫn gặp nhiều khó khăn trong việc xây dựng hệ sinh thái phần mềm, một lĩnh vực mà Nvidia đang dẫn đầu.
Trên lý thuyết, MI300X của AMD vượt trội với khả năng tính toán FP16 lên tới 1.307 TeraFLOPS và 192GB HBM3, cao hơn đáng kể so với các sản phẩm của Nvidia. AMD cũng nhấn mạnh rằng giải pháp của họ có tổng chi phí sở hữu (TCO) thấp hơn so với các hệ thống của Nvidia, vốn yêu cầu mạng InfiniBand đắt đỏ. Tuy nhiên, sức mạnh phần cứng chỉ chiếm một phần trong câu chuyện này.

SemiAnalysis đã dành hơn 5 tháng để thử nghiệm MI300X và phát hiện rằng hệ sinh thái phần mềm của AMD vẫn còn nhiều vấn đề. Trong quá trình thử nghiệm, nhóm nghiên cứu phải dựa vào sự hỗ trợ liên tục từ các kỹ sư của AMD để khắc phục lỗi, điều này rất hiếm khi xảy ra với phần cứng của Nvidia, nơi hệ sinh thái CUDA hoạt động ổn định ngay từ đầu. Các vấn đề về phần mềm không chỉ ảnh hưởng đến quá trình thử nghiệm mà còn tác động đến khách hàng của AMD. Chẳng hạn, nhà cung cấp đám mây Tensorwave, một trong những khách hàng lớn của AMD, đã phải cho phép kỹ sư của AMD truy cập trực tiếp vào chip MI300X để sửa lỗi phần mềm.
Những vấn đề này bao gồm sự không tương thích với PyTorch, hiệu suất kém khi mở rộng với nhiều chip và khả năng tích hợp không ổn định. SemiAnalysis cũng nhận thấy rằng nhiều thư viện AI của AMD chỉ là các phiên bản "fork" từ thư viện của Nvidia, dẫn đến hiệu suất không tối ưu và các sự cố không tương thích.
Phân tích của SemiAnalysis chỉ ra rằng AMD vẫn chưa thể vượt qua "bức tường CUDA" – lợi thế phần mềm mạnh mẽ của Nvidia. CUDA không chỉ cung cấp một trải nghiệm người dùng mượt mà mà còn là một nền tảng đầy đủ tính năng với các thư viện, công cụ và hỗ trợ hàng đầu trong ngành. Trong khi AMD nỗ lực cải thiện hệ sinh thái phần mềm của mình, Nvidia không ngừng mở rộng và cập nhật CUDA, càng làm sâu sắc thêm khoảng cách giữa hai đối thủ.
Tuy nhiên, SemiAnalysis cũng chỉ ra một điểm sáng trong các nhánh phần mềm BF16 của AMD dành cho MI300X. Các bài thử nghiệm ban đầu cho thấy hiệu suất đã được cải thiện rõ rệt, nhưng thời gian để triển khai chính thức còn khá dài. Trong khi đó, Nvidia có thể đã ra mắt thế hệ GPU mới, Blackwell, khiến AMD tiếp tục bị bỏ lại phía sau.
Để có thể cải thiện tình hình, AMD cần phải đầu tư mạnh tay hơn vào hệ sinh thái phần mềm của mình. Dylan Patel, người sáng lập SemiAnalysis, đã gặp gỡ CEO Lisa Su của AMD và nhận thấy bà đã nắm rõ những gì cần làm để giải quyết vấn đề. Tuy nhiên, với việc đã thiếu đầu tư vào phần mềm trong suốt nhiều năm, việc thay đổi sẽ không thể diễn ra trong thời gian ngắn.
Dù MI300X là một sản phẩm phần cứng rất hứa hẹn, nhưng các vấn đề về phần mềm đang khiến AMD gặp khó khăn trong việc cạnh tranh trực tiếp với Nvidia. "Bức tường CUDA" không chỉ là một lợi thế kỹ thuật mà còn là kết quả của nhiều năm phát triển không ngừng từ Nvidia, tạo ra một nền tảng vững chắc mà các đối thủ khó có thể vượt qua. Nếu AMD muốn thực sự thử thách vị trí dẫn đầu của Nvidia, họ cần phải chú trọng vào việc nâng cao trải nghiệm người dùng tổng thể thay vì chỉ dựa vào sức mạnh phần cứng. Trong cuộc đua này, cả phần cứng và phần mềm đều quan trọng, và Nvidia vẫn đang giữ lợi thế vượt trội.
