Chiếc NVIDIA V100 từng có giá hơn 260 triệu đồng khi ra mắt, giờ có thể mua trên eBay với giá rẻ mà vẫn đủ sức chạy các mô hình AI lớn.
Trong khi các GPU mới liên tục được tối ưu cho AI, một thử nghiệm gần đây đã gây bất ngờ khi NVIDIA V100 8 năm tuổi vẫn vượt trội hơn một số GPU hiện đại trong việc xử lý các mô hình ngôn ngữ lớn (LLM).
NVIDIA V100 thuộc thế hệ Volta, dòng GPU đầu tiên chuyên cho trung tâm dữ liệu, không dành cho game thủ. Đây cũng là GPU đầu tiên tích hợp kiến trúc Tensor Core, nền tảng quan trọng cho các tiến bộ AI của NVIDIA. Dù Tensor Core đã phát triển nhiều kể từ Volta, kênh YouTube Hardware Haven vẫn thử nghiệm GPU V100 8 năm tuổi để đánh giá khả năng xử lý LLM hiện đại.

GPU NVIDIA Tesla V100 có hai phiên bản: bo mạch SXM và PCIe. SXM dùng chủ yếu trong trung tâm dữ liệu, kết nối qua mezzanine để cấp nguồn trực tiếp và định tuyến NVLink. Phiên bản thử nghiệm là SXM2, sở hữu 5120 nhân CUDA, 320 TMU, 128 ROP, 640 Tensor Core, 6 MB L2 cache, xung nhịp 1530 MHz, bộ nhớ HBM2 16 GB hoặc 32 GB trên bus 4096-bit với băng thông 898 GB/s. TDP chỉ 250W, thấp hơn nhiều so với các GPU Blackwell hiện nay có thể vượt 1KW.

Khi ra mắt, NVIDIA Tesla V100 giá hơn 10.000 USD (~262 triệu đồng), nhưng hiện phiên bản 16 GB trên eBay chỉ khoảng 100 USD (~2,6 triệu đồng).

Vấn đề không phải ở giá mà là tương thích với PC thông thường, vì chuẩn SXM2 không được hỗ trợ. Cần bộ chuyển đổi từ SXM sang PCIe, kèm hai đầu nối 8-pin và ba đầu cắm quạt 4-pin. Tản nhiệt cũng là thách thức, vì Tesla thiết kế cho trung tâm dữ liệu, hoạt động thụ động với bộ tản nhiệt lớn. Người thử nghiệm đã tự chế ống dẫn khí in 3D và dùng quạt Noctua thổi trực tiếp vào tản nhiệt.

Tổng chi phí cho GPU cùng các phụ kiện bổ sung hơn 200 USD (~5,2 triệu đồng), vẫn rẻ hơn nhiều so với các mẫu so sánh như RTX 3060 12 GB và RX 7800 XT 16 GB. Trong thử nghiệm LLM đầu tiên với GPT-oss 20 tỷ tham số, NVIDIA V100 tạo được khoảng 130 token/giây, trong khi RX 7800 XT chỉ đạt khoảng 90 token/giây.

So với NVIDIA GeForce RTX 3060 12 GB (~5 năm tuổi), NVIDIA V100 nhanh hơn 42% trong Gemma4:e4b (ollama openwebui) về tốc độ tạo token. Đáng chú ý, hiệu quả năng lượng của GPU 8 năm tuổi này vẫn vượt trội 12% so với GPU Ampere mới hơn, dù tiêu thụ điện năng cao hơn. Khi thử nghiệm giới hạn công suất 100W, V100 tiếp tục dẫn đầu với hiệu quả năng lượng cao hơn 41% về token/giây/watt.
Kết quả cho thấy các GPU cũ vẫn sử dụng được cho LLM AI, mang lại giá trị và hiệu quả tốt, nhưng đòi hỏi điều chỉnh bổ sung không phải ai cũng thực hiện được. Phiên bản 32 GB có giá khoảng 400 - 500 USD (~10,5 - 13 triệu đồng), dung lượng bộ nhớ lớn hơn hỗ trợ tốt cho các LLM AI khủng hơn. Kênh công nghệ này dự định thực hiện thêm các thử nghiệm trong tương lai.
