DeepSeek hiện sở hữu một lượng GPU đáng kể, vượt qua những gì công chúng hình dung, mặc dù họ không thể công khai điều này vì các lệnh kiểm soát xuất khẩu của Mỹ.
Phòng thí nghiệm AI DeepSeek ở Trung Quốc đã trở thành cái tên được nhắc đến trên toàn cầu khi mô hình AI R1 của họ được đánh giá ngang ngửa, thậm chí vượt qua các nền tảng của Mỹ như o1 của OpenAI và Llama của Meta. Alexandr Wang, CEO của Scale AI, cho biết DeepSeek hiện đang sở hữu một số lượng lớn GPU NVIDIA, dùng để huấn luyện mô hình AI tiên tiến này.
Sở hữu hàng chục nghìn GPU NVIDIA, DeepSeek tạo dựng sức mạnh
Trong một cuộc trò chuyện với CNBC, Alexandr Wang đã chia sẻ về "Humanity's Last Exam" – bài kiểm tra AI được cho là khó nhất thế giới với các câu hỏi từ những chuyên gia trong các lĩnh vực như toán học, vật lý, hóa học và sinh học. Kết quả cho thấy DeepSeek R1 là một mô hình AI dẫn đầu, ngang ngửa hoặc vượt qua các mô hình hàng đầu của Mỹ.

Wang nhận xét rằng dù Mỹ từ lâu đã là ông lớn trong lĩnh vực trí tuệ nhân tạo, sự xuất hiện của R1 từ Trung Quốc đã tạo ra sự thay đổi lớn. Ông còn chỉ ra rằng việc DeepSeek ra mắt mô hình này vào dịp Giáng sinh mang ý nghĩa đặc biệt, khi mà các quốc gia phương Tây đang trong kỳ nghỉ lễ.
Một yếu tố quan trọng giúp DeepSeek đạt được hiệu suất vượt trội là việc sở hữu một lượng GPU NVIDIA khổng lồ. Alexandr Wang tiết lộ rằng DeepSeek hiện có khoảng 50.000 GPU NVIDIA H100 – một con số ấn tượng, đặc biệt khi Mỹ đã thực hiện lệnh cấm xuất khẩu các dòng GPU cao cấp như H100 và H200 sang Trung Quốc từ năm 2022.
Trước đây, NVIDIA đã phát triển các phiên bản thay thế như H800 và A800 để đáp ứng quy định xuất khẩu, tuy nhiên những phiên bản này cũng bị cấm vào năm 2023. Dù vậy, DeepSeek vẫn sở hữu một số lượng GPU vượt xa tưởng tượng của công chúng, mặc dù họ không thể công khai do các lệnh kiểm soát xuất khẩu từ Mỹ.
Mặc dù sở hữu một kho GPU ấn tượng, Wang cho rằng việc Trung Quốc tiếp cận các GPU tiên tiến sẽ ngày càng trở nên khó khăn hơn do các lệnh cấm xuất khẩu hiện tại và trong tương lai. Điều này sẽ đặt ra các hạn chế lớn đối với khả năng mở rộng sức mạnh tính toán của các phòng thí nghiệm AI Trung Quốc.
Tuy nhiên, với những gì DeepSeek đã đạt được, họ rõ ràng đang trở thành một đối thủ đáng gờm, đủ sức cạnh tranh với các công ty công nghệ hàng đầu ở Mỹ. Việc sử dụng và sở hữu GPU NVIDIA một cách hiệu quả đang giúp Trung Quốc khẳng định vị thế trong cuộc đua AI toàn cầu.
Hiện tại, DeepSeek không chỉ dừng lại ở mô hình R1 mà còn phát triển thêm các mô hình khác như DeepSeek-V3 và mới nhất là DeepSeek-R1, ra mắt vào ngày 20/1. DeepSeek-V3 sở hữu 175 tỷ tham số và được huấn luyện trên 570GB dữ liệu văn bản từ nhiều nguồn như sách, bài báo, và Wikipedia. Đáng chú ý, DeepSeek-V3 chỉ cần 2.000 GPU NVIDIA để xử lý dữ liệu đào tạo, trong khi cần đến 10.000 GPU. Điều này chứng minh khả năng tối ưu hóa thuật toán xuất sắc của DeepSeek, đặc biệt khi các lệnh cấm xuất khẩu chip AI từ Mỹ gây ra không ít thách thức.
DeepSeek-R1 tiếp tục nâng tầm với phương pháp "chain of thought" (chuỗi suy nghĩ), cho phép mô hình tự quay lại và đánh giá logic của chính mình. Phương pháp này giúp R1 giải quyết các bài toán phức tạp với độ chính xác cao hơn, thậm chí vượt qua các mô hình hàng đầu như GPT- của OpenAI và Claude Sonnet của Anthropic.
