Mặc dù chi phí thực sự của DeepSeek không phải là 6 triệu USD như đã hiểu nhầm, con số này vẫn thấp hơn rất nhiều so với các công ty công nghệ hàng đầu ở Mỹ.
Khi AI DeepSeek R1 ra mắt và thu hút sự chú ý từ cộng đồng công nghệ, một con số khiến các chuyên gia ngạc nhiên: DeepSeek R1 được phát triển với chi phí chỉ 5,6 triệu USD. Nhiều người nghĩ rằng đây là chứng minh cho khả năng Trung Quốc phát triển mô hình AI tiên tiến với chi phí cực thấp, đặc biệt khi so với những khoản đầu tư hàng tỷ USD mà các công ty phương Tây như OpenAI và Google đã chi cho các mô hình của mình.
Tuy nhiên, con số này có vẻ chỉ là một sự hiểu lầm. Trên thực tế, tài liệu của DeepSeek cũng đã chỉ ra rằng 5,6 triệu USD chỉ là chi phí huấn luyện mô hình V3 của họ tính theo số giờ sử dụng GPU NVIDIA H800 – không phải là tổng chi phí để xây dựng và phát triển toàn bộ mô hình AI của công ty này.

5,6 triệu USD chỉ là chi phí huấn luyện mô hình trên các GPU NVIDIA H800
Để huấn luyện một mô hình AI quy mô lớn như R1, công ty phải sử dụng nguồn tài nguyên tính toán khổng lồ, bao gồm hàng chục nghìn GPU mạnh mẽ, trung tâm dữ liệu, và đội ngũ nghiên cứu lên tới hàng trăm người. Nếu tính cả toàn bộ hệ thống phần cứng mà DeepSeek đang vận hành, chi phí thực sự bỏ ra để phát triển R1 chắc chắn vượt xa con số này.
Chi phí thực tế để phát triển DeepSeek là bao nhiêu?
DeepSeek tuyên bố rằng mô hình V3 của họ đã được huấn luyện trên 2048 GPU NVIDIA H800 – phiên bản GPU AI được thiết kế riêng cho thị trường Trung Quốc với hiệu suất thấp hơn. Tuy nhiên, với giá bán lẻ khoảng 32.000 USD mỗi GPU H800 (thậm chí có thể cao hơn do nguồn cung khan hiếm), chi phí để sở hữu cụm GPU này vượt quá 70 triệu USD, chưa tính các chi phí cài đặt khác. Nếu huấn luyện trên nền tảng đám mây, chi phí có thể giảm chỉ còn 5,6 triệu USD như thông báo từ DeepSeek. Tuy nhiên, vẫn còn nhiều khoản chi phí khác chưa được đề cập.
Trước tháng 11 năm 2024, một số bài viết trên mạng xã hội Trung Quốc tiết lộ rằng công ty sở hữu số lượng GPU AI lớn nhất Trung Quốc không phải là công ty công nghệ mà là một quỹ đầu tư định lượng khổng lồ mang tên High-Flyer. Quỹ này có chung nhà sáng lập với DeepSeek, Liang Wenfeng, và được cho là nguồn lực tài chính hỗ trợ mạnh mẽ cho DeepSeek ngay từ đầu.

Liang Wenfeng, nhà sáng lập DeepSeek, cũng là người sáng lập quỹ định lượng High-Flyer nổi tiếng
Theo nguồn tin từ ZhiShiTang, Liang Wenfeng đã đầu tư vào nhiều startup AI trong suốt những năm qua. Một trong những dự án của ông là thuê 2.000 m2 đất tại một vị trí đắc địa ở Bắc Kinh để phát triển cơ sở nghiên cứu khoa học.
Trước khi lệnh cấm xuất khẩu chip AI đối với Trung Quốc được áp dụng, quỹ High-Flyer sở hữu khoảng 1.100 GPU NVIDIA A100 với tổng chi phí lên đến 28 triệu USD. Sau đó, theo thông tin từ website công ty và các bài đăng trên WeChat, một cụm siêu máy tính AI thứ hai đã được xây dựng với khoảng 10.000 GPU NVIDIA A100 trị giá khoảng 140 triệu USD.
Việc quỹ High-Flyer sở hữu số lượng lớn GPU AI không có gì đáng ngạc nhiên. Ban đầu, quỹ này chuyên sử dụng trí tuệ nhân tạo để tối ưu hóa chiến lược giao dịch tài chính, nhưng sau đó đã chuyển hướng mạnh mẽ sang đầu tư vào AI tổng quát (AGI), với mục tiêu phát triển một hệ thống AI tiên tiến có thể cạnh tranh với các tập đoàn công nghệ hàng đầu thế giới.

Dù chưa rõ quỹ này đã đầu tư bao nhiêu vào DeepSeek, hay số lượng GPU AI mà startup này sử dụng để phát triển mô hình AI của mình, nhưng chắc chắn con số không hề nhỏ. Cho đến nay, DeepSeek chỉ công bố việc sử dụng các chip H800 và H20 của NVIDIA, có hiệu suất thấp hơn nhiều so với các đối thủ phương Tây, để huấn luyện mô hình DeepSeek-V3 và phiên bản trước đó, DeepSeek-V2, với chi phí thấp hơn nhiều.
Dù vậy, những khoản đầu tư ban đầu kể trên cho thấy thật khó để nói rằng DeepSeek có thể phát triển các mô hình AI của mình chỉ với một khoản đầu tư nhỏ – chỉ vài triệu USD.
Điều thú vị là trong những ngày gần đây, chi phí thấp này đang trở thành chủ đề để cộng đồng mạng chỉ trích một phát biểu khác của CEO OpenAI, Sam Altman, vào năm 2023, khi ông cho rằng các startup AI với ngân sách dưới 10 triệu USD là "hoàn toàn vô vọng" nếu muốn cạnh tranh với các gã khổng lồ công nghệ. Có vẻ như phát biểu này của ông Altman vẫn đúng.

CEO OpenAI, Sam Altman
Dù vậy, không thể phủ nhận bước tiến vượt bậc trong việc tối ưu chi phí mà DeepSeek đã mang lại cho ngành công nghiệp AI toàn cầu.
Trong khi các công ty công nghệ phương Tây như OpenAI, Google hay Meta chi hàng tỷ USD để phát triển AI, DeepSeek đã tận dụng lợi thế của mình bằng cách tối ưu hóa thuật toán để huấn luyện mô hình trên các GPU cũ hơn nhưng vẫn hiệu quả. Trong khi OpenAI sử dụng GPU H100 – dòng chip AI mạnh mẽ nhất hiện nay, DeepSeek chủ yếu sử dụng GPU A100, vốn bị Mỹ cấm xuất khẩu sang Trung Quốc từ năm 2022.
Tuy vậy, vẫn còn nhiều câu hỏi chưa được giải đáp về khả năng mở rộng của DeepSeek R1 trong tương lai dài hạn. Trong khi OpenAI và Google không ngừng cải tiến các mô hình AI với những đột phá mới, DeepSeek vẫn phải đối mặt với các hạn chế về phần cứng do các lệnh cấm vận từ Mỹ. Bên cạnh đó, sự kiểm duyệt nội dung tại Trung Quốc có thể khiến mô hình này không thể cạnh tranh về tự do ngôn luận và xử lý thông tin nhạy cảm so với các đối thủ phương Tây.
Tuy nhiên, không thể phủ nhận rằng DeepSeek đã tạo ra một dấu mốc quan trọng trong ngành công nghiệp AI. Nếu các công ty khác có thể học hỏi từ phương pháp này, rất có thể chúng ta sẽ chứng kiến một thay đổi lớn trong cách AI được phát triển và thương mại hóa trên toàn cầu. Trong tương lai, AI có thể không còn là sân chơi độc quyền của các tập đoàn công nghệ lớn, mà sẽ là cơ hội cho những công ty biết cách tối ưu hóa chi phí và tài nguyên một cách thông minh.
Nguyễn Hải
