DeepSeek tối ưu hóa AI theo cách đầy bất ngờ: Bỏ qua các tiêu chuẩn lập trình phổ biến trong ngành, họ áp dụng 'bí quyết' mang tên PTX từ Nvidia

Buzz

Ngày cập nhật gần nhất: 15/7/2026

Nội dung bài viết

Đột phá này đã gây ra những biến động lớn trên thị trường, khi nhiều nhà đầu tư cho rằng nhu cầu về phần cứng hiệu suất cao cho các mô hình AI mới sẽ giảm, điều này có thể tác động tiêu cực đến doanh thu của các tập đoàn như Nvidia

Xem thêm

Đột phá này đã gây ra những biến động lớn trên thị trường, khi nhiều nhà đầu tư cho rằng nhu cầu về phần cứng hiệu suất cao cho các mô hình AI mới sẽ giảm, điều này có thể tác động tiêu cực đến doanh thu của các tập đoàn như Nvidia

DeepSeek đã tạo nên dấu ấn mạnh mẽ trong ngành AI khi huấn luyện mô hình ngôn ngữ Mixture-of-Experts (MoE) với 671 tỷ tham số, sử dụng một cụm máy tính gồm 2.048 GPU Nvidia H800 chỉ trong vòng hai tháng. Đáng chú ý, hiệu suất của họ vượt xa gấp 10 lần so với các đối thủ lớn như Meta. Thành công này đến từ việc áp dụng hàng loạt tối ưu hóa chi tiết và sử dụng chương trình PTX (Parallel Thread Execution) của Nvidia thay vì chuẩn CUDA phổ biến, theo phân tích từ Mirae Asset Securities Korea được trích dẫn bởi @Jukanlosreve.

PTX - Bí mật công nghệ của DeepSeek

PTX là một kiến trúc bộ chỉ thị trung gian do Nvidia thiết kế cho các GPU của họ. Nó đóng vai trò như một cầu nối giữa các ngôn ngữ lập trình GPU cấp cao (như CUDA C/C++ hoặc các ngôn ngữ tương tự) và mã máy cấp thấp (streaming assembly, hay SASS). PTX được tối ưu hóa cho tính toán song song dữ liệu, cho phép thực hiện các tối ưu hóa chi tiết như phân bổ thanh ghi và điều chỉnh mức thread/warp – những điều mà CUDA (nền tảng và giao diện lập trình ứng dụng tiêu chuẩn của Nvidia, dùng để tăng tốc các tác vụ tính toán phức tạp) và các ngôn ngữ khác không thể đạt được. Khi PTX được chuyển đổi sang SASS, nó được tối ưu hóa cho một thế hệ GPU cụ thể của Nvidia.

Ví dụ, trong quá trình huấn luyện mô hình V3, DeepSeek đã tái cấu hình các GPU H800 của Nvidia: trong số 132 multiprocessors của dòng H800, họ dành 20 cho giao tiếp giữa các server, có thể để nén và giải nén dữ liệu nhằm vượt qua các giới hạn về kết nối của bộ xử lý và tăng tốc các giao dịch. Để tối đa hóa hiệu suất, DeepSeek cũng áp dụng các thuật toán pipeline tiên tiến, có thể thông qua việc điều chỉnh chi tiết ở cấp độ thread/warp.

Những thay đổi này vượt xa mức độ phát triển tiêu chuẩn của CUDA, nhưng chúng cực kỳ khó duy trì. Việc thực hiện mức độ tối ưu hóa này phản ánh kỹ năng xuất sắc của các kỹ sư tại DeepSeek. Cuộc khủng hoảng thiếu hụt GPU toàn cầu, cùng với các hạn chế xuất khẩu từ Mỹ, đã buộc các công ty như DeepSeek phải tìm kiếm giải pháp sáng tạo, và họ đã đạt được bước đột phá lớn. Tuy nhiên, vẫn chưa rõ DeepSeek đã đầu tư bao nhiêu tiền để đạt được kết quả này.

Đột phá này đã gây ra những biến động đáng kể trên thị trường, khi nhiều nhà đầu tư dự đoán rằng nhu cầu về phần cứng hiệu suất cao dành cho các mô hình AI mới sẽ giảm mạnh, điều này có thể tác động tiêu cực đến doanh thu của các công ty như Nvidia. Những chuyên gia dày dạn kinh nghiệm trong ngành, như Pat Gelsinger – cựu CEO của Intel, nhận định rằng các ứng dụng AI có thể khai thác tối đa sức mạnh tính toán mà chúng có thể tiếp cận. Về bước tiến của DeepSeek, Gelsinger cho rằng đây là một phương pháp giúp AI có thể được tích hợp vào nhiều thiết bị giá rẻ, phục vụ thị trường đại chúng.

Nội dung từ Mytour nhằm chăm sóc khách hàng và khuyến khích du lịch, chúng tôi không chịu trách nhiệm và không áp dụng cho mục đích khác.

Nếu bài viết sai sót hoặc không phù hợp, vui lòng liên hệ qua Zalo: 0978812412 hoặc Email: [email protected]