Sự hợp tác nhanh chóng và chặt chẽ giữa các công ty công nghệ lớn Trung Quốc như Huawei, Cambricon và Hygon khẳng định quyết tâm thực hiện chủ quyền AI, chính sách ưu tiên của chính phủ Trung Quốc giữa bối cảnh căng thẳng công nghệ với Mỹ đang gia tăng.
DeepSeek, công ty AI hàng đầu của Trung Quốc, đã giới thiệu mô hình ngôn ngữ lớn mới nhất mang tên DeepSeek-V3.2-Exp, được tối ưu ngay từ đầu cho phần cứng Ascend của Huawei và hệ sinh thái phần mềm CANN. Đây là một bước đi mạnh mẽ nhằm giảm bớt sự phụ thuộc vào CUDA của Nvidia, đồng thời thúc đẩy mục tiêu chủ quyền công nghệ mà chính quyền Bắc Kinh đã đặt ra cho ngành AI.
Cắt giảm chi phí suy luận nhờ vào kiến trúc "chú ý thưa thớt"
Mô hình DeepSeek-V3.2-Exp, được công bố vào ngày 29/9 trên nền tảng Hugging Face, bao gồm mã nguồn mở, điểm kiểm tra (checkpoints) và báo cáo kỹ thuật. DeepSeek cho biết đây là “bước trung gian tiến tới kiến trúc thế hệ tiếp theo”, tập trung vào việc giảm chi phí suy luận cho ngữ cảnh dài, một yếu tố quan trọng đối với các ứng dụng chatbot và tổng hợp văn bản quy mô lớn.
Mô hình này tập trung vào cơ chế chú ý thưa thớt (sparse attention), giúp giảm đáng kể nhu cầu về bộ nhớ và tài nguyên tính toán, đồng thời vẫn duy trì được chất lượng đầu ra của mô hình.

Đây là một “bước trung gian tiến tới kiến trúc thế hệ tiếp theo”, nhắm đến việc tối ưu hóa chi phí suy luận trong các ngữ cảnh dài.
Nhanh chóng tích hợp vào hệ sinh thái phần cứng nội địa
Ngay sau khi ra mắt, nhóm Ascend của Huawei và cộng đồng vLLM-Ascend đã ngay lập tức tích hợp DeepSeek-V3.2-Exp. Phiên bản mới trên kho vLLM-Ascend đã công bố các gói kernel và toán tử tùy chỉnh, hỗ trợ hoàn toàn cho mô hình trên các bộ xử lý NPU Ascend của Huawei.
Cambricon, một trong những nhà sản xuất chip AI hàng đầu tại Trung Quốc, đã cập nhật nhánh vLLM-MLU để tương thích với V3.2-Exp, khẳng định rằng sự kết hợp giữa công cụ suy luận của họ và kiến trúc chú ý thưa thớt mang lại hiệu quả tối ưu trong xử lý chuỗi dài. Hygon, một tên tuổi lớn trong ngành bán dẫn Trung Quốc, cũng tuyên bố rằng các bộ tăng tốc DCU của họ đã được tối ưu hóa để hỗ trợ mô hình thông qua ngăn xếp DTK, cho phép triển khai mà không cần phải chờ đợi.

DeepSeek vẫn duy trì tính tương thích với CUDA, cho phép mô hình hoạt động hiệu quả trên cả GPU Nvidia và bộ tăng tốc nội địa với chỉ một vài điều chỉnh nhỏ.
Hướng tới khả năng tương thích đa nền tảng
Bên cạnh các phần cứng nội địa, nền tảng SGLang xác nhận hỗ trợ V3.2-Exp trên nhiều backend, bao gồm cả Ascend. Các ghi chú từ GitHub của DeepSeek cho thấy kiến trúc mô hình này có độ tương thích cao với vLLM, đồng thời khuyến khích các nhà nghiên cứu sử dụng TileLang để xây dựng và triển khai mô hình.
Đặc biệt, DeepSeek vẫn duy trì tính tương thích với CUDA, cho phép cùng một mô hình hoạt động mượt mà trên cả GPU Nvidia và các bộ tăng tốc nội địa với chỉ một vài điều chỉnh nhỏ, tạo điều kiện cho việc mở rộng triển khai mà không bị phụ thuộc vào một nền tảng duy nhất.
Chủ quyền công nghệ: từ lời nói đến hành động
Sự hợp tác nhanh chóng và chặt chẽ giữa các công ty Trung Quốc như Huawei, Cambricon và Hygon đã minh chứng cho quyết tâm thực hiện chủ quyền AI, một chính sách trọng tâm của chính phủ Trung Quốc trong bối cảnh căng thẳng công nghệ với Mỹ ngày càng gia tăng.
Dù CUDA của Nvidia vẫn chiếm ưu thế tuyệt đối trong lĩnh vực huấn luyện và suy luận AI, DeepSeek-V3.2-Exp là một trong những mô hình đầu tiên của Trung Quốc được thiết kế để hoạt động trên các nền tảng không-CUDA ngay từ khi ra mắt, đánh dấu bước chuyển mình rõ rệt của hệ sinh thái AI nội địa trong việc đạt được sự tự chủ công nghệ toàn diện.
