Mô hình AI mới của DeepSeek, với giấy phép miễn phí cho các mục đích thương mại, được đánh giá là 'cơn ác mộng thực sự' đối với OpenAI.
Trong một bước đi đầy bất ngờ, công ty khởi nghiệp AI DeepSeek đến từ Trung Quốc đã âm thầm phát hành mô hình ngôn ngữ lớn mang tên DeepSeek-V3-0324 trên nền tảng Hugging Face.
Mô hình 641Gb này đang gây xôn xao trong cộng đồng trí tuệ nhân tạo không chỉ bởi những khả năng ấn tượng mà còn bởi cách thức triển khai bí mật, đúng như phong cách 'âm thầm nhưng tác động mạnh mẽ' của DeepSeek.

Điểm đáng chú ý nhất trong lần ra mắt này là mô hình được phát hành dưới giấy phép MIT, cho phép sử dụng miễn phí cho mục đích thương mại. Điều đặc biệt là DeepSeek-V3-0324 có thể chạy trực tiếp trên phần cứng tiêu dùng cao cấp như Mac Studio với chip M3 Ultra, theo những báo cáo ban đầu.
Nhà nghiên cứu AI Awni Hannun cho biết, "DeepSeek-V3-0324 phiên bản 4-bit có thể chạy với tốc độ hơn 20 token/giây trên M3 Ultra 512GB với mlx-lm!" Dù Mac Studio với giá 9.499 USD có thể không phải là phần cứng tiêu dùng thông thường, nhưng khả năng chạy một mô hình AI khổng lồ cục bộ trên nó là một cột mốc quan trọng, khác biệt với yêu cầu trung tâm dữ liệu truyền thống của AI tiên tiến.

DeepSeek V3 có thể hoạt động offline trên Mac Studio, đạt tốc độ 20 token/giây.
Về mặt công nghệ, DeepSeek đã đạt được nhiều bước tiến quan trọng với mô hình mới này. Thay vì áp dụng phương pháp truyền thống, DeepSeek-V3-0324 sử dụng kiến trúc 'mixture-of-experts' (MoE) độc đáo, định hình lại cách thức hoạt động của các mô hình ngôn ngữ lớn.
Khác với các mô hình AI thông thường kích hoạt toàn bộ tham số cho mọi tác vụ, DeepSeek chỉ kích hoạt khoảng 37 tỷ trong tổng số 685 tỷ tham số cho từng nhiệm vụ cụ thể. Phương pháp chọn lọc này mang lại một bước đột phá về hiệu suất, giúp đạt kết quả tương đương các mô hình lớn hơn nhưng yêu cầu tính toán thấp hơn.
Không chỉ dừng lại ở đó, mô hình này còn tích hợp thêm hai công nghệ đột phá: Multi-Head Latent Attention (MLA) và Multi-Token Prediction (MTP). MLA giúp mô hình duy trì ngữ cảnh tốt hơn trong các văn bản dài, mang đến khả năng hiểu sâu sắc hơn về nội dung được xử lý.
Bên cạnh đó, MTP cho phép mô hình tạo ra nhiều token trong một bước thay vì thực hiện từng token một như các phương pháp truyền thống. Sự kết hợp của các cải tiến này đã giúp tăng tốc độ đầu ra lên tới gần 80%, mang lại hiệu suất ấn tượng ngay cả khi sử dụng phần cứng tiêu dùng.

Các bài kiểm tra cho thấy khả năng xử lý của DeepSeek V3 khi so với các đối thủ khác.
Nhờ những cải tiến này, DeepSeek-V3-0324 đang ngày càng được coi là 'cơn ác mộng' đối với OpenAI vì nhiều lý do. Đầu tiên, mô hình này trực tiếp thách thức mô hình kinh doanh độc quyền của OpenAI.
Trong khi OpenAI giữ các mô hình của mình sau một bức tường trả phí, DeepSeek lại cung cấp công nghệ tương đương hoàn toàn miễn phí dưới giấy phép nguồn mở. Hơn nữa, khả năng chạy trên phần cứng tiêu dùng cao cấp cũng đe dọa mô hình dịch vụ đám mây của OpenAI. Nếu người dùng có thể chạy AI tiên tiến ngay trên máy tính của mình, nhu cầu đối với các API trả phí sẽ giảm đáng kể.
Điều đáng chú ý là thời điểm và các đặc điểm của DeepSeek-V3-0324 cho thấy rõ ràng rằng nó sẽ là nền tảng cho DeepSeek-R2, một mô hình lập luận cải tiến dự kiến sẽ ra mắt trong vòng hai tháng tới. Đây là cách tiếp cận quen thuộc của DeepSeek, nơi các mô hình cơ sở luôn được phát hành trước các mô hình lập luận chuyên sâu vài tuần.
Nếu DeepSeek-R2 đi theo quỹ đạo của R1, nó sẽ có khả năng đối đầu trực tiếp với GPT-5, mô hình tiếp theo của OpenAI, dự kiến sẽ được phát hành trong vài tháng tới. Sự khác biệt giữa chiến lược đóng kín và được tài trợ mạnh mẽ của OpenAI và chiến lược mở, hiệu quả tài nguyên của DeepSeek đại diện cho hai tầm nhìn hoàn toàn khác nhau về tương lai của AI.
Điều quan trọng nhất là cách tiếp cận của DeepSeek đối với phát triển và phân phối AI không chỉ là một thành tựu kỹ thuật mà còn phản ánh một tầm nhìn khác biệt về cách mà công nghệ tiên tiến nên được lan truyền trong xã hội. Việc cung cấp AI tiên tiến miễn phí theo giấy phép mở, DeepSeek đang thúc đẩy sự đổi mới nhanh chóng mà các mô hình đóng không thể nào có được.

Khoảng cách AI giữa Mỹ và Trung Quốc đã giảm đi đáng kể.
Chiến lược này đang nhanh chóng thu hẹp khoảng cách về AI giữa Trung Quốc và Mỹ. Chỉ vài tháng trước, các nhà phân tích ước tính Trung Quốc chậm hơn Mỹ khoảng 1-2 năm về AI, nhưng hiện tại khoảng cách đó đã rút ngắn chỉ còn khoảng 3-6 tháng, với một số lĩnh vực thậm chí đang đạt mức tương đương hoặc vượt lên dẫn trước.
Điều này gợi nhớ đến sự ảnh hưởng của Android đối với hệ sinh thái di động vài năm trước. Quyết định của Google phát hành Android miễn phí đã tạo ra một nền tảng cuối cùng chiếm lĩnh thị trường toàn cầu. Tương tự, các mô hình AI mở như DeepSeek-V3-0324 có thể sẽ thành công trong việc cạnh tranh với các hệ thống đóng nhờ vào sự phổ biến và sức mạnh đổi mới tập thể từ hàng nghìn lập trình viên toàn cầu.
Khi DeepSeek-V3-0324 bắt đầu xuất hiện trong các phòng thí nghiệm nghiên cứu và máy trạm của các nhà phát triển trên toàn thế giới, cuộc cạnh tranh không còn đơn giản là ai xây dựng được AI mạnh mẽ nhất mà chuyển sang ai có thể trao quyền cho nhiều người nhất để họ có thể sáng tạo với AI. Trong bối cảnh này, việc DeepSeek phát hành công nghệ của mình một cách lặng lẽ nhưng đầy ấn tượng nói lên rất nhiều điều về tương lai của trí tuệ nhân tạo. Có lẽ, công ty nào chia sẻ công nghệ của mình một cách tự do nhất cuối cùng sẽ nắm giữ ảnh hưởng lớn nhất trong việc định hình lại thế giới của chúng ta trong những năm tới.
