Trung Quốc đang dần khẳng định vị thế vững chắc trong lĩnh vực trí tuệ nhân tạo (AI), và DeepSeek nổi lên như một trong những cái tên đáng chú ý nhất hiện nay.
Trong một thị trường AI đang bị chi phối bởi các tên tuổi lớn như OpenAI, Google DeepMind, và Anthropic, sự xuất hiện của DeepSeek – một công ty AI mới từ Trung Quốc – đã làm cả ngành công nghệ phải sửng sốt. Chỉ trong chưa đầy một năm kể từ khi thành lập, DeepSeek đã phát triển những mô hình AI tiên tiến có khả năng cạnh tranh trực tiếp với các sản phẩm hàng đầu thế giới, nhưng với chi phí và nguồn lực thấp hơn nhiều. Điều này không chỉ khiến giới nghiên cứu AI phải kinh ngạc mà còn tạo ra những lo ngại lớn trong giới đầu tư công nghệ, thậm chí ảnh hưởng đến vốn hóa thị trường của những gã khổng lồ như NVIDIA. Vậy DeepSeek đã làm như thế nào và tác động của nó đến ngành công nghiệp AI toàn cầu là gì?

Ra đời vào năm 2023, DeepSeek đã nhanh chóng thu hút sự chú ý của cộng đồng công nghệ khi liên tục ra mắt các mô hình AI mạnh mẽ. Vào tháng 12/2023, công ty này công bố DeepSeek V3, một mô hình ngôn ngữ lớn (LLM) có khả năng xử lý văn bản ngang tầm với GPT-4 của OpenAI hay Claude của Anthropic. Điều đặc biệt ở DeepSeek V3 không chỉ là hiệu suất mà còn ở phương thức huấn luyện. Trong khi OpenAI tiêu tốn hơn 100 triệu USD để đào tạo GPT-4, DeepSeek chỉ mất khoảng 5,58 triệu USD để phát triển V3. Sự khác biệt này đến từ cách tiếp cận sáng tạo và tiết kiệm của DeepSeek, giúp họ đạt được kết quả ấn tượng mặc dù nguồn lực có hạn.
Không chỉ tiết kiệm chi phí, DeepSeek còn tối ưu hóa quy trình huấn luyện bằng cách sử dụng ít GPU hơn rất nhiều so với các đối thủ. Cụ thể, DeepSeek V3 được huấn luyện với khoảng 2.000 GPU H800 do NVIDIA sản xuất, trong khi các công ty khác có thể cần tới 16.000 GPU H100 – phiên bản mạnh hơn. Dù vậy, chất lượng đầu ra của V3 vẫn đạt mức tương đương với các mô hình AI hàng đầu của Mỹ, chứng minh rằng DeepSeek không chỉ dựa vào phần cứng mà còn có những cải tiến đột phá trong thuật toán và phương pháp huấn luyện.

Không dừng lại ở đó, vào ngày 20/1/2024, DeepSeek tiếp tục gây chấn động khi ra mắt một mô hình mới mang tên R1, được thiết kế đặc biệt để xử lý các nhiệm vụ đòi hỏi tư duy logic và giải quyết vấn đề theo từng bước. Đây là một bước tiến quan trọng trong AI, vì các mô hình truyền thống thường chỉ đưa ra câu trả lời dựa trên xác suất thống kê, thay vì suy luận như con người. Nhờ vào kỹ thuật học tăng cường (reinforcement learning), R1 có thể giải quyết các bài toán phức tạp tốt hơn nhiều so với các mô hình LLM thông thường, đưa DeepSeek vào vị thế cạnh tranh trực tiếp với GPT-4 Turbo (hay còn gọi là o1) của OpenAI.
Chỉ một tuần sau, vào ngày 28/1/2024, DeepSeek tiếp tục thu hút sự chú ý khi ra mắt một mô hình AI mới có khả năng xử lý cả văn bản và hình ảnh. Điều này đưa DeepSeek vào cuộc đua với các hệ thống AI đa phương thức (multimodal AI) tiên tiến như Gemini của Google hay GPT-4 Vision của OpenAI. Sự phát triển nhanh chóng và liên tục của DeepSeek không chỉ khiến giới nghiên cứu hứng thú mà còn khiến các nhà đầu tư nghi ngờ về khả năng cạnh tranh của các công ty AI phương Tây. Tác động của DeepSeek lớn đến mức ngay cả gã khổng lồ phần cứng NVIDIA cũng phải chịu ảnh hưởng nghiêm trọng, với giá trị vốn hóa thị trường giảm mạnh 600 tỷ USD khi các nhà đầu tư lo ngại về một cuộc cạnh tranh AI mới đang bùng nổ từ Trung Quốc.

Vậy đâu là bí quyết giúp DeepSeek tạo ra những mô hình AI mạnh mẽ mà lại tiết kiệm chi phí hơn so với các công ty khác? Câu trả lời nằm ở cách tiếp cận thông minh và hiệu quả mà công ty này áp dụng trong quá trình phát triển. Một trong những cải tiến nổi bật mà DeepSeek đưa vào mô hình của mình là kỹ thuật “kích hoạt thưa thớt” (Sparse Activation). Trong một mô hình AI, có hàng trăm tỷ tham số quyết định cách phản hồi với từng câu hỏi, nhưng không phải tất cả các tham số này đều được kích hoạt mỗi khi có yêu cầu. Thông thường, việc xác định tham số cần kích hoạt rất tốn tài nguyên, nhưng DeepSeek đã tìm ra cách dự đoán trước tham số cần thiết và chỉ kích hoạt chúng, tiết kiệm đáng kể sức mạnh tính toán.
Bên cạnh đó, DeepSeek còn có một cách tiếp cận hoàn toàn mới về vấn đề lưu trữ và truy xuất thông tin trong bộ nhớ máy tính. Họ đã phát triển một phương pháp tối ưu hóa cho phép nén dữ liệu hiệu quả hơn, giúp mô hình truy xuất thông tin nhanh hơn mà không cần phần cứng quá mạnh. Nhờ những kỹ thuật này, DeepSeek có thể đạt hiệu suất ngang với các mô hình AI hàng đầu, nhưng với chi phí và tài nguyên tiết kiệm hơn rất nhiều.

Thành công của DeepSeek không chỉ tạo ra thách thức cho các công ty AI phương Tây mà còn mở ra cơ hội mới cho cộng đồng nghiên cứu AI toàn cầu. Điều đặc biệt là DeepSeek đã phát hành các mô hình và thuật toán của mình theo Giấy phép MIT miễn phí, có nghĩa là ai cũng có thể tải về, nghiên cứu và chỉnh sửa. Đây là tín hiệu tích cực cho giới học thuật, đặc biệt là các nhà nghiên cứu không có đủ tài nguyên để truy cập vào các mô hình AI đắt đỏ như GPT-4 hay Claude . Với những cải tiến trong tối ưu hóa sức mạnh tính toán, DeepSeek đang giúp AI trở nên dễ tiếp cận hơn, cho phép những cá nhân và tổ chức nhỏ cũng có thể tham gia cuộc chơi, thay vì chỉ những công ty công nghệ lớn sở hữu AI.
Sự phổ biến của DeepSeek cũng có thể dẫn đến một sự thay đổi lớn trong cách AI được triển khai và sử dụng. Nếu các mô hình AI ngày càng hiệu quả về tài nguyên, người dùng có thể chạy chúng ngay trên thiết bị cá nhân như laptop hoặc điện thoại, thay vì phải dựa vào các dịch vụ đám mây tốn kém. Điều này có thể khiến các công ty AI phải điều chỉnh lại mô hình kinh doanh của mình, bởi nếu người dùng có thể tiếp cận AI miễn phí mà không cần đăng ký dịch vụ, các công ty theo mô hình “AI-as-a-service” có thể gặp nhiều khó khăn trong tương lai.

Tuy nhiên, vẫn còn một câu hỏi lớn cần được giải đáp: Liệu cách tiếp cận của DeepSeek có tạo ra những mô hình AI có hiệu suất tổng thể vượt trội, hay chỉ đơn giản là giúp AI hiệu quả hơn về tài nguyên? Nếu câu trả lời là sau, các công ty như OpenAI, Google DeepMind hay Anthropic vẫn có thể giữ vị thế dẫn đầu nhờ việc tiếp tục đầu tư mạnh vào nghiên cứu và phát triển. Nhưng nếu DeepSeek thật sự có thể tạo ra những mô hình vượt trội về chất lượng, thì đây có thể là bước khởi đầu cho một cuộc chuyển giao quyền lực trong ngành công nghiệp AI, khi các ông lớn phương Tây có thể bị thách thức bởi một đối thủ mới từ Trung Quốc.
Dù sao đi nữa, DeepSeek đã chứng minh rằng cuộc đua AI vẫn còn rất nhiều bất ngờ phía trước, và không có gì đảm bảo rằng những tên tuổi dẫn đầu hôm nay sẽ giữ vững vị trí trong tương lai.