Những khó khăn về chip và công nghệ đã tạo ra một môi trường giúp các công ty Trung Quốc tận dụng tối đa những tài nguyên sẵn có.
Khởi đầu từ một phòng thí nghiệm nghiên cứu AI không mấy được biết đến tại Trung Quốc, được hỗ trợ bởi quỹ đầu tư tư nhân, DeepSeek đã trở thành cái tên gây chú ý toàn cầu và tạo nên cú sốc tại thung lũng Silicon.
DeepSeek dường như đã vượt qua các công ty như OpenAI, Google và Meta trong cuộc đua AI đầy thử thách. Mô hình lý luận mã nguồn mở mới của phòng thí nghiệm này, DeepSeek R1, được cho là ưu việt hơn các mô hình AI hàng đầu hiện nay trong các bài toán toán học và lý luận.
Vào ngày 27/1, trợ lý AI của phòng thí nghiệm Trung Quốc đã vượt qua để trở thành ứng dụng miễn phí được đánh giá cao nhất trên App Store tại Mỹ.
Các mô hình AI của DeepSeek không chỉ khiến các ông lớn AI phương Tây lo ngại mà còn khiến nhiều người lo rằng Mỹ có thể sẽ gặp khó khăn trong việc duy trì vị trí dẫn đầu về AI trong cuộc 'chiến tranh lạnh' công nghệ với Trung Quốc.
Theo báo cáo của Reuters, thành công của DeepSeek đã làm lung lay niềm tin rộng rãi rằng việc đổ hàng tỷ USD vào chip sẽ đảm bảo vị trí dẫn đầu, khiến cổ phiếu công nghệ giảm mạnh.

Liang Wenfeng là người sáng lập của DeepSeek.
Sự khởi đầu và chuyển hướng
Vào năm 2013, doanh nhân người Trung Quốc Liang Wenfeng sáng lập quỹ đầu tư High-Flyer. Để phục vụ cho việc phân tích dữ liệu tài chính và hỗ trợ các hoạt động phức tạp trong quỹ, High-Flyer đã thành lập một bộ phận nghiên cứu học sâu mang tên Fire-Flyer và bắt đầu tích lũy các Đơn vị xử lý đồ họa (GPU) để xây dựng một siêu máy tính.
Năm 2023, Liang quyết định điều chỉnh nguồn lực của quỹ vào một công ty mới mang tên DeepSeek với sứ mệnh phát triển các mô hình AI cơ bản và hướng tới mục tiêu lâu dài là khám phá trí tuệ nhân tạo tổng quát (AGI).
Thay vì tuyển dụng những kỹ sư có kinh nghiệm xây dựng các sản phẩm AI dành cho người tiêu dùng, Liang đã chọn cách tuyển dụng những nghiên cứu sinh tiến sỹ từ các trường đại học hàng đầu của Trung Quốc để gia nhập nhóm nghiên cứu của mình.
Cách tiếp cận của Liang trong việc xây dựng đội ngũ tập trung vào nghiên cứu đã được cho là yếu tố quan trọng góp phần vào sự thành công của DeepSeek. "Cả nhóm đều chia sẻ một văn hóa hợp tác mạnh mẽ và cống hiến cho nghiên cứu sâu sắc," Zihan Wang, cựu nhân viên của DeepSeek, cho biết trong một bài phỏng vấn với MIT Technology Review.

DeepSeek có mặt trên cả web và App Store của Apple.
DeepSeek có gì đặc biệt?
Dù đã đạt được nhiều thành tựu lớn chỉ trong một thời gian ngắn, DeepSeek được cho là chỉ tập trung vào nghiên cứu AI và không có kế hoạch ngay lập tức đưa các mô hình AI vào thị trường thương mại.
"Tôi vẫn chưa tìm ra lý do thương mại (để thành lập DeepSeek), ngay cả khi bạn hỏi. Nghiên cứu khoa học cơ bản có tỷ lệ sinh lời rất thấp. Khi những nhà đầu tư ban đầu của OpenAI đầu tư, họ chắc chắn không mong đợi sẽ thu lại được tiền. Thay vào đó, họ thực sự muốn tham gia vào điều này," Liang chia sẻ với 36Kr.
DeepSeek không nhận nguồn tài trợ từ các gã khổng lồ công nghệ như Baidu, Alibaba hay ByteDance. Công ty chỉ nhận sự hỗ trợ từ High-Flyer. Theo thông tin từ Forbes, DeepSeek có một quan hệ đối tác với AMD, nhà sản xuất chip. AMD cung cấp năng lượng cho các mô hình như DeepSeek-V3 bằng GPU AMD Instinct và phần mềm ROCM.
DeepSeek còn là một trong những công ty AI hàng đầu tại Trung Quốc áp dụng nguyên tắc mã nguồn mở.
Mặc dù khái niệm về nguồn mở vẫn còn là một chủ đề gây tranh cãi, các mô hình AI mã nguồn mở có sẵn để mọi người có thể tải xuống, sửa đổi và sử dụng. Việc phát hành các mô hình AI và bộ dữ liệu đào tạo với giấy phép mã nguồn mở có thể thu hút một lượng lớn người dùng và nhà phát triển, từ đó thúc đẩy sự phát triển mạnh mẽ hơn của các mô hình này.
Các mô hình AI mã nguồn mở cũng tiềm ẩn một số nguy cơ về an toàn, vì chúng có thể bị lạm dụng vào những mục đích không mong muốn.

Những mô hình của DeepSeek được cho là có thể cạnh tranh trực tiếp với của OpenAI.
DeepSeek phát hành những mô hình AI nào?
Các mô hình AI của DeepSeek được cho là đã được tối ưu hóa thông qua việc áp dụng các cơ chế và kỹ thuật học máy hiện đại và tiên tiến.
Trong số đó, hai mô hình đáng chú ý là cơ chế Hỗn hợp chuyên gia (Mixture of Experts - MoE) và Chú ý ngầm nhiều đầu (Multi-Head Latent Attention - MHA).
MoE là một kỹ thuật trong đó nhiều mô hình chuyên biệt (các chuyên gia) hợp tác với nhau, với mạng lưới cổng chọn lựa chuyên gia phù hợp để giải quyết vấn đề cho mỗi đầu vào, giúp huấn luyện các mô hình mạnh mẽ mà vẫn tiết kiệm chi phí.
MHA đảm bảo khả năng suy luận hiệu quả thông qua việc nén dữ liệu đáng kể, giúp tăng tốc độ và hiệu quả xử lý.
Một số mô hình AI mã nguồn mở mà DeepSeek phát triển bao gồm: DeepSeek Coder (dành cho các tác vụ liên quan đến mã hóa), DeepSeek LLM (có 67 tỷ tham số, đủ sức cạnh tranh với các mô hình ngôn ngữ lớn khác); DeepSeek-V2 (mô hình AI giá rẻ nhưng có hiệu suất mạnh mẽ), DeepSeek-Coder-V2 (mô hình AI với 236 tỷ tham số, được thiết kế cho những thách thức mã hóa phức tạp), DeepSeek-V3 (mô hình AI với 671 tỷ tham số, có khả năng xử lý nhiều tác vụ như mã hóa, dịch thuật, viết bài luận và email), DeepSeek-R1 (mô hình AI chuyên cho các tác vụ lý luận, có khả năng thách thức các mô hình marquee của OpenAI), DeepSeek-R1-Distill (mô hình AI tinh chỉnh dựa trên dữ liệu tổng hợp do DeepSeek R1 tạo ra).
Triển vọng tương lai của DeepSeek
Từ năm 2022, Mỹ đã thực hiện các biện pháp kiểm soát xuất khẩu, nhằm hạn chế khả năng tiếp cận của các công ty AI Trung Quốc đối với các GPU như H100 của Nvidia. Dù DeepSeek đang sở hữu một kho dự trữ lên tới 10.000 GPU H100, nhưng công ty vẫn cần thêm nhiều chip để có thể mở rộng các mô hình AI của mình.
Với nguồn lực có hạn, DeepSeek buộc phải sử dụng chúng một cách hiệu quả nhất. Phòng nghiên cứu AI của công ty đã tái cấu trúc quy trình làm việc để giảm thiểu gánh nặng lên các GPU, theo chia sẻ của Wang, một cựu nhân viên của DeepSeek, với MIT Technology Review.
Mặc dù DeepSeek có thể tiếp tục phát triển và triển khai những mô hình AI mạnh mẽ mà không cần phải tiếp cận các phần cứng mới nhất, nhưng công ty vẫn sẽ phải tìm cách thu hẹp khoảng cách tính toán trong tương lai để mở rộng quy mô các mô hình AI, cũng như cạnh tranh mạnh mẽ hơn với các công ty Mỹ vốn có nguồn tài nguyên điện toán phong phú.
