Với mức đầu tư thấp, công cụ AI của Trung Quốc đang gây chấn động Thung lũng Silicon, mang lại hiệu suất vượt trội so với cả và Claude.
Những ngày gần Tết, ngành công nghệ bỗng dậy sóng khi thông tin về công cụ AI DeepSeek liên tục xuất hiện. Những con số ấn tượng về chi phí đầu tư và hiệu năng vượt trội của nó khiến Google, Microsoft, OpenAI, cũng như giới đầu tư chứng khoán trong ngành công nghệ không thể ngồi yên.
Xem thêm
Xem thêm
Xem thêm
Xem thêm
Không ngoa khi nói rằng sự xuất hiện của DeepSeek đã tạo ra một cú sốc mạnh mẽ trong ngành công nghệ, không chỉ tại Mỹ mà trên toàn cầu. Một cú đánh mạnh đến mức nó khiến những tập đoàn đang tranh đua giành thế thượng phong trong cuộc đua tới AGI - trí tuệ nhân tạo tổng quát phải giật mình.
DeepSeek đang nhắm tới việc ‘lật đổ’ những gã khổng lồ như , Gemini và Claude - những công cụ AI đang chiếm lĩnh thị trường công nghệ trong những tháng gần đây. Các tập đoàn công nghệ phương Tây bất ngờ trước sự bứt phá mạnh mẽ của công cụ AI đến từ phương Đông, và đây chính là lý do tại sao.

DeepSeek, mô hình AI miễn phí từ Trung Quốc đang gây bão trong thế giới công nghệ - Ảnh: Internet.
Chiến thắng ngoạn mục của DeepSeek gây chấn động toàn cầu
Ngày công bố, DeepSeek giới thiệu phần mềm AI của mình là một công cụ “miễn phí” và “mã nguồn mở”, chỉ với những thông tin này đã đủ thu hút sự chú ý của người dùng đối với phần mềm đến từ Trung Quốc.
Được phát triển bởi một phòng nghiên cứu AI mang tên DeepSeek, mô hình này đã vượt qua nhiều bài thử nghiệm của bên thứ ba và đạt điểm số cao hơn các công cụ AI hiện có trên thị trường như của OpenAI hay Claude của Anthropic.
Cả hai phiên bản mới ra mắt, DeepSeek-V3 - mô hình ngôn ngữ với 671 tỷ tham số và DeepSeek-R1 - mô hình AI lý luận tiên tiến, đều đã vượt qua những cái tên lớn trong lĩnh vực trí tuệ nhân tạo. Dưới đây là những gì DeepSeek-V3 tự nói về mình:

Bạn hỏi, DeepSeek (miễn phí) trả lời - Ảnh chụp màn hình.
Trong báo cáo nghiên cứu của mình, DeepSeek công bố một biểu đồ gây chấn động. Công cụ DeepSeek-V3 vượt qua những đối thủ sừng sỏ như Llama-3.1 của Meta, GPT- của OpenAI, Claude- của Anthropic trong các bài thử quan trọng: một đề toán gồm 500 câu (MATH 500), một bài đánh giá khả năng giải toán của AI (AIME 2024), bộ đề trong cuộc thi lập trình (Codeforces), và một bài thử phát hiện và sửa lỗi code (SWE-bench Verified).

Điểm benchmark của mô hình DeepSeek-V3 cho thấy rõ sự vượt trội so với các mô hình tiền nhiệm - Ảnh: DeepSeek.
Cùng lúc đó, mô hình DeepSeek-R1 còn sở hữu một biểu đồ ấn tượng hơn, khi hiệu năng của nó ngang ngửa với mô hình OpenAI-o1 trong mảng toán học, lập trình và lý luận.

Thật khó tin, DeepSeek miễn phí mà làm được nhiều đến vậy - Ảnh: DeepSeek.
Tuy nhiên, điểm số nói trên chỉ lý giải một phần chiến thắng áp đảo của DeepSeek. Theo báo cáo từ chính startup Trung Quốc, họ chỉ tiêu tốn 5,576 triệu USD để phát triển thành công mô hình DeepSeek-V3 với sức mạnh vượt trội, đồng thời vẫn thể mở miễn phí cho người dùng toàn cầu.
Để so sánh, OpenAI tiêu tới 5,4 triệu USD/năm để duy trì hoạt động, và startup này ước tính họ sẽ phải chi tới 37,5 triệu USD để duy trì hoạt động vào năm 2029. Cuối năm 2023, Microsoft đã “bơm” cho OpenAI tới 13 tỷ USD để phát triển và các công cụ liên quan khác. Google dự kiến chi phí tài sản cố định của năm 2024 chạm ngưỡng 51 tỷ USD, không ít trong số đó dành cho công tác AI.
Một điều khiến giới công nghệ Mỹ cảm thấy vừa xấu hổ vừa tức giận là DeepSeek đã có thể đạt được những thành tựu ấn tượng này trong khi Mỹ vẫn đang áp dụng các lệnh cấm nhập khẩu các dòng GPU cao cấp dành cho huấn luyện AI, như H100 và H200 đối với Trung Quốc.
Để tuân thủ các quy định về xuất khẩu, NVIDIA đã phát triển các phiên bản thay thế như H800 và A800, tuy nhiên, những phiên bản này cũng nhanh chóng bị cấm bán sang Trung Quốc vào năm 2023. Mặc dù vậy, DeepSeek vẫn sở hữu một lượng GPU đáng kể và nhờ đó, họ đã tạo ra những mô hình DeepSeek-V3 đột phá.
Theo tài liệu từ DeepSeek, công ty Trung Quốc chỉ cần 2.788.000 giờ huấn luyện trên GPU H800 (tương đương 5,576 triệu USD với mức phí 2 USD/giờ sử dụng GPU), và họ đã có thể phát triển mô hình DeepSeek-V3 mà người dùng hiện nay đang sử dụng.

Chỉ với GPU H800, DeepSeek đã đánh bại những mô hình khác sử dụng GPU H100 của NVIDIA - Ảnh: Internet.
Giải mã thành công của DeepSeek
Tạm gác lại yếu tố phần cứng, chúng ta sẽ tìm hiểu nguyên lý hoạt động của DeepSeek.
Các công cụ AI, hay chính xác hơn là các mô hình ngôn ngữ lớn (Large Language Model - LLM), thường sử dụng cơ chế tinh chỉnh có giám sát (Supervised Fine-Tuning - SFT) trong quá trình huấn luyện.
Nói một cách dễ hiểu, chuyên gia cung cấp cho mô hình AI một chuỗi bài toán mẫu và giải thích từng bước cách giải, sau đó sẽ đánh giá kết quả bài giải thử của mô hình qua sự đánh giá của một chuyên gia khác hoặc một mô hình AI khác.
Tuy nhiên, mô hình AI của DeepSeek lại không sử dụng cơ chế này. Ví dụ, DeepSeek-R1 không áp dụng SFT mà thay vào đó sử dụng học tăng cường (Reinforcement Learning - RL) để cải thiện câu trả lời của mình.
DeepSeek-R1 không được cung cấp lời giải và phương pháp giải của bài toán từ trước, mà thay vào đó, mô hình này sẽ thử giải bài toán theo nhiều cách khác nhau, và nhận điểm cao cho mỗi cách giải tốt, từ đó tìm cách tối ưu hóa phương pháp giải qua thời gian để đạt được điểm cao hơn nữa. Các vòng lặp này sẽ giúp câu trả lời của DeepSeek-R1 ngày càng chính xác hơn, và đó chính là khái niệm “tăng cường” trong học tăng cường (Reinforcement Learning).

Giải thích đơn giản về học tăng cường (Reinforcement Learning - RL) - Ảnh: Internet.
Tuy nhiên, chìa khóa không phải nằm ở cách thiết kế mô hình AI của DeepSeek, mà chính là việc ra mắt mô hình đi kèm hai từ khóa “miễn phí” và “mã nguồn mở”, điều này đã tạo ra cơn sốt với DeepSeek và khiến cả Thung lũng Silicon không thể ngồi yên.
Công ty đứng sau DeepSeek, High-Flyer, là một công ty quản lý quỹ đầu tư kỹ thuật (quant fund) và không phải là một doanh nghiệp chuyên về nghiên cứu AI. Trực thuộc High-Flyer, công ty con DeepSeek phát triển các mô hình AI DeepSeek với mục tiêu tối ưu chi phí thấp nhất có thể, để dễ dàng áp dụng vào sản xuất quy mô lớn.
Mã nguồn của cả hai phiên bản DeepSeek-V3 và DeepSeek-R1 đã được công khai trên GitHub, cho phép bạn tải về và sử dụng. DeepSeek cũng đã công bố API để người dùng tự do khai thác. Ứng dụng AI DeepSeek cũng miễn phí và được quảng bá là mạnh mẽ ngang ngửa mô hình o1 của OpenAI. Với tất cả những lý do đó, DeepSeek đã thành công trong lòng người yêu thích công nghệ.

DeepSeek đã vươn lên trở thành ứng dụng được tải nhiều nhất trên cả App Store và Google Play - Ảnh: Internet.
Thực tế, hiện tại chúng ta vẫn chưa xác định được chính xác yếu tố nào đã tạo nên thành công của DeepSeek (nếu đã rõ, thì bất kỳ doanh nghiệp AI nào cũng đã đạt được thành công!). Các tập đoàn lớn như Meta, OpenAI, Google, Microsoft đang nỗ lực “bóc tách” các báo cáo của DeepSeek, với hy vọng khám phá được cách mà công ty Trung Quốc huấn luyện AI với chi phí thấp.
Mặc dù khó có thể nói chính xác những gì các tập đoàn phương Tây sẽ công bố, nhưng có một điều có thể khẳng định: việc DeepSeek công khai mã nguồn mở và cung cấp API sẽ làm giảm chi phí của các mô hình AI trong tương lai, giúp chúng trở nên dễ tiếp cận hơn, và qua đó đạt được mục tiêu tối thượng của mọi sản phẩm công nghệ thành công: đến tay tất cả mọi người.
GPS, internet hay smartphone đều là những sản phẩm như vậy. Và đột phá tiếp theo mà có thể tiếp cận người dùng với chi phí thấp chính là trí tuệ nhân tạo.
