Ngoài phiên bản V3, vào ngày 20 tháng 1, DeepSeek tiếp tục gây ấn tượng mạnh khi công bố mô hình có khả năng lý luận mang tên DeepSeek R1, kèm theo mã nguồn được đăng tải công khai trên Github.
Với biệt danh "gã khổng lồ thầm lặng", DeepSeek đang dần trở thành tâm điểm chú ý tại Thung lũng Silicon nhờ những bước đột phá trong ngành trí tuệ nhân tạo (AI). Mặc dù chi phí phát triển cực kỳ thấp, công ty này đã cho ra đời các mô hình ngôn ngữ lớn (LLM) với hiệu quả vượt trội, qua mặt các đối thủ cạnh tranh.

Vào cuối tháng 12 năm 2024, DeepSeek đã ra mắt mô hình DeepSeek V3 miễn phí chỉ sau hai tháng phát triển với chi phí dưới 6 triệu USD. Điều đáng chú ý là mô hình này sử dụng GPU H800 của Nvidia, phiên bản bị hạ cấp do lệnh cấm của Mỹ, thay vì sử dụng các chip AI hàng đầu. Trong các bài kiểm tra chuẩn của bên thứ ba, V3 đã vượt qua các mô hình nổi tiếng như Llama 3.1 của Meta, GPT- của OpenAI và Claude Sonnet của Anthropic, từ việc giải quyết các vấn đề phức tạp đến toán học và lập trình.
Ngày 20/1, không chỉ V3 mà DeepSeek còn công bố mô hình mới với khả năng lý luận, mang tên DeepSeek R1, và đã chia sẻ mã nguồn trên Github. Mô hình này đã vượt qua o1 mới nhất của OpenAI trong các bài kiểm tra, với chi phí chỉ 2,19 USD cho mỗi triệu token đầu ra, thấp hơn nhiều so với mức 60 USD của OpenAI o1.
Shubham Saboo, giám đốc sản phẩm của DeepSeek, chia sẻ trên X vào cuối tháng 1 rằng: "DeepSeek R1 là mã nguồn mở 100%, rẻ hơn 96,4% so với OpenAI o1, nhưng vẫn đạt được hiệu suất tương tự". Arnaud Bertrand, người sáng lập HouseTrip và Me & Qi, cũng nhận định trên X, "Giống như việc ai đó tung ra một chiếc điện thoại có sức mạnh ngang iPhone, nhưng giá chỉ 30 USD".

Trong khuôn khổ Diễn đàn Kinh tế Thế giới tại Davos vào ngày 22/1, CEO Microsoft Satya Nadella đã khen ngợi mô hình DeepSeek mới và cho biết: "Mô hình DeepSeek thực sự ấn tượng. Họ đã thực hiện rất tốt việc triển khai một mô hình nguồn mở có khả năng suy luận, đồng thời đạt hiệu suất tính toán vượt trội".
Các chuyên gia AI cũng tán thưởng phương pháp 'chưng cất' mà DeepSeek sử dụng để phát triển LLM, giúp tạo ra những mô hình nhỏ nhưng thông minh từ các mô hình lớn mà không cần tốn kém quá nhiều chi phí. Chetan Puttagunta từ Benchmark chia sẻ với CNBC: "Họ đã tạo ra một LLM thực sự xuất sắc và tiết kiệm chi phí".
Đột phá của DeepSeek không chỉ đặt ra câu hỏi liệu Mỹ có đang mất dần vị thế dẫn đầu toàn cầu về AI, mà còn khiến nhiều người băn khoăn về hiệu quả chi tiêu của các ông lớn công nghệ vào mô hình AI và trung tâm dữ liệu. DeepSeek, được sáng lập bởi Liang Wenfeng vào tháng 5/2023 và có trụ sở tại Hàng Châu, Chiết Giang, đã được quỹ đầu tư High-Flyer của Trung Quốc đầu tư hoàn toàn và không có kế hoạch huy động vốn. Họ tự chủ tài chính và đã bắt đầu có lãi nhờ những cải tiến trong kiến trúc mô hình AI.

Tại Thung lũng Silicon, DeepSeek được coi là "thế lực bí ẩn từ phương Đông", với những mô hình nổi bật nhờ tính tiết kiệm và hiệu quả. Trong khi các công ty AI khác của Trung Quốc cũng đang nỗ lực phát triển tương tự, cuộc đua về việc xây dựng AI hiệu quả và tiết kiệm ngày càng trở nên gay cấn.
