Mô hình AI mới của Trung Quốc không chỉ sánh ngang về khả năng xử lý mà còn vượt trội về hiệu quả chi phí, với giá thành tính toán chỉ bằng một phần nhỏ so với mô hình AI của OpenAI và các đối thủ khác.
Trong một bước tiến đột phá, các nhà nghiên cứu Trung Quốc đã phát triển một đối thủ nguồn mở của chỉ trong vòng 2 tháng, khiến thung lũng Silicon phải dè chừng. DeepSeek, phòng thí nghiệm AI đứng sau sáng kiến này, đã ra mắt mô hình ngôn ngữ lớn (LLM) DeepSeek-V3 vào cuối tháng 12/2024. Mô hình này được xây dựng với chi phí chỉ 5,58 triệu USD, một con số khiêm tốn so với các đối thủ từ thung lũng Silicon, và được đào tạo trên lượng dữ liệu khổng lồ với hiệu suất đáng kinh ngạc.
DeepSeek-V3 là một mô hình ngôn ngữ lớn với 175 tỷ tham số, được huấn luyện trên khoảng 570GB dữ liệu văn bản từ các nguồn như sách, bài báo trực tuyến, Wikipedia và các trang web khác. Đáng chú ý, mô hình này chỉ cần 2.000 GPU của Nvidia để xử lý dữ liệu đào tạo, so với 10.000 GPU mà cần. Điều này cho thấy sự tối ưu hóa đáng kể trong thuật toán và hiệu quả sử dụng tài nguyên.

DeepSeek, một startup AI mới nổi của Trung Quốc với năng lực xử lý tương đương
Không dừng lại ở đó, DeepSeek tiếp tục ra mắt mô hình mới hơn là DeepSeek-R1 vào ngày 20/1. Mô hình này được thiết kế với phương pháp "chain of thought" (chuỗi suy nghĩ), cho phép nó quay lại và đánh giá lại logic của mình, giúp giải quyết các nhiệm vụ phức tạp hơn với độ chính xác cao hơn. Trong các bài kiểm tra benchmark của bên thứ ba, DeepSeek-V3 đã thể hiện khả năng tương đương với GPT- của OpenAI và Claude Sonnet của Anthropic, thậm chí vượt trội hơn các mô hình khác như Llama 3.1 của Meta và Qwen2.5 của Alibaba trong các nhiệm vụ như giải quyết vấn đề, lập trình và toán học. Đáng chú ý, DeepSeek-R1 còn vượt qua cả mô hình o1 mới nhất của trong nhiều bài kiểm tra tương tự.
Thành công này không chỉ nằm ở hiệu suất mà còn ở tính hiệu quả chi phí. DeepSeek-V3 và R1 được đào tạo với ngân sách cực thấp so với hàng chục đến hàng trăm triệu USD mà các công ty đối thủ chi ra. Hơn nữa, các nhà phát triển Trung Quốc đã phải tối ưu hóa thuật toán để bù đắp cho việc thiếu hụt sức mạnh tính toán do các hạn chế xuất khẩu chip AI từ Mỹ. Trong khi cần đến 10.000 GPU của Nvidia để xử lý dữ liệu đào tạo, DeepSeek chỉ cần 2.000 GPU để đạt kết quả tương đương.
Satya Nadella, CEO của Microsoft - đối tác chiến lược của OpenAI, đã nhấn mạnh tại Diễn đàn Kinh tế Thế giới ở Davos rằng: "Chúng ta cần rất, rất nghiêm túc xem xét những phát triển từ Trung Quốc."
Sức mạnh của mô hình nguồn mở
DeepSeek không chỉ gây ấn tượng bởi hiệu suất mà còn bởi tính nguồn mở của nó. Khác với , DeepSeek là mô hình "open-weight", cho phép người dùng xem và chỉnh sửa thuật toán của nó. Điều này mang lại lợi thế lớn về chi phí, với giá thành chỉ bằng 1/27 so với mô hình o1 của .

Hiệu quả chi phí của DeepSeek vượt trội hơn hẳn các mô hình AI khác
Yann LeCun, nhà khoa học AI hàng đầu của Meta, cho rằng thành công của DeepSeek không chỉ là minh chứng cho sự cạnh tranh từ Trung Quốc mà còn khẳng định giá trị của các mô hình nguồn mở. Trên Threads, ông viết: "Không phải AI của Trung Quốc đang vượt Mỹ, mà là các mô hình nguồn mở đang vượt lên các mô hình độc quyền."
LeCun nhấn mạnh rằng DeepSeek đã "hưởng lợi từ nghiên cứu mở và nguồn mở." Ông cho biết: "Họ đã đưa ra những ý tưởng mới và xây dựng dựa trên công trình của người khác. Vì công việc của họ được công bố và nguồn mở, mọi người đều có thể hưởng lợi. Đó chính là sức mạnh của nghiên cứu mở và nguồn mở."
Tương lai của AI nguồn mở
Sự xuất hiện của DeepSeek với sản phẩm R1 đã tạo nên làn sóng chấn động tại thung lũng Silicon và trở thành chủ đề được bàn tán sôi nổi trong suốt tuần lễ Diễn đàn Kinh tế Thế giới. Mark Zuckerberg, CEO của Meta, đã công bố kế hoạch đầu tư hơn 60 tỷ USD vào năm 2025 để đẩy mạnh phát triển AI, đồng thời bày tỏ sự ủng hộ mạnh mẽ đối với các mô hình mã nguồn mở. Ông chia sẻ: "Một trong những mục tiêu hàng đầu của tôi trong vòng 10-15 năm tới là xây dựng các nền tảng mở và chứng kiến sự thành công của chúng. Tôi tin rằng điều này sẽ thúc đẩy ngành công nghệ phát triển mạnh mẽ hơn."

Tuy nhiên, không phải ai cũng đồng tình với mô hình mã nguồn mở. Một số ý kiến cho rằng các mô hình độc quyền an toàn hơn do mã nguồn được bảo mật kỹ lưỡng. Sam Altman, CEO của OpenAI, từng chia sẻ trên Reddit rằng cách tiếp cận độc quyền giúp công ty của ông "dễ dàng đảm bảo các tiêu chuẩn an toàn hơn," nhưng ông cũng bày tỏ hy vọng sẽ mở rộng việc chia sẻ mã nguồn trong tương lai.
Thành công của DeepSeek không chỉ phản ánh cuộc cạnh tranh giữa các quốc gia mà còn khẳng định sức mạnh của cộng đồng mã nguồn mở. Trong tương lai, sự phát triển của AI sẽ phụ thuộc lớn vào việc tìm ra sự cân bằng giữa tính minh bạch và bảo mật, cũng như khả năng ứng dụng thực tiễn của các mô hình này.
