Một phòng nghiên cứu tại Trung Quốc đã phát triển một trong các mô hình AI ‘mở’ có sức mạnh vượt bậc nhất từ trước tới nay.

Một phòng thí nghiệm ở Trung Quốc đã tạo ra một trong những mô hình AI ‘mở’ mạnh nhất từ trước đến nay: DeepSeek V3.
Theo TechCrunch, DeepSeek V3, được phát triển bởi công ty AI DeepSeek, có khả năng xử lý đa dạng tác vụ như xử lý văn bản, mã hóa, dịch thuật và viết luận. Các thử nghiệm nội bộ cho thấy DeepSeek V3 vượt trội hơn các mô hình khác, bao gồm Llama 3.1 405B của Meta, GPT- của OpenAI và Qwen 2.5 72B của Alibaba. DeepSeek V3 cũng thể hiện sự vượt trội trong bài kiểm tra Aider Polyglot, được thiết kế để đánh giá khả năng xử lý đa ngôn ngữ.
DeepSeek cho biết DeepSeek V3 đã được huấn luyện trên bộ dữ liệu khổng lồ với 14,8 nghìn tỷ mã thông báo. Trong khoa học dữ liệu, mã thông báo được sử dụng để biểu diễn các đơn vị dữ liệu thô. 1 triệu mã thông báo tương đương khoảng 750.000 từ.
Mặc dù không phải là mô hình thực tế nhất, DeepSeek V3 vẫn được coi là một thành tựu đáng kể. DeepSeek đã huấn luyện mô hình này bằng cách sử dụng trung tâm dữ liệu GPU Nvidia H800 chỉ trong vòng 2 tháng, với chi phí lên tới 5,5 triệu USD.
Đây được xem là bước tiến quan trọng, mở ra cơ hội để Trung Quốc vượt mặt Mỹ trong lĩnh vực AI, bất chấp những hạn chế về tiếp cận chip tiên tiến và nguồn vốn. Các thông tin từ trang tuyển dụng, phỏng vấn cựu nhân viên và báo địa phương cho thấy thành công này là nhờ vào một nhà sáng lập kín tiếng và đội ngũ nghiên cứu trẻ tuổi.
Năm 2023, DeepSeek được tách ra từ quỹ đầu tư High Flyer-Quant. Người sáng lập High-Flyer Quant, Liang Wenfeng, cũng là người đứng sau DeepSeek, từng được đào tạo về AI tại Đại học Chiết Giang.
Trước đây, DeepSeek đã tạo ra một làn sóng mới với mô hình mang tên DeepSeek-R1. Đại diện công ty khẳng định mô hình R1 của họ có thể cạnh tranh với o1 của OpenAI — một mô hình được thiết kế để lý luận và giải quyết các nhiệm vụ phức tạp.
“Trong năm qua, chúng tôi đã chứng kiến sự gia tăng đáng kể các đóng góp nguồn mở từ Trung Quốc, với hiệu suất mạnh mẽ, chi phí vận hành thấp và tốc độ xử lý cao”, Grace Isford, đối tác tại Lux Capital, chia sẻ với CNBC qua email.

Theo CNBC, các công ty AI tại Trung Quốc đang phát triển các mô hình ngôn ngữ lớn (LLM), được huấn luyện trên khối lượng dữ liệu khổng lồ và hỗ trợ các ứng dụng như chatbot. Phần lớn tập trung vào LLM nguồn mở, cho phép các nhà phát triển tải xuống và xây dựng miễn phí mà không cần xin cấp phép.
Trên Hugging Face, một nền tảng lưu trữ LLM, các mô hình ngôn ngữ lớn của Trung Quốc được tải xuống nhiều nhất, theo Tiezhen Wang, một kỹ sư học máy tại công ty. Trong đó, Qwen, dòng mô hình AI do Alibaba phát triển, là phổ biến nhất.
“Qwen đang nhanh chóng trở nên phổ biến nhờ hiệu suất vượt trội trong các tiêu chuẩn cạnh tranh”, Wang chia sẻ với CNBC qua email và nhấn mạnh rằng Qwen có “chính sách cấp phép rất thuận lợi”, cho phép các công ty sử dụng mà không cần “đánh giá pháp lý phức tạp”.
Việc cung cấp nguồn mở phục vụ nhiều mục đích, bao gồm thúc đẩy đổi mới khi nhiều nhà phát triển có quyền truy cập vào công nghệ, đồng thời xây dựng một cộng đồng xung quanh sản phẩm. Theo CNBC, các LLM nguồn mở còn mang lại cho các công ty Trung Quốc lợi thế toàn cầu, cho phép mô hình của họ được sử dụng rộng rãi trên thế giới.
“Các công ty Trung Quốc mong muốn mô hình của họ được sử dụng rộng rãi bên ngoài biên giới quốc gia. Đây chính là cách để họ trở thành những nhân tố toàn cầu trong lĩnh vực AI”, Paul Triolo, đối tác tại công ty tư vấn toàn cầu DGA Group, chia sẻ với CNBC qua email.
Theo CNBC, các mô hình AI hiện nay thường được so sánh với các hệ điều hành như Windows của Microsoft, Android của Google và iOS của Apple, với tiềm năng thống trị thị trường tương tự như những gì các công ty này đã làm trên thiết bị di động và máy tính cá nhân. Nếu điều này xảy ra, việc xây dựng một LLM thống trị sẽ trở nên cực kỳ khó khăn.
“Các công ty Trung Quốc xem LLM là trung tâm của hệ sinh thái công nghệ tương lai”, Xin Sun, giảng viên cao cấp về kinh doanh Trung Quốc và Đông Á tại King's College London, cho biết qua email. “Các mô hình kinh doanh trong tương lai sẽ phụ thuộc vào việc các nhà phát triển tham gia vào hệ sinh thái, tạo ra các ứng dụng mới dựa trên LLM và thu hút người dùng. Lợi nhuận sau đó có thể được tạo ra thông qua nhiều phương thức khác nhau”.
Trong khoảng một năm qua, Mỹ đã siết chặt các hạn chế xuất khẩu thiết bị sản xuất chip và chất bán dẫn tiên tiến sang Trung Quốc. Điều này đồng nghĩa với việc các chip tiên tiến của Nvidia không thể xuất khẩu sang quốc gia này, buộc công ty phải phát triển các chất bán dẫn tuân thủ lệnh trừng phạt để tiếp tục xuất khẩu.
Dù vậy, bất chấp những hạn chế này, các công ty Trung Quốc vẫn có thể phát triển và ra mắt các mô hình AI tiên tiến. “Các nền tảng công nghệ lớn của Trung Quốc hiện có đủ nguồn lực tính toán để tiếp tục cải thiện mô hình. Điều này nhờ vào việc họ đã tích trữ một lượng lớn GPU Nvidia và đồng thời tận dụng GPU nội địa từ Huawei cùng các công ty khác”, Triolo từ DGA Group nhận định.
Theo: CNBC, TechCrunch
