Dù là người sáng lập một công ty công nghệ tiên tiến, nhưng hóa ra Liang Wenfeng lại không phải là chuyên gia trong ngành công nghệ.
Nếu phải nhắc đến một câu chuyện khởi nghiệp thay đổi cách nhìn của thế giới về AI, đó chính là hành trình của Liang Wenfeng – người sáng lập DeepSeek. Từ một nhà quản lý quỹ đầu cơ không tên tuổi, Liang đã đưa DeepSeek từ một công ty nhỏ bé thành một "hiện tượng" toàn cầu, đối đầu với những ông lớn Mỹ bằng mô hình ngôn ngữ R1 mạnh mẽ và chiến lược "mở cửa" công nghệ.
Liang Wenfeng: Từ Phố Wall đến phòng thí nghiệm AI
Liang Wenfeng là một cái tên không còn xa lạ trong giới tài chính. Trước khi sáng lập DeepSeek, ông đã thành công với High-Flyer – một quỹ đầu cơ ứng dụng AI và thuật toán để dự đoán biến động của thị trường. Ở đây, Liang và đội ngũ của mình đã nắm vững công nghệ, sử dụng GPU của Nvidia để vận hành các mô hình giao dịch tốc độ cao, tích lũy một khối tài sản khổng lồ.

Liang Wenfeng, nhà sáng lập của DeepSeek, thực tế lại là một người ngoại đạo trong ngành công nghệ
Vào năm 2021, khi AI bùng nổ toàn cầu, Liang đã bắt tay vào một dự án phụ: mua hàng nghìn GPU của NVIDIA để thử nghiệm mô hình ngôn ngữ lớn (LLM). Quá trình này ban đầu bị giới đầu tư xem là "kỳ quặc". Một đối tác kinh doanh của Liang chia sẻ: "Lúc đó, ông ấy giống như một người đam mê công nghệ với kiểu tóc lỗi thời, nói về việc xây dựng cụm 10.000 chip để huấn luyện AI. Chúng tôi cho rằng đó chỉ là những tưởng tượng vô căn cứ!".
Tuy nhiên, Liang vẫn kiên định với mục tiêu: "Tôi muốn tạo ra thứ gì đó thay đổi cuộc chơi". Vào năm 2023, ông rời High-Flyer và tập trung hoàn toàn vào DeepSeek – startup AI với sứ mệnh phát triển trí tuệ nhân tạo đạt mức độ tương đương con người.
DeepSeek: Ra đời từ những khó khăn và sự sáng tạo
Khác với những ông lớn như OpenAI hay Google DeepMind – những công ty được đầu tư hàng tỷ USD – DeepSeek được xây dựng dựa trên chính lợi nhuận từ quỹ đầu cơ của Liang. Ông không huy động vốn từ bên ngoài và cũng không vội vàng thương mại hóa sản phẩm. Thay vào đó, Liang sử dụng nguồn tiền từ High-Flyer để tuyển dụng những tài năng AI hàng đầu Trung Quốc, với mức lương cạnh tranh ngang với ByteDance – công ty mẹ của TikTok.
Bước ngoặt đến khi Mỹ quyết định siết chặt xuất khẩu các loại chip AI cao cấp sang Trung Quốc. Trong khi các công ty trong nước vất vả tìm kiếm giải pháp thay thế, đội ngũ DeepSeek – phần lớn là các kỹ sư tốt nghiệp từ Đại học Bắc Kinh và Thanh Hoa – đã có sẵn kinh nghiệm tối ưu hóa GPU từ thời High-Flyer. "Họ hiểu rõ cách thức vận hành chip, biết cách 'khai thác' sức mạnh tối đa từ những GPU cũ", một nhà nghiên cứu gắn bó với DeepSeek cho hay.

Thay vì sử dụng các GPU cao cấp, nền tảng phát triển của DeepSeek chủ yếu dựa vào các GPU NVIDIA có hiệu suất thấp hơn.
Kết quả là vào tháng 1/2024, DeepSeek đã công bố mô hình R1 – một mô hình LLM với 671 tỷ tham số, được huấn luyện chỉ với 2.048 GPU H800 và chi phí 5,6 triệu USD. Con số này chỉ bằng 1/20 so với chi phí mà OpenAI hay Google phải bỏ ra để huấn luyện các mô hình tương tự. "DeepSeek chứng minh rằng không cần phải có nguồn lực khổng lồ để có thể cạnh tranh với các đối thủ", Ritwik Gupta, chuyên gia từ Đại học California, nhận xét.
Hơn nữa, Liang Wenfeng xây dựng DeepSeek như một phòng thí nghiệm "thuần Trung Quốc". Khác với các startup công nghệ khác ở Trung Quốc, vốn thường tìm kiếm nhân tài từ các trường đại học nổi tiếng như Harvard hay MIT, đội ngũ cốt lõi của DeepSeek đều là các cựu sinh viên của các trường đại học trong nước. "Chúng tôi không có bất kỳ thành viên nào từng du học. Chúng tôi phải tự đào tạo ra những tài năng hàng đầu", Liang khẳng định trong một cuộc phỏng vấn.
Văn phòng DeepSeek tại Bắc Kinh và Hàng Châu được ví như "khuôn viên đại học chuyên sâu", nơi các kỹ sư dồn hết tâm huyết vào nghiên cứu công nghệ mà không lo lắng về lợi nhuận. Một đối tác kinh doanh của Liang chia sẻ: "Họ tin tưởng vào tầm nhìn của ông ấy: chứng minh người Trung Quốc có thể sáng tạo từ con số không".

Thách thức trong cuộc đua công nghệ
Dù gây chú ý mạnh mẽ, DeepSeek vẫn đang phải đối mặt với nhiều thử thách lớn. Các đối thủ Mỹ như OpenAI và xAI của Elon Musk đang chi hàng trăm tỷ USD cho các siêu máy tính và chip Blackwell thế hệ mới. Trong khi đó, hiệu suất của High-Flyer, nguồn tài chính chính của DeepSeek, đã suy giảm vào năm 2024 khi Liang dành phần lớn thời gian cho AI.
Câu chuyện của Liang Wenfeng và DeepSeek đã mở ra một chương mới trong ngành công nghệ: Một startup nhỏ, xuất phát từ ngành tài chính, có thể đương đầu với những gã khổng lồ nhờ vào việc tối ưu hóa tài nguyên, phát triển nhân tài nội bộ và dám chia sẻ bí quyết công nghệ. Theo một nhà đầu tư AI ở Bắc Kinh: "DeepSeek giống như DeepMind thời kỳ đầu – họ chỉ tập trung vào nghiên cứu mà không bị áp lực về thương mại".
Thành công của DeepSeek không chỉ là ở công nghệ mà còn phản ánh sự linh hoạt của các startup Trung Quốc trong việc biến khó khăn thành lợi thế, cũng như khả năng đào tạo nhân tài nội bộ. Khi Liang Wenfeng – một người "ngoại đạo" trong giới AI – có thể xây dựng đối thủ đáng gờm của , Silicon Valley buộc phải thừa nhận rằng: Trong cuộc đua trí tuệ nhân tạo, không có bức tường nào vĩnh viễn tồn tại.
