Không chỉ dựa vào phần cứng đắt đỏ để tạo nên một AI mạnh mẽ, DeepSeek còn sở hữu một bí quyết độc đáo mà khó có đối thủ nào sao chép được.
Trong bối cảnh cuộc đua AI toàn cầu ngày càng gay gắt, DeepSeek - một cái tên đến từ Trung Quốc - đã gây chấn động thị trường công nghệ thế giới. Không chỉ cạnh tranh trực tiếp với , DeepSeek còn khiến giới đầu tư kinh ngạc khi cung cấp dịch vụ với giá thành rẻ hơn 20-40 lần so với các đối thủ phương Tây.
Với mức giá thấp hơn nhưng hiệu năng và tính năng tương đương, DeepSeek đã trở thành đối thủ đáng gờm của . Điều đáng chú ý là bí quyết thành công của họ không đến từ công nghệ đỉnh cao hay thiết bị hiện đại, mà xuất phát từ một yếu tố hoàn toàn khác.

Điều làm nên sự khác biệt của DeepSeek là họ đạt được thành công này trong bối cảnh bị Mỹ cấm vận, không thể tiếp cận GPU thế hệ mới nhất để phát triển AI. Thay vì từ bỏ, DeepSeek đã phát triển các công cụ phần mềm giúp huấn luyện AI với chi phí thấp hơn nhiều so với các đối thủ phương Tây.
Bí quyết đằng sau thành công của DeepSeek
Tuy nhiên, yếu tố thực sự làm nên thành công của DeepSeek không chỉ nằm ở các giải pháp phần mềm, mà còn ở con người và văn hóa công ty. Theo Reuters, nhân viên tại DeepSeek rất yêu thích môi trường làm việc nhờ văn hóa công ty độc đáo và phương pháp kinh doanh khác biệt so với các tập đoàn công nghệ lớn khác tại Trung Quốc.
Liang Wenfeng, nhà sáng lập 40 tuổi của DeepSeek, đã định hướng công ty theo mô hình phòng nghiên cứu thay vì tập trung vào lợi nhuận như các công ty AI khác. Điều này đã tạo nên sự khác biệt lớn trong cách vận hành và quản lý:

Liang Wenfeng, nhà sáng lập 40 tuổi của DeepSeek
- Phản đối văn hóa "996": Trong khi nhiều công ty công nghệ Trung Quốc áp dụng lịch làm việc "996" (9 giờ sáng đến 9 giờ tối, 6 ngày/tuần), các nhà nghiên cứu tại DeepSeek chỉ làm việc 8 giờ mỗi ngày.
- Đãi ngộ xứng đáng: Các kỹ sư tại DeepSeek được trả lương cao. Theo báo cáo, các nhà khoa học dữ liệu cấp cao tại High-Flyer (công ty mẹ) có thể nhận mức lương lên đến 1,5 triệu nhân dân tệ mỗi năm (khoảng 206.000 USD), gấp đôi so với các công ty đối thủ.
- Trao quyền cho nhân viên trẻ: Wenfeng tuyển dụng các kỹ sư trẻ mới tốt nghiệp, làm việc cùng họ và cho phép họ dẫn dắt các dự án nghiên cứu của DeepSeek. Công ty không có cấu trúc phân cấp truyền thống. Các nhóm được tổ chức theo mục tiêu, không có phân công lao động cố định hay quan hệ cấp trên-cấp dưới. Cấu trúc phẳng này giúp cải thiện hiệu quả giao tiếp và khuyến khích nhân viên tự do thể hiện ý tưởng.
Khó có thể nói rằng OpenAI không thể làm điều tương tự với nhân viên của mình, nhưng việc nhiều lãnh đạo và nhân viên cấp cao rời đi để thành lập startup AI riêng cho thấy họ có thể không hài lòng khi tiếp tục làm việc tại OpenAI. Điều này càng khẳng định khả năng quản lý nhân sự xuất sắc của DeepSeek.

Trong số 4 lãnh đạo cấp cao của OpenAI trước đây, giờ chỉ còn Sam Altman
Chiến lược tối ưu hóa: Làm nhiều hơn với ít hơn
Chiến lược nhân sự của DeepSeek đang mang lại nhiều lợi ích. Dù bị cấm tiếp cận GPU mới nhất từ năm 2022, công ty vẫn tìm cách phát triển các mô hình AI tiên tiến. Trước lệnh cấm, họ đã mua hai cụm siêu máy tính, bao gồm Fire-Flyer II với 10.000 chip NVIDIA A100. Có tin đồn rằng công ty có thể đã nhập lậu thêm hàng chục nghìn chip sau đó, dù điều này khó được xác nhận.
DeepSeek đã phát triển các giải pháp phần mềm sáng tạo nhằm tối ưu hóa hiệu suất dù sử dụng phần cứng hạn chế:
- Mixture-of-Experts (MoE): Công nghệ này cho phép DeepSeek chỉ kích hoạt các phần cần thiết của mô hình AI để xử lý tác vụ, giúp tiết kiệm đáng kể tài nguyên tính toán.
- Multihead Latent Attention (MLA): Kỹ thuật này giúp DeepSeek AI xử lý nhiều khía cạnh của yêu cầu cùng lúc, nâng cao hiệu quả xử lý. Ban đầu chỉ là dự án phụ của các nhà nghiên cứu trẻ, nhưng sau khi nhận thấy tiềm năng, công ty đã thành lập nhóm nghiên cứu và cuối cùng giảm đáng kể chi phí huấn luyện AI.
- Gần đây nhất là FlashMLA, một giải pháp phần mềm tối ưu hóa nhân kernel trong GPU H800 của NVIDIA, giúp tăng tốc độ xử lý lên gấp 8 lần. Đặc biệt, DeepSeek đã mã nguồn mở giải pháp này để cộng đồng có thể tiếp cận.

Nhờ những tối ưu hóa phần mềm này, DeepSeek có thể cung cấp dịch vụ AI với giá thành thấp hơn nhiều so với các đối thủ phương Tây. Theo ước tính, giá của DeepSeek có thể rẻ hơn 20 đến 40 lần so với , buộc OpenAI và Google phải cắt giảm chi phí cho và Gemini.
DeepSeek không dừng lại ở đó. Công ty đang lên kế hoạch ra mắt mô hình DeepSeek R2 trước tháng 5, sớm hơn dự kiến. Mô hình mới này được kỳ vọng sẽ có khả năng lập trình vượt trội hơn R1 và hỗ trợ lập luận đa ngôn ngữ. Việc rút ngắn thời gian phát triển trong khi OpenAI phải kéo dài thời gian cho sản phẩm của mình cho thấy DeepSeek vẫn còn nhiều tiềm năng phát triển.
Trong khi đó, DeepSeek đang nhanh chóng trở thành một câu chuyện thành công tại Trung Quốc. Khoảng 13 chính quyền thành phố lớn và 10 công ty năng lượng nhà nước đang sử dụng DeepSeek AI. Các tập đoàn công nghệ lớn như Baidu, Lenovo và Tencent cũng đã áp dụng công nghệ này dù vẫn phát triển AI riêng.
Không lâu sau khi DeepSeek nổi lên, nhiều nền tảng AI khác đã cố gắng phát hành sản phẩm với giá rẻ hơn hoặc thậm chí miễn phí. Điều này cho thấy trong thời đại AI, thành công không chỉ phụ thuộc vào phần cứng tiên tiến hay ngân sách khổng lồ. Các giải pháp tối ưu hóa để tận dụng phần cứng hiện có vẫn còn nhiều tiềm năng phát triển trong tương lai.
Nguyễn Hải
