Không chỉ sở hữu chuyên môn cao, đội ngũ kỹ sư DeepSeek còn áp dụng những phương pháp mà dù nhiều người biết đến nhưng ít ai dám thực hiện do mức độ rủi ro lớn.
Tháng trước, thị trường tài chính Mỹ đã chứng kiến sự sụt giảm mạnh sau khi DeepSeek, một công ty khởi nghiệp từ Trung Quốc, tuyên bố họ đã phát triển một trong những hệ thống AI mạnh nhất thế giới nhưng chỉ sử dụng số lượng chip máy tính ít hơn đáng kể so với thông thường.
Trong khi các công ty AI khác thường sử dụng siêu máy tính với ít nhất 16.000 chip chuyên dụng để đào tạo chatbot, DeepSeek lại chỉ cần khoảng 2.000 chip để đạt được kết quả tương tự.
Theo một bài báo nghiên cứu được các kỹ sư DeepSeek công bố, công ty này đã áp dụng nhiều kỹ thuật công nghệ tiên tiến để giảm thiểu đáng kể chi phí xây dựng hệ thống.
Với chỉ khoảng 6 triệu USD đầu tư vào sức mạnh tính toán, DeepSeek đã tiết kiệm được gần 90% chi phí so với khoản đầu tư hàng chục triệu USD mà Meta bỏ ra để phát triển công nghệ AI mới nhất.
Vậy bí quyết thành công của DeepSeek là gì?
Quy trình phát triển AI
Những công nghệ AI tiên tiến nhất đều dựa trên nền tảng mà giới khoa học gọi là mạng nơ-ron, một hệ thống máy tính có khả năng học hỏi kỹ năng thông qua việc phân tích khối lượng dữ liệu khổng lồ.

Các hệ thống AI mạnh mẽ nhất thường dành hàng tháng trời để phân tích phần lớn văn bản tiếng Anh trên internet, cùng với vô số hình ảnh, âm thanh và các dữ liệu đa phương tiện khác. Điều này đòi hỏi một nguồn lực tính toán cực kỳ lớn.
Khoảng 15 năm trước, các nhà nghiên cứu AI đã phát hiện ra rằng các chip máy tính chuyên dụng, được gọi là bộ xử lý đồ họa (GPU), là giải pháp hiệu quả để thực hiện loại phân tích dữ liệu này. Ban đầu, những chip này được thiết kế bởi các công ty như Nvidia để phục vụ cho thị trường game trên máy tính. Tuy nhiên, GPU cũng có khả năng thực hiện các phép tính phức tạp, tạo nền tảng cho sức mạnh của mạng nơ-ron.
Càng tích hợp nhiều GPU vào các trung tâm dữ liệu, hệ thống AI càng có khả năng xử lý và phân tích lượng dữ liệu lớn hơn.
Tuy nhiên, những GPU mạnh nhất hiện nay có giá lên tới 40.000 USD và tiêu thụ một lượng điện năng khổng lồ. Việc truyền dữ liệu giữa các chip thậm chí còn tiêu tốn nhiều điện năng hơn cả việc vận hành chúng. Đây là lý do khiến quá trình đào tạo AI trở nên cực kỳ tốn kém, với chi phí có thể lên tới hàng tỷ USD.
Làm thế nào DeepSeek có thể giảm thiểu chi phí?
Công ty Trung Quốc đã thực hiện điều này thông qua nhiều phương pháp khác nhau, trong đó nổi bật nhất là việc áp dụng kỹ thuật được gọi là "hỗn hợp các chuyên gia".
Thông thường, các công ty xây dựng một mạng nơ-ron duy nhất có khả năng học hỏi mọi mẫu dữ liệu từ internet. Tuy nhiên, cách làm này cực kỳ tốn kém do lượng dữ liệu khổng lồ cần được truyền tải giữa các chip GPU.
Ngay cả khi một chip đang học cách viết thơ và một chip khác đang học lập trình máy tính, chúng vẫn cần giao tiếp với nhau để đảm bảo không bỏ sót bất kỳ sự chồng chéo nào giữa thơ ca và lập trình.
Với phương pháp hỗn hợp chuyên gia, các nhà nghiên cứu đã giải quyết vấn đề này bằng cách chia hệ thống thành nhiều mạng nơ-ron chuyên biệt: một cho thơ ca, một cho lập trình, một cho sinh học, một cho vật lý, và nhiều lĩnh vực khác. Có thể có tới 100 hệ thống "chuyên gia" nhỏ, mỗi hệ thống tập trung vào một lĩnh vực cụ thể.
Trong khi nhiều công ty gặp khó khăn khi áp dụng phương pháp này, DeepSeek lại thực hiện rất thành công. Bí quyết của họ là kết hợp các hệ thống "chuyên gia" nhỏ với một hệ thống "tổng quát" để quản lý hiệu quả.

Các chuyên gia vẫn cần trao đổi thông tin với nhau, và hệ thống đa ngành – có kiến thức tổng quan nhưng không quá sâu về từng chủ đề – đóng vai trò điều phối các tương tác giữa các chuyên gia.
Để dễ hình dung, điều này giống như một biên tập viên điều phối một phòng tin tức với nhiều phóng viên chuyên về các lĩnh vực khác nhau.
Tuy nhiên, đó không phải là điều duy nhất DeepSeek có thể làm. Công ty còn thành thạo áp dụng một thủ thuật đơn giản liên quan đến số thập phân mà bất kỳ ai cũng đã từng học ở tiểu học.
Hãy nhớ lại cách giáo viên toán của bạn giải thích về số pi. Pi, ký hiệu là π, là một con số vô hạn không lặp lại: 3.14159265358979 …
Bạn có thể sử dụng π để thực hiện các phép tính hữu ích, chẳng hạn như tính chu vi của một hình tròn. Khi làm điều này, bạn thường rút gọn π xuống chỉ còn một vài chữ số thập phân, ví dụ 3.14. Với con số đơn giản hơn này, bạn vẫn có thể ước tính chu vi một cách khá chính xác.
DeepSeek đã áp dụng cách làm tương tự — nhưng ở quy mô lớn hơn rất nhiều — trong quá trình đào tạo công nghệ AI của mình.
Các phép toán giúp mạng nơ-ron nhận biết các mẫu trong văn bản thực chất chỉ là phép nhân — và rất nhiều phép nhân.
Thông thường, chip máy tính thực hiện phép nhân với các số sử dụng 16 bit bộ nhớ. Tuy nhiên, DeepSeek đã nén mỗi số chỉ còn 8 bit bộ nhớ — giảm một nửa không gian. Về cơ bản, họ đã loại bỏ một số chữ số thập phân từ mỗi số.
Điều này khiến mỗi phép tính trở nên kém chính xác hơn. Nhưng điều đó không quan trọng, vì các phép tính vẫn đủ chính xác để tạo ra một mạng nơ-ron cực kỳ mạnh mẽ.
Chưa dừng lại ở đó, DeepSeek còn có thêm một thủ thuật khác.
Sau khi nén mỗi số vào 8 bit bộ nhớ, DeepSeek áp dụng một phương pháp khác khi thực hiện phép nhân giữa các số này. Khi tính toán kết quả cho từng phép nhân — một bước quan trọng quyết định cách mạng nơ-ron hoạt động — họ mở rộng kết quả lên 32 bit bộ nhớ. Điều này giúp giữ lại nhiều chữ số thập phân hơn, làm tăng độ chính xác của kết quả.

Các kỹ sư DeepSeek đã chứng minh trong nghiên cứu của họ rằng họ rất thành thạo trong việc viết mã máy tính phức tạp để điều khiển GPU một cách hiệu quả. Họ biết cách tối ưu hóa hiệu suất của những con chip này.
Kỹ năng này rất hiếm, nhưng các phòng thí nghiệm AI hàng đầu vẫn có những kỹ sư tài năng có thể làm được điều tương tự như DeepSeek.
Vậy tại sao các công ty khác không làm như vậy?
Một số phòng thí nghiệm AI có thể đã sử dụng ít nhất một vài thủ thuật tương tự. Các công ty như OpenAI không phải lúc nào cũng công khai những gì họ đang làm trong bí mật.
Tuy nhiên, nhiều công ty khác tỏ ra ngạc nhiên trước thành tựu của DeepSeek. Để đạt được những gì công ty khởi nghiệp này làm không hề dễ dàng. Quá trình thử nghiệm cần thiết để tạo ra đột phá như vậy có thể tiêu tốn hàng triệu, thậm chí hàng tỷ đô la chỉ riêng cho chi phí điện năng.
Cách tiếp cận của DeepSeek có thể mang lại hiệu quả cao, nhưng cũng đi kèm với rủi ro đầu tư lớn. Công ty này đã thể hiện sự táo bạo khi theo đuổi những phương pháp mới.
Tim Dettmers, nhà nghiên cứu tại Viện Trí tuệ nhân tạo Allen ở Seattle, chuyên gia trong việc xây dựng các hệ thống AI hiệu quả và từng là nhà nghiên cứu AI tại Meta, chia sẻ: "Bạn cần đầu tư một khoản tiền khổng lồ để thử nghiệm những ý tưởng mới — và thường thì chúng sẽ thất bại".
"Đó là lý do vì sao chúng ta ít thấy sự đổi mới: Mọi người đều sợ mất hàng triệu đô la chỉ để thử một thứ gì đó không mang lại kết quả", ông bổ sung.
Nhiều chuyên gia nhận định rằng 6 triệu USD của DeepSeek chỉ đủ để chi trả cho quá trình đào tạo phiên bản cuối cùng của hệ thống. Trong báo cáo, các kỹ sư DeepSeek tiết lộ họ đã đầu tư thêm tiền vào nghiên cứu và thử nghiệm trước khi thực hiện đào tạo cuối cùng. Điều này cũng tương tự với bất kỳ dự án AI tiên tiến nào khác.
DeepSeek đã thử nghiệm và đạt được thành công. Giờ đây, khi công ty khởi nghiệp Trung Quốc chia sẻ phương pháp của mình với cộng đồng nghiên cứu AI, các thủ thuật công nghệ của họ đã sẵn sàng để giảm đáng kể chi phí phát triển AI.
