Khác biệt với các công ty A.I. khác thường sử dụng siêu máy tính tích hợp từ 16.000 chip chuyên dụng trở lên để huấn luyện chatbot, DeepSeek chỉ cần khoảng 2.000 chip để đạt hiệu quả tương tự.
Tháng trước, thị trường tài chính Mỹ chao đảo khi công ty khởi nghiệp Trung Quốc DeepSeek công bố xây dựng thành công một trong những hệ thống trí tuệ nhân tạo mạnh nhất thế giới với số lượng chip cực kỳ ít. Trong khi các công ty A.I. khác cần đến 16.000 chip chuyên dụng, DeepSeek chỉ sử dụng khoảng 2.000.
Theo các kỹ sư của DeepSeek, công ty này đã áp dụng nhiều kỹ thuật công nghệ để giảm đáng kể chi phí xây dựng hệ thống xuống còn khoảng 6 triệu USD cho sức mạnh tính toán cơ bản, tức chỉ bằng 1/10 chi phí mà Meta đã bỏ ra để phát triển công nghệ A.I. mới nhất.
Các công nghệ A.I. hàng đầu hiện nay dựa trên mạng nơ-ron, hệ thống toán học có khả năng học hỏi kỹ năng thông qua việc phân tích lượng dữ liệu khổng lồ. Những hệ thống mạnh nhất dành hàng tháng để phân tích gần như toàn bộ văn bản tiếng Anh trên internet, hình ảnh, âm thanh và các dạng đa phương tiện khác, đòi hỏi sức mạnh tính toán cực lớn.

Khoảng 15 năm trước, các nhà nghiên cứu A.I. phát hiện ra rằng các chip máy tính chuyên dụng, được gọi là bộ xử lý đồ họa hoặc GPU, có thể thực hiện hiệu quả việc phân tích dữ liệu này. Các công ty như Nvidia, nhà sản xuất chip tại Thung lũng Silicon, ban đầu thiết kế chúng để kết xuất đồ họa cho trò chơi điện tử trên máy tính.
GPU có khả năng thực hiện các phép toán cung cấp năng lượng cho mạng nơ-ron. Khi các công ty tích hợp nhiều GPU hơn vào trung tâm dữ liệu, hệ thống A.I. có thể phân tích lượng dữ liệu lớn hơn đáng kể.
Tuy nhiên, những GPU cao cấp nhất có giá lên tới khoảng 40.000 USD và tiêu thụ một lượng điện năng khổng lồ. Việc truyền dữ liệu giữa các chip cũng tiêu tốn rất nhiều năng lượng.
Vậy DeepSeek đã làm cách nào để giải quyết vấn đề này?
Bằng cách kết hợp phương pháp chuyên gia, các nhà nghiên cứu đã tìm cách giảm chi phí bằng việc chia hệ thống thành nhiều mạng nơ-ron chuyên biệt: một cho thơ ca, một cho lập trình máy tính, một cho sinh học, một cho vật lý, và nhiều lĩnh vực khác. Có thể có tới 100 hệ thống "chuyên gia" nhỏ, mỗi hệ thống tập trung vào một lĩnh vực cụ thể.
Nhiều công ty gặp khó khăn với phương pháp này, nhưng DeepSeek lại thực hiện rất thành công. Bí quyết nằm ở việc kết hợp các hệ thống "chuyên gia" nhỏ với một hệ thống "tổng quát" để quản lý.
Các chuyên gia vẫn cần trao đổi thông tin với nhau, trong khi hệ thống tổng quát đóng vai trò điều phối các tương tác giữa chúng.
Không chỉ dừng lại ở đó, DeepSeek còn làm được nhiều hơn thế.
Bạn có nhớ khái niệm về số pi không? Pi, ký hiệu là π, là một con số vô hạn: 3.14159265358979… Bạn có thể sử dụng π để thực hiện các phép tính hữu ích, chẳng hạn như tính chu vi của một hình tròn. Khi thực hiện các phép tính này, bạn chỉ cần làm tròn π đến một vài chữ số thập phân.
DeepSeek đã áp dụng một phương pháp tương tự nhưng ở quy mô lớn hơn nhiều khi huấn luyện công nghệ A.I. của mình. Các phép toán giúp mạng nơ-ron nhận diện các mẫu trong văn bản thực chất chỉ là phép nhân — rất nhiều phép nhân. Thông thường, chip xử lý các số với bộ nhớ 16 bit, nhưng DeepSeek đã nén chúng xuống chỉ còn 8 bit, tức giảm một nửa không gian lưu trữ. Về cơ bản, công ty đã loại bỏ một số chữ số thập phân khỏi mỗi con số.
Mỗi phép tính có thể kém chính xác hơn, nhưng điều đó không quan trọng. Các phép tính vẫn đủ độ chính xác để tạo ra một mạng nơ-ron cực kỳ mạnh mẽ.
Trong một bài báo, DeepSeek khẳng định rằng họ rất xuất sắc trong việc viết mã máy tính phức tạp. Chỉ những phòng thí nghiệm A.I. hàng đầu mới có đội ngũ kỹ sư đủ tài năng để sánh ngang với những gì DeepSeek đã đạt được.
“DeepSeek, đối thủ cạnh tranh của , đã tạo ra một cú sốc lớn. Nói như vậy vẫn còn là nhẹ. DeepSeek giống như một quả bom hạt nhân trong thế giới công nghệ AI tại Mỹ và châu Âu, bởi chỉ với một động thái, công ty này đã chứng minh rằng định giá cổ phiếu chip AI và các cổ phiếu hạ tầng AI là quá cao. DeepSeek có thể tạo ra sản phẩm vượt trội hơn với chi phí chỉ bằng 1/20”, ông Francis Lun, Giám đốc điều hành Geo Securities, nhận định.
Một số phòng thí nghiệm A.I. có thể đã sử dụng ít nhất một vài thủ thuật tương tự. Các công ty như OpenAI không phải lúc nào cũng tiết lộ những gì họ đang làm sau cánh cửa đóng kín.
Tuy nhiên, việc thực hiện những gì DeepSeek đã làm không hề dễ dàng. Quá trình thử nghiệm để tìm ra đột phá liên quan đến hàng triệu USD, thậm chí hàng tỷ USD tiền điện.
Tim Dettmers, một nhà nghiên cứu tại Viện Trí tuệ nhân tạo Allen ở Seattle, chuyên gia trong lĩnh vực xây dựng A.I. hiệu quả, cho biết: "Bạn phải đầu tư rất nhiều tiền để thử nghiệm những ý tưởng mới — và thường thì chúng sẽ thất bại. Đó là lý do tại sao chúng ta không thấy nhiều đổi mới: Mọi người sợ mất hàng triệu USD chỉ để thử một thứ không hiệu quả".
Nhiều chuyên gia nhận định rằng 6 triệu USD của DeepSeek chỉ đủ để chi trả cho quá trình đào tạo phiên bản cuối cùng của hệ thống. Trong bài báo, các kỹ sư DeepSeek cũng tiết lộ rằng họ đã đầu tư thêm một khoản tiền đáng kể vào nghiên cứu và thử nghiệm trước khi tiến hành đào tạo phiên bản hoàn thiện.
Yu Zhou, giáo sư tại Cao đẳng Vassar, người đã nghiên cứu sâu về sự phát triển của ngành công nghệ cao Trung Quốc, nhận xét rằng sự nhiệt huyết của các nhà nghiên cứu trẻ tại DeepSeek khiến ông nhớ lại thời kỳ đầu của các startup internet ở Bắc Kinh vào những năm 2000. Khi đó, những sinh viên tốt nghiệp từ các trường đại học hàng đầu Trung Quốc, lấy cảm hứng từ các tập đoàn như Google và Microsoft, đã góp phần xây dựng nên một nền công nghiệp công nghệ phát triển mạnh mẽ tại quê nhà.
“Giới trẻ ngày nay được truyền cảm hứng từ những bước tiến công nghệ mới như OpenAI”, bà Yu chia sẻ. “Khi bạn không có nhiều nguồn lực, tất cả những gì bạn có thể dựa vào chính là trí tuệ và sự sáng tạo của mình”.
Theo: The New York Times, WSJ
