Một kỹ thuật mà Google đã không chú ý vào năm 2015, nay được DeepSeek khai thác triệt để và ngày càng hoàn thiện với chi phí đào tạo vô cùng tiết kiệm.
Đầu năm 2025, sự ra mắt của DeepSeek từ Trung Quốc đã làm dậy sóng toàn ngành, khi công nghệ này cạnh tranh trực tiếp với OpenAI nhưng lại chỉ tốn khoảng 5 triệu USD cho việc đào tạo. Điều này khiến thị trường rung chuyển và tổng vốn hóa của Nvidia bốc hơi 600 tỷ USD vì lo ngại nhu cầu chip sẽ giảm.
Theo thông tin từ Business Insider (BI), chi phí đào tạo các mô hình AI ngày càng giảm mạnh nhờ vào kỹ thuật 'chắt lọc tri thức' (Knowledge Distillation) mà DeepSeek đang áp dụng.
Đây là một kỹ thuật học máy giúp chuyển giao kiến thức từ một mô hình phức tạp (Teacher Model) sang một mô hình nhỏ gọn hơn (Student Model) mà vẫn giữ được hiệu suất gần như tương đương.

Thay vì chỉ huấn luyện mô hình nhỏ từ dữ liệu gốc, kỹ thuật này cho phép mô hình học sinh 'học' từ đầu ra của mô hình giáo viên, giúp tiết kiệm tài nguyên tính toán và thời gian suy luận, đồng thời phù hợp để triển khai trên các thiết bị có hiệu suất thấp hơn.
Điều này khiến thị trường lo ngại về sự sụt giảm nhu cầu chip của Nvidia, khi các mô hình AI sẽ ngày càng hoàn thiện nhờ vào kỹ thuật chắt lọc tri thức trong tương lai.
Một nghiên cứu được thực hiện vào tháng 1/2025 bởi nhóm các nhà khoa học tại UC Berkeley cho thấy họ đã thành công trong việc đào tạo 2 mô hình AI mới với chi phí điện toán dưới 1.000 USD mỗi mô hình.
Vào đầu tháng 2/2025, các nhà nghiên cứu từ Đại học Stanford, Đại học Washington và Viện Allen về AI cũng đã có thể đào tạo một mô hình lý luận hữu ích với chi phí cực kỳ thấp.
Tất cả những thành tựu này đều nhờ vào kỹ thuật chắt lọc tri thức.
10 năm bị bỏ quên
Tờ BI nhận xét rằng kỹ thuật chắt lọc tri thức sẽ giúp các mô hình nền tảng như Llama của Meta phát triển các ứng dụng AI thông minh, ví dụ như trở thành một chuyên gia về luật thuế tại Mỹ với chi phí rất hợp lý.
Mô hình lý luận R1 của DeepSeek đã sử dụng kỹ thuật chắt lọc tri thức từ Llaman để cải thiện khả năng lý luận, thay vì phải dành quá nhiều thời gian và tài nguyên đào tạo để trả lời từng bước một.
'Mô hình chắt lọc tri thức này có quy mô nhỏ hơn, ít tham số hơn, ít yêu cầu bộ nhớ hơn. Bạn có thể chạy nó trên điện thoại của mình, hoặc trên các thiết bị biên', đối tác Samir Kumar từ Touring Capital giải thích.
Việc DeepSeek giảm quy mô nhưng lại có khả năng suy luận vượt trội chính là yếu tố khiến chúng nổi bật, được so sánh với OpenAI và làm xáo trộn thị trường.
Trên thực tế, kỹ thuật chắt lọc tri thức lần đầu được giới thiệu trong bài báo năm 2015 do những giám đốc AI nổi bật của Google như Jeff Dean, Geoffrey Hinton và Oriol Vinyals (Phó chủ tịch nghiên cứu của Google DeepMind) cùng chấp bút.

Ban đầu, bài báo này đã bị hội nghị NeurIPS danh giá từ chối vì không được cho là có ảnh hưởng lớn đến ngành. Tuy nhiên, chỉ sau 10 năm, kỹ thuật này lại trở thành chủ đề nóng trong lĩnh vực AI.
Theo BI, lý do kỹ thuật chắt lọc tri thức trở nên mạnh mẽ như hiện nay là nhờ vào số lượng và chất lượng các mô hình mã nguồn mở có sẵn để sử dụng làm Teacher Model.
Đơn giản hơn, chính và các mô hình AI khác đã trở thành những Teacher Model hiệu quả, thúc đẩy sự thành công của DeepSeek.
Giám đốc kỹ thuật Kate Soule của LLM Granite thuộc IBM cho rằng việc DeepSeek áp dụng kỹ thuật này mở ra cánh cửa cạnh tranh giữa các mô hình AI, vốn trước đây chỉ được các tập đoàn lớn kiểm soát.
Các công ty giờ đây sẽ phải mở cửa mô hình AI của mình để chắt lọc tri thức với nhau và phát triển các mô hình giá rẻ, cạnh tranh với DeepSeek.
Chúng ta sẽ đi xa đến đâu?
Giám đốc Soule của IBM cho biết rằng Hugging Face, kho lưu trữ LLM trực tuyến, hiện đã có các phiên bản chắt lọc tri thức của Llama từ Meta và Qwen của Alibaba vì cả hai đều là mô hình nguồn mở truyền thống.
Tuy nhiên, các nhà nghiên cứu từ Apple cho rằng việc chắt lọc tri thức từ mô hình mẹ yêu cầu chất lượng cao để đạt được kết quả như mong muốn. Điều này cũng có nghĩa là các công ty phải đầu tư lớn vào các mô hình mẹ đắt đỏ, điều này lại có lợi cho những công ty đi sau tận dụng chúng.
Giám đốc điều hành Nvidia, Jensen Huang, cho biết hầu hết các nhà phát triển AI trên thế giới hiện nay đang sử dụng R-1 của DeepSeek để thực hiện chắt lọc tri thức từ các mô hình mới.
Mặc dù vậy, chỉ dựa vào R-1 vẫn có những hạn chế.

'Tôi tin rằng các mô hình chắt lọc tri thức sẽ ngày càng phổ biến hơn. Tuy nhiên, sẽ có một giới hạn mà các mô hình này có thể đạt được nếu chỉ phụ thuộc vào một mô hình mẹ, và chúng ta đang dần tiến gần đến giới hạn đó', nhà đồng sáng lập Jasper Zhang của nền tảng đám mây Hyperbolic chia sẻ.
Một chuyên gia giấu tên của Google DeepMind cho biết với BI rằng nhiều nền tảng đang cố gắng giảm thiểu, hoặc thậm chí loại bỏ các dấu vết của chắt lọc tri thức để ngăn chặn việc sao chép kỹ thuật này.
Chẳng hạn, OpenAI giấu toàn bộ quá trình lý luận trong mô hình lý luận o1 của mình, mặc dù vẫn công khai thông tin trong phiên bản o3-mini nhỏ gọn hơn.
'Một trong những điều bạn sẽ chứng kiến trong vài tháng tới là các công ty AI hàng đầu sẽ tìm cách ngăn cản việc sao chép kỹ thuật chắt lọc tri thức từ các đối thủ', cố vấn David Sacks về chính sách tiền điện tử và AI của Tổng thống Donald Trump cho biết trong cuộc phỏng vấn với Fox News vào tháng 1/2025.
Dù vậy, tờ BI cho rằng việc ngừng xu hướng này sẽ rất khó khăn, bởi thành công của DeepSeek đã mở ra một hướng đi mới cho AI mã nguồn mở.
*Nguồn: BI
