Chạy các mô hình AI cỡ lớn trực tiếp trên điện thoại thông minh hoặc laptop sẽ khả thi nhờ vào thuật toán nén mới giúp giảm kích thước, giữ an toàn cho dữ liệu ngay trên thiết bị của bạn.
Các mô hình AI mạnh mẽ như cần nhiều năng lượng và thường được lưu trữ tại các trung tâm dữ liệu khổng lồ. Tuy nhiên, một phát minh mới có thể nén chúng, giúp chạy ngay trên smartphone hoặc laptop.
Thuật toán nén đột phá: CALDERA
Thuật toán CALDERA, viết tắt của Calibration Aware Low Precision Decomposition with Low Rank Adaptation, giúp nén dữ liệu lớn cần thiết cho các mô hình ngôn ngữ lớn (LLM) bằng cách loại bỏ sự dư thừa và giảm độ chính xác của thông tin.

Theo nghiên cứu công bố vào ngày 24/5 trên arXiv, CALDERA giúp các mô hình ngôn ngữ trở nên gọn nhẹ hơn, nhưng vẫn đảm bảo độ chính xác gần như nguyên bản. Thuật toán sẽ được trình bày tại NeurIPS vào tháng 12.
Thuật toán này kết hợp hai phương pháp chính: Kỹ thuật 'Low-precision' giảm số bit sử dụng cho thông tin, tăng tốc độ và tiết kiệm năng lượng, trong khi kỹ thuật 'Low-rank' loại bỏ các tham số thừa giúp giảm dung lượng lưu trữ.
Sự kết hợp này giúp CALDERA đạt hiệu quả nén vượt trội so với việc chỉ sử dụng từng kỹ thuật riêng biệt.
"Chúng tôi nhận thấy rằng không chỉ dữ liệu mà cả các mô hình ngày nay cũng đang trở nên khổng lồ. Thuật toán của chúng tôi có thể nén cả hai yếu tố này," Rajarshi Saha, đồng tác giả nghiên cứu và nghiên cứu sinh tại Đại học Stanford, cho biết.
Kết quả thử nghiệm đầy triển vọng
Nhóm nghiên cứu đã thử nghiệm CALDERA trên các mô hình mã nguồn mở của Meta như Llama 2 và Llama 3. Kết quả cho thấy thuật toán này giúp cải thiện hiệu suất nén lên đến 5% so với các phương pháp chỉ sử dụng một trong hai kỹ thuật.
Điều này mở ra cơ hội cho các mô hình AI lớn có thể được lưu trữ và vận hành trực tiếp trên điện thoại thông minh hoặc máy tính xách tay trong tương lai — đặc biệt là trong những trường hợp yêu cầu bảo mật cao hoặc không cần độ chính xác tuyệt đối.
Mặc dù CALDERA mang lại tiềm năng lớn, các nhà khoa học cũng cảnh báo rằng các mô hình AI hiện tại vẫn chưa được tối ưu để chạy hiệu quả trên các thiết bị nhỏ như smartphone.
"Nếu bạn chạy một mô hình AI lớn và điện thoại hết pin chỉ sau một giờ, điều đó không phải là lý tưởng," Saha giải thích. "Thuật toán này chỉ là một phần trong giải pháp tổng thể, kết hợp với các kỹ thuật khác để giúp việc sử dụng AI trên thiết bị di động trở nên khả thi và hiệu quả hơn."
