FramePack sử dụng mô hình 13 tỷ tham số để tạo video chất lượng cao, chỉ cần 6GB VRAM – thấp hơn rất nhiều so với 12GB mà các mô hình truyền thống yêu cầu.
Việc tạo video AI không còn là “đặc quyền” của các máy chủ mạnh mẽ hay những gói đăng ký đắt đỏ nữa. Nhờ FramePack – kiến trúc mạng nơ-ron mới của Lvmin Zhang (GitHub) và Maneesh Agrawala (Đại học Stanford), ngay cả laptop chơi game với GPU 6GB VRAM cũng có thể tạo video AI dài 60 giây, 30 FPS, theo Tom’s Hardware.

FramePack sử dụng mô hình 13 tỷ tham số để tạo video chất lượng cao, chỉ cần 6GB VRAM – ít hơn nhiều so với 12GB yêu cầu của các mô hình truyền thống. Bí quyết nằm ở việc nén khung hình đầu vào thành ngữ cảnh cố định, giúp giữ bộ nhớ ổn định dù video có dài bao nhiêu. Điều này cho phép xử lý hàng nghìn khung hình trên GPU tầm trung như RTX 3060, đồng thời hỗ trợ đào tạo với kích thước lô lớn, tương tự như khuếch tán hình ảnh.

FramePack không chỉ tiết kiệm bộ nhớ mà còn khắc phục tình trạng “trôi” (chất lượng giảm dần) nhờ vào kỹ thuật nén thông minh và lập lịch chống trôi. Theo DigiAlps, giao diện người dùng của FramePack rất thân thiện: người dùng có thể tải ảnh, nhập lời nhắc và xem trước khung hình ngay khi tạo. Trên RTX 4090, tốc độ đạt 0,6 khung/giây (khoảng 1,5 giây/khung với tối ưu teacache), trong khi trên laptop RTX 3060, tốc độ chậm hơn 4-8 lần nhưng vẫn có thể sử dụng được.
Hiện tại, FramePack hỗ trợ GPU Nvidia RTX 30/40/50 series (cần FP16/BF16) và chạy trên hệ điều hành Linux và Windows. GPU AMD/Intel chưa được xác nhận hỗ trợ.
