Microsoft trình làng model AI VASA-1: tạo video chân dung người nói chỉ từ một hình ảnh tĩnh và giọng nói

Buzz

Các câu hỏi thường gặp

1.

VASA-1 của Microsoft có thể tạo ra những video như thế nào từ ảnh và âm thanh?

VASA-1 có khả năng tạo ra video lip sync từ ảnh và âm thanh, bao gồm đầy đủ biểu cảm khuôn mặt, chuyển động đầu, mắt, miệng và các cơ liên quan, hoàn toàn được tạo ra bởi trí tuệ nhân tạo.
2.

VASA-1 có thể tạo ra video với độ phân giải và tốc độ khung hình như thế nào?

VASA-1 tạo ra video có độ phân giải 512 x 512 và tốc độ khung hình 40 fps, mang đến video chất lượng cao mà không có độ trễ đáng kể giữa âm thanh và hình ảnh.
3.

VASA-1 có thể hoạt động trên loại máy tính nào?

VASA-1 có thể hoạt động trên desktop với GPU 4090, cho phép tạo ra video lip sync mượt mà với độ trễ chỉ 170ms khi phát video trực tiếp.
4.

VASA-1 có thể tạo ra bao nhiêu biến thể khác nhau trong biểu cảm khuôn mặt?

VASA-1 có khả năng tạo ra nhiều biến thể khác nhau trong biểu cảm khuôn mặt, bao gồm các chuyển động mắt, miệng và cơ mặt, đảm bảo video cuối cùng có tính thực tế cao.