Microsoft trình làng model AI VASA-1: tạo video chân dung người nói chỉ từ một hình ảnh tĩnh và giọng nói

Buzz

Ngày cập nhật gần nhất: 1/5/2026

Các câu hỏi thường gặp

1.

VASA-1 của Microsoft có thể tạo ra những video như thế nào từ ảnh và âm thanh?

VASA-1 có khả năng tạo ra video lip sync từ ảnh và âm thanh, bao gồm đầy đủ biểu cảm khuôn mặt, chuyển động đầu, mắt, miệng và các cơ liên quan, hoàn toàn được tạo ra bởi trí tuệ nhân tạo.
2.

VASA-1 có thể tạo ra video với độ phân giải và tốc độ khung hình như thế nào?

VASA-1 tạo ra video có độ phân giải 512 x 512 và tốc độ khung hình 40 fps, mang đến video chất lượng cao mà không có độ trễ đáng kể giữa âm thanh và hình ảnh.
3.

VASA-1 có thể hoạt động trên loại máy tính nào?

VASA-1 có thể hoạt động trên desktop với GPU 4090, cho phép tạo ra video lip sync mượt mà với độ trễ chỉ 170ms khi phát video trực tiếp.
4.

VASA-1 có thể tạo ra bao nhiêu biến thể khác nhau trong biểu cảm khuôn mặt?

VASA-1 có khả năng tạo ra nhiều biến thể khác nhau trong biểu cảm khuôn mặt, bao gồm các chuyển động mắt, miệng và cơ mặt, đảm bảo video cuối cùng có tính thực tế cao.

Nội dung từ Mytour nhằm chăm sóc khách hàng và khuyến khích du lịch, chúng tôi không chịu trách nhiệm và không áp dụng cho mục đích khác.

Nếu bài viết sai sót hoặc không phù hợp, vui lòng liên hệ qua Zalo: 0978812412 hoặc Email: [email protected]