Microsoft trình làng model AI VASA-1: tạo video chân dung người nói chỉ từ một hình ảnh tĩnh và giọng nói

Buzz

Ngày cập nhật gần nhất: 15/6/2026

VASA-1, một dự án nghiên cứu của Microsoft châu Á, có khả năng tạo ra video lip sync từ một bức ảnh và một đoạn ghi âm, hiển thị đầy đủ biểu cảm khuôn mặt, góc nhìn, chuyển động đầu, mắt, miệng và các cơ liên quan. Tất cả được tạo ra bởi trí tuệ nhân tạo ngay lập tức.

Theo nhóm nghiên cứu, VASA không chỉ đồng bộ chuyển động miệng với âm thanh mà còn tạo ra nhiều biến thể khác trên khuôn mặt để đảm bảo tính thực tế. Họ nói rằng mô hình đã xử lý tất cả các biến thể trên khuôn mặt và góc nhìn trong không gian latent để tạo ra video cuối cùng với độ phân giải 512 x 512, tốc độ khung hình 40 fps và không có độ trễ đáng kể giữa âm thanh và hình ảnh.

VASA có thể hoạt động trên một desktop với GPU 4090, độ trễ khi phát video trực tiếp chỉ là 170ms.

Hiện tại, nhóm nghiên cứu chưa có kế hoạch công bố API hoặc sản phẩm cụ thể liên quan đến VASA. Dưới đây là một số ví dụ về chân dung được tạo ra bằng StyleGAN2 hoặc DALL.E-3. Mời mọi người tham khảo.

Trước hết là một số video có độ dài khoảng 1 phút được tạo ra từ hình ảnh tĩnh và giọng nói.

Thêm nhiều lựa chọn giọng nói

Dù cùng một người nhưng có nhiều góc mặt khác nhau, bạn có thể nhận thấy sự thay đổi trong cử chỉ như nhìn, hít thở,...

Đa dạng về khoảng cách

Sự đa dạng của biểu cảm khi nói của một người

Dưới đây là một video thể hiện khả năng tạo ra video trong không gian ba chiều

Các câu hỏi thường gặp

VASA-1 của Microsoft có thể tạo ra những video như thế nào từ ảnh và âm thanh?

VASA-1 có khả năng tạo ra video lip sync từ ảnh và âm thanh, bao gồm đầy đủ biểu cảm khuôn mặt, chuyển động đầu, mắt, miệng và các cơ liên quan, hoàn toàn được tạo ra bởi trí tuệ nhân tạo.

VASA-1 có thể tạo ra video với độ phân giải và tốc độ khung hình như thế nào?

VASA-1 tạo ra video có độ phân giải 512 x 512 và tốc độ khung hình 40 fps, mang đến video chất lượng cao mà không có độ trễ đáng kể giữa âm thanh và hình ảnh.

VASA-1 có thể hoạt động trên loại máy tính nào?

VASA-1 có thể hoạt động trên desktop với GPU 4090, cho phép tạo ra video lip sync mượt mà với độ trễ chỉ 170ms khi phát video trực tiếp.

VASA-1 có thể tạo ra bao nhiêu biến thể khác nhau trong biểu cảm khuôn mặt?

VASA-1 có khả năng tạo ra nhiều biến thể khác nhau trong biểu cảm khuôn mặt, bao gồm các chuyển động mắt, miệng và cơ mặt, đảm bảo video cuối cùng có tính thực tế cao.

Nội dung từ Mytour nhằm chăm sóc khách hàng và khuyến khích du lịch, chúng tôi không chịu trách nhiệm và không áp dụng cho mục đích khác.

Nếu bài viết sai sót hoặc không phù hợp, vui lòng liên hệ qua Zalo: 0978812412 hoặc Email: [email protected]