VASA-1 có khả năng tạo ra những video thực tế chỉ từ một hình ảnh duy nhất.
Microsoft Research Asia vừa công bố một báo cáo mới về ứng dụng AI sáng tạo đang phát triển có tên là VASA-1. Được thiết kế để tạo ra video thực tế chỉ từ một hình ảnh khuôn mặt và âm nhạc, VASA-1 cũng có khả năng thay đổi khuôn mặt theo thời gian thực.
Ứng dụng này sử dụng một khung học máy để phân tích hình ảnh khuôn mặt, sau đó đồng bộ hóa chuyển động của miệng và môi với âm thanh, mô phỏng các biểu cảm và chuyển động cơ thể.
Mặc dù ứng dụng này rất tiên tiến, nhưng vẫn còn một số hạn chế, ví dụ như chi tiết nhỏ như răng có thể không chính xác, thay đổi kích thước và hình dạng miệng khi nói.
Ngoài ra, các nhà nghiên cứu cũng đã sử dụng AI để tạo ra các khuôn mặt trong các bản demo của họ, thử nghiệm trên các hình ảnh từ thực tế đến nghệ thuật, chẳng hạn như bức tranh Mona Lisa. Tuy nhiên, có những lo ngại rằng công nghệ này có thể bị lạm dụng để tạo ra các video giả mạo, lừa đảo, hoặc tuyên truyền thông tin sai lệch.
Do đó, nhóm nghiên cứu quyết định không công bố công khai ứng dụng cho đến khi đảm bảo rằng nó sẽ được sử dụng một cách có trách nhiệm và tuân thủ các quy định phù hợp. Công nghệ này cũng có tiềm năng để sử dụng trong các ứng dụng thực tế, như tạo hình đại diện video thực tế trong thời gian thực mà không cần dùng đến nguồn video tiêu tốn băng thông, tương tự như công nghệ Spatial Personas của Apple.