Người dùng sẽ sớm được thấy VideoPoet và các phiên bản kế tiếp của nó tạo ra những video sống động đến ngạc nhiên.
Biến bức tranh Mona Lisa thành 'Một phụ nữ đang nhìn vào ống kính' và 'Một phụ nữ đang ngáp'.
Trong bối cảnh triển vọng của trí tuệ nhân tạo đang ngày càng được khẳng định với các sản phẩm ngày càng hoàn thiện, một làn sóng mới về 'mô hình AI sinh video' đang nổi lên. Tuy nhiên, những mô hình này đang gặp khó khăn lớn trong việc tạo ra những chuyển động hợp lý mà người xem có thể tin tưởng.
Theo thời gian, các mô hình này sẽ học được nhiều hơn, tạo ra các sản phẩm chất lượng và thực tế hơn. Điều tốt là quy trình tạo ra sản phẩm của chúng tương đối đơn giản, chỉ cần một số lệnh thông minh để AI tạo ra video hoặc các sản phẩm tương tự. Ngoài ra, có các mô hình AI đa năng, có thể tạo video từ lệnh, từ ảnh hoặc biến video theo phong cách khác nhau, v.v...
Hiện tại, phần mềm Sora
Video về 'Hai con gấu trúc đang chơi bài'.
Video hướng dẫn: 'Ngựa bay trên nền bức tranh Đêm sao của van Gogh'.
Theo những phát hiện của các nhà nghiên cứu tại Google, hình ảnh ban đầu có thể được biến đổi thành video, VideoPoet cũng có thể tự động hoàn thiện nội dung còn thiếu (như phục hồi video gốc) hoặc tạo ra thêm nội dung cho video.
Trong việc tạo ra phong cách mới, mô hình AI sử dụng video để phân tích độ sâu và hiệu ứng ánh sáng, có thể tái tạo chuyển động và thêm nội dung lên để tạo ra phong cách được chỉ đạo bởi người dùng. Dưới đây là kết quả sau khi phong cách hóa một video được tạo ra từ mô hình AI của Google.
Các video hướng dẫn (từ trái sang phải): 'Con wombat đeo kính râm ôm quả bóng chuyền trên bãi biển'; 'Gấu bông trượt băng trên mặt hồ băng giá'; 'Một con sư tử kim loại gầm lên trong ánh sáng của lò rèn'.
Dựa trên khung cuối cùng của video, mô hình AI có thể dự đoán nội dung tiếp theo có thể xảy ra trong giây tiếp theo để tạo ra video dài hơn. Việc lặp lại quá trình này giúp VideoPoet không chỉ mở rộng video một cách dễ dàng mà còn giữ nguyên các đối tượng trong đoạn video ngắn.
Video hướng dẫn: 'Một phi hành gia bắt đầu nhảy trên Sao Hỏa. Rồi bắn pháo hoa rực rỡ từ phía sau'.
VideoPoet cũng có khả năng tạo ra âm thanh. Với các đoạn video dài 2 giây, AI cố gắng dự đoán âm thanh mà không cần hướng dẫn bằng văn bản. Điều này cho phép tạo ra cả video và âm thanh từ một mẫu duy nhất.
Qua VideoPoet, Google đã minh chứng cho sức cạnh tranh vượt trội của các mô hình ngôn ngữ lớn, không chỉ tạo ra nội dung văn bản mà còn sản xuất video sống động, chân thực.
Kết quả cho thấy tiềm năng đáng kể của các mô hình ngôn ngữ lớn trong việc tạo video. Trong tương lai, những mô hình AI như vậy có thể tạo ra nội dung dựa trên nhiều hướng dẫn khác nhau, từ việc sử dụng văn bản để tạo ra âm thanh, tạo video từ câu nói, mô tả video tự động, và nhiều ứng dụng khác.