Video AI Hiện Đang Kỳ Lạ và Kỳ Quặc. Nhưng Chúng Đang Đi Đến Đâu?

Những đoạn video ngắn tạo ấn tượng như một cuốn flipbook, nhảy lung tung từ một khung hình siêu thực sang khung hình tiếp theo. Chúng là kết quả của những người tạo meme trên internet đang chơi với những công cụ tạo video từ văn bản AI đầu tiên phổ biến, và chúng miêu tả những tình huống không thể như Dwayne “The Rock” Johnson ăn đá và Tổng thống Pháp Emmanuel Macron lựa chọn và nhai rác, hoặc những phiên bản biến tấu của những điều bình thường, như Paris Hilton tự sướng.
This new wave of AI-generated videos has definite echoes of Dall-E, which swept the internet last summer when it performed the same trick with still images. Less than a year later, those wonky Dall-E images are almost indistinguishable from reality, raising two questions: Will AI-generated video advance as quickly, and will it have a place in Hollywood?
ModelScope, một công cụ tạo video được đặt trên máy chủ của công ty AI Hugging Face, cho phép mọi người gõ vài từ và nhận lại một đoạn video lạ lùng. Runway, công ty AI đã hợp tác tạo ra công cụ tạo ảnh Stable Diffusion, thông báo về một công cụ tạo video từ văn bản vào cuối tháng Ba, nhưng chưa công bố rộng rãi cho công chúng. Cả Google và Meta đều thông báo họ đang làm việc trên công nghệ tạo video từ văn bản vào mùa thu năm 2022.
Hiện tại, đó là những video ngô nghê hoặc một con gấu bông tự vẽ bức tranh tự hình. Nhưng trong tương lai, vai trò của trí tuệ nhân tạo trong điện ảnh có thể phát triển hơn ngoài những đoạn video lan truyền nhanh, cho phép công nghệ hỗ trợ lựa chọn diễn viên cho phim, mô phỏng cảnh quay trước khi quay, và thậm chí đổi diễn viên trong các cảnh quay. Công nghệ đang phát triển nhanh chóng, và có lẽ sẽ mất nhiều năm trước khi các bộ tạo nếu có thể, chẳng hạn, sản xuất một bộ phim ngắn hoàn chỉnh dựa trên yêu cầu. Tuy nhiên, tiềm năng của trí tuệ nhân tạo trong giải trí là to lớn.
“Cách mà Netflix đã làm thay đổi cách và nơi chúng ta xem nội dung, tôi nghĩ rằng trí tuệ nhân tạo sẽ tạo ra một cuộc chuyển động to lớn hơn đối với việc tạo ra nội dung đó chính nó,” nói Sinead Bovell, một nhà tương lai học và người sáng lập công ty đào tạo công nghệ WAYE.
Nhưng điều đó không có nghĩa là trí tuệ nhân tạo sẽ hoàn toàn thay thế nhà văn, đạo diễn và diễn viên trong thời gian sớm. Và một số thách thức kỹ thuật lớn vẫn còn tồn tại. Những video trông nhảy lò cò vì các mô hình trí tuệ nhân tạo hiện tại chưa thể duy trì tính nhất quán đầy đủ từ khung hình này sang khung hình khác, điều này cần thiết để làm mịn hình ảnh. Việc tạo nội dung kéo dài hơn và duy trì tính nhất quán sẽ đòi hỏi nhiều công suất máy tính và dữ liệu hơn, điều này đồng nghĩa với việc đầu tư lớn vào phát triển công nghệ. “Bạn không thể dễ dàng mở rộng các mô hình ảnh này,” nói Bharath Hariharan, giáo sư khoa học máy tính tại Đại học Cornell.
Mặc dù chúng có vẻ cơ bản, nhưng sự tiến triển của những bộ tạo này đang phát triển nhanh chóng
Tốc độ tiến triển là kết quả của những phát triển mới giúp củng cố những bộ tạo. ModelScope được đào tạo trên dữ liệu văn bản và hình ảnh, giống như bộ tạo hình ảnh, và sau đó còn được cung cấp video để cho mô hình thấy cách chuyển động nên trông như thế nào
Nhưng công nghệ video tạo ra này không thể loại bỏ con người khỏi quá trình làm phim. Wonder Dynamics, một công ty cho phép nhà làm phim kéo và thả nhân vật được tạo ra bằng máy tính vào video, sử dụng trí tuệ nhân tạo để cung cấp một cách rẻ hơn để hiệu ứng hình ảnh thị giác xuất hiện trong phim
Thành công của trí tuệ nhân tạo trong lĩnh vực điện ảnh sẽ phụ thuộc vào khả năng nó có thể tái tạo được điều kỳ diệu đó. Các cố gắng cho đến nay đã làm say đắm nhưng cuối cùng là thất vọng hoặc có hại, làm nhắc nhở rằng chỉ vì trí tuệ nhân tạo có thể kỹ sư hóa nội dung không có nghĩa là nó nên làm
Thực sự, còn nhiều không gian để cải thiện, mà một số người tin rằng đang ở phía trước. "Tôi nghi ngờ rằng trong tương lai có thể tạo ra nội dung mà người ta có thể tin tưởng và tốt và có thể gây ra cảm xúc của con người nhưng lại được thực hiện bởi diễn viên AI," Bovell nói. Cô nghĩ điều đó có thể xảy ra trong thập kỷ tới. Nhưng thậm chí nếu có thể, vẫn còn những câu hỏi về việc liệu đó có phải là điều khán giả muốn hay không. "Xã hội có thể quyết định rằng có điều gì đó về điều đó cảm thấy không đúng," cô nói.
Các video đặt ra những lo ngại đạo đức khác nhau. Hiện tại, các đoạn video chuyển đổi văn bản thành video chủ yếu là không tin được. Nhưng khi công nghệ tiến triển, nó có thể làm cho việc tạo ra deepfake hấp dẫn trở nên dễ dàng với chỉ vài dòng văn bản. Và, giống như bộ tạo hình ảnh, chúng có thể phải đối mặt với các vụ kiện bản quyền về việc sử dụng hình ảnh không sở hữu.
Việc tạo ra một bộ phim hoặc chương trình từ một bộ tạo và vài dòng văn bản là một công việc lớn, nhưng kết hợp các công cụ trí tuệ nhân tạo khác nhau có thể làm cho điều đó trở nên khả thi, Passos nói. ChatGPT có thể viết kịch bản, một bộ tạo giọng có thể đọc nó, bộ tạo video có thể tạo ra hình ảnh, và sau đó tất cả các phần có thể được biên tập lại với nhau. "Bạn đã có những khối xây dựng này rồi," Passos nói. "Một mô hình làm tất cả có thể còn xa. Nhưng những bước nhảy này có thể đến trong vài tuần."
