Ước tính chi phí cho một MV âm nhạc như vậy có thể không phải là rẻ đối với người không chuyên, nhưng lại rất hấp dẫn với nghệ sĩ chuyên nghiệp.
Trong bối cảnh sự phát triển của trí tuệ nhân tạo, Sora là một cái tên thu hút sự chú ý đặc biệt với khả năng tạo ra các video chân thực chỉ từ văn bản - mở ra một khả năng mới cho quá trình sản xuất video.
Nhiều nghệ sĩ đã bắt đầu kết hợp các đoạn video ngắn tạo ra bởi Sora để tạo ra các video âm nhạc dài hơn và giàu ý nghĩa hơn, như Paul Trillo - một nghệ sĩ đa năng.
Một MV âm nhạc có tên 'The Hardest part' đã được tạo ra hoàn toàn bằng Sora, đề cập đến hành trình của một cặp đôi từ thời đi học đến khi lập gia đình.
Paul Trillo cho biết việc tạo ra MV 'The Hardest Part' đã sử dụng các tính năng tiên tiến của Sora, nhưng hiện chỉ dành cho một số nghệ sĩ được lựa chọn.
Paul ước tính rằng để tạo ra MV 'The Hardest Part' dài hơn 4 phút, anh đã tạo ra khoảng 700 đoạn video khác nhau, tạo ra tổng cộng 230 phút video.
Sản xuất một bộ phim bằng Sora sẽ tốn kém bao nhiêu?
Do dự án này của Trillo được thực hiện trong bí mật, các thông tin về chi phí không được tiết lộ. Tuy nhiên, trang fxguide đã tiến hành một nghiên cứu để ước tính chi phí cho dự án video dài 5 phút này.
Mặc dù việc huấn luyện một mô hình AI như Sora rất tốn kém, nhưng chi phí sử dụng nó có thể thấp hơn nhiều. Theo ước tính của fxguide, việc tạo ra một video 5 phút bằng Sora có thể chỉ mất một giờ vận hành của GPU NVIDIA H100.
Do đó, để tạo ra 230 phút video bằng Sora, sẽ cần tận dụng GPU NVIDIA H100 trong 46 giờ. Với chi phí khoảng 14 USD mỗi giờ, chi phí cho video dài gần 4 phút này sẽ là khoảng 644 USD.
Dù mức giá này có thể cao đối với người không chuyên, nhưng đối với nghệ sĩ chuyên nghiệp, đây là một khoản chi phí hợp lý để tạo ra một MV âm nhạc với nhiều kỹ xảo hình ảnh.
Việc tạo ra câu lệnh cho Sora cũng không dễ dàng. Điều này bởi vì Sora không được huấn luyện cho riêng các thuật ngữ điện ảnh, do đó các nhà làm phim phải diễn đạt câu lệnh của họ bằng ngôn ngữ thông dụng hơn.
Ví dụ, một trong những câu lệnh được Paul sử dụng trong The Hardest Part là một đoạn văn hơn 1.000 từ, mô tả chi tiết về từng cảnh quay sẽ diễn ra và cách chúng được ghép nối với nhau để tạo nên một đoạn phim hoàn chỉnh.
Vậy nên, lời khuyên của Paul là: 'Hãy dám thử, đưa cho nó những thứ mới lạ, thất bại, và thử lại. Sử dụng trí tưởng tượng của bạn để hình dung những điều bạn muốn và cố gắng diễn đạt chúng như khi bạn nói chuyện với một đứa trẻ.'
Dưới đây là một ví dụ mà Paul đã minh họa cho một trong những câu lệnh được sử dụng trong The Hardest Part:
'Bắn liên tục tiến về phía trước, phóng qua thời gian, với cảnh quay của hành lang trường trung học những năm 1980 với sàn gạch ô vuông, rộn ràng với học sinh đi lại. Cảnh quay được ghi lại từ góc nhìn thấp phía trước, hiển thị một cánh cửa ở cuối hành lang trở nên lớn hơn và gần hơn. Cảnh quay mờ, cho thấy sự di chuyển nhanh chóng. Bắn ảnh mang tính chất u ám và điện ảnh, với một chút viển vông và gam màu ấm áp, cổ điển. Ảnh được chụp trên bộ phim 35mm, film Fuji từ những năm 90 với ống kính thấu kính 24mm. Mờ động khi chúng ta phóng qua liên tục, dùng film analog. • Góc nhìn một điểm nhìn trước (FPV), bắn liên tục tiến về phía trước, phóng qua thời gian và qua cửa vào, với cảnh quay của một lớp học mở của học sinh mặc đồ những năm 80. Chúng ta phóng qua học sinh đang nhìn về phía trước của lớp học đang chạy trước mặt ống kính. Lớp học có một cảm giác đặc trưng của những năm 80. Cảnh quay được ghi lại từ góc nhìn phía trước, cho thấy học sinh trở nên lớn dần. Chúng ta nhìn thấy hai học sinh, một học sinh nam với mái tóc đen và áo khoác jean liếm đang trực tiếp mắt với một học sinh nữ cũng mặc áo khoác jean. Học sinh nữ đang nhai kẹo cao su và làm một bong bóng từ kẹo cao su hồng. Cảnh quay mờ, cho thấy sự di chuyển nhanh chóng. Bắn ảnh mang tính chất u ám và điện ảnh, với một chút viển vông và gam màu ấm áp, cổ điển. Ảnh được chụp trên bộ phim 35mm, film Fuji từ những năm 90 với ống kính thấu kính 24mm. Mờ động khi chúng ta phóng qua liên tục, dùng film analog. • Góc nhìn một điểm nhìn trước (FPV), bắn liên tục tiến về phía trước, phóng qua lớp học, với một chàng trai 18 tuổi có mái tóc đen và áo khoác jean trực tiếp mắt với một học sinh nữ cũng mặc áo khoác jean. Cô gái làm một bong bóng từ kẹo cao su hồng trước ống kính. Chúng ta phóng qua bong bóng nó vỡ và chúng ta phóng qua kẹo cao su và đi vào một sân bóng đá mở. Cảnh quay di chuyển nhanh chóng, hiển thị một góc nhìn phía trước, cho thấy học sinh trở nên lớn dần và nhanh hơn. Cảnh quay mờ, cho thấy sự di chuyển nhanh chóng. Bắn ảnh mang tính chất u ám và điện ảnh, với một chút viển vông và gam màu ấm áp, cổ điển. Ảnh được chụp trên bộ phim 35mm, film Fuji từ những năm 90 với ống kính thấu kính 24mm. Mờ động khi chúng ta phóng qua liên tục, dùng film analog. • Góc nhìn một điểm nhìn trước (FPV), bắn liên tục tiến về phía trước, phóng qua sân bóng đá mở bị u ám, từ những năm 1980, với các khán đài ở phía xa phía sau. Ở giữa cảnh quay là cùng một chàng trai và cô gái trong áo khoác jean, với lưng tựa vào camera đi bộ trên sân. Chúng ta thấy họ đang nắm tay nhau camera zoom vào những bàn tay của họ nắm chặt. Cảnh quay di chuyển nhanh chóng, hiển thị một góc nhìn phía trước của bản thị của thị trấn trở nên nhỏ bé và xa hơn vào ban đêm. Cảnh quay mờ, cho thấy sự di chuyển nhanh chóng. Bắn ảnh mang tính chất u ám và điện ảnh, với một chút viển vông và gam màu ấm áp, cổ điển. Ảnh được chụp trên bộ phim 35mm, film Fuji từ những năm 90 với ống kính thấu kính 24mm. Mờ động khi chúng ta phóng qua li'