Podcast của Trí tuệ Nhân tạo Đa tạo Đã Xuất Hiện. Hãy Chuẩn Bị Cho Sự Chán Chường

Nhìn chung về podcast: Có quá nhiều.
Hơn 4 triệu, để cụ thể, theo cơ sở dữ liệu Podcast Index. Chỉ trong ba ngày gần đây, gần 103,000 tập podcast cá nhân đã được xuất bản trực tuyến, một lũ nội dung âm thanh quá lớn để người nghe không bao giờ hết lựa chọn. Bạn có thể dành phần còn lại của cuộc đời mình để nghe qua danh mục true crime hiện tại trên Apple Podcasts hoặc chương trình thể thao trên Spotify và kết thúc bằng cách chết già vào năm 2070 trong khi Michael Barbaro đọc một quảng cáo cho Mailchimp cho xác của bạn.

Trong làn sóng đào vàng trí tuệ nhân tạo đang diễn ra, các doanh nhân nhanh trí đang tìm cách gia nhập thậm chí vào các thị trường đã quá bão hòa nhất. Một loạt các startup, bao gồm ElevenLabs, WondercraftAI và Podcastle, đã giới thiệu các công cụ dễ sử dụng để tạo giọng trí tuệ nhân tạo chỉ trong vài phút. Vậy nên, như một dấu hiệu, podcast của trí tuệ nhân tạo đã xuất hiện, dù có ai muốn hay không.
Trong những ngày đầu này, không ai theo dõi số lượng người nghe thể loại podcast mới kỳ lạ này. Các trung tâm lớn như Apple Podcasts và Spotify không có bảng xếp hạng riêng cho các robot dẫn chương trình. Tuy nhiên, có một số podcast trí tuệ nhân tạo cá nhân đã thu hút rõ ràng khán giả, ít nhất là đối với loạt tập đầu tiên của họ.
Podcast trí tuệ nhân tạo đầu tiên trở nên phổ biến đã lừa một chút - nó sử dụng giọng của người dẫn chương trình podcast con người phổ biến nhất trên thế giới. The Joe Rogan AI Experience là một loạt mô phỏng của Rogan trò chuyện với các khách mời (cũng là giả mạo) như Giám đốc điều hành OpenAI Sam Altman và cựu tổng thống Donald Trump. Ngay sau khi tập đầu tiên được phát sóng, Rogan thật sự đã tweet một liên kết đến nó. “Điều này sẽ trở nên rất nguy hiểm, các em,” ông viết.
Trên YouTube, video này thu hút hơn nửa triệu lượt xem. Một số người nghe thậm chí không quan tâm nó là trí tuệ nhân tạo. “Đối với tôi, đây thực sự là đủ tốt. Đồ tốt,” một người viết.
The Joe Rogan AI Experience được tạo ra bởi một người hâm mộ của Rogan tên là Hugo. (Ông từ chối cung cấp tên đầy đủ của mình cho MYTOUR vì ông không muốn liên kết chuyên nghiệp với dự án.) Ông có một Patreon để hỗ trợ sản xuất chương trình và gần đây đã bật kiếm tiền trên YouTube, nhưng ông không mong đợi có bất kỳ thu nhập thực sự nào từ đó - đặc biệt khi ông nhận ra rằng mình không có sự đồng thuận để sử dụng giọng và hình ảnh của Rogan, và các nền tảng podcast có thể kết thúc cấm loại mô phỏng này.
Hugo tạo ra loạt phim vì ông muốn trình bày những gì công cụ giọng AI có thể làm. Mặc dù ông chỉnh sửa cẩn thận các tập phim để chúng lưu thông cho người nghe - chúng có thể mất nhiều ngày hoặc thậm chí vài tuần để làm đúng - nhưng ông không nghĩ cuộc trò chuyện chính nó thực sự cuốn hút, ngay cả khi chúng là bản sao khá chính xác. “Ngoài việc nghe podcast vì sự tiến bộ công nghệ, không có ý nghĩa nào cả,” Hugo nói. “Đó chỉ là thời gian lãng phí.”
Không rõ liệu khán giả sẽ tiếp tục theo dõi, hay họ chỉ muốn kiểm tra một cái gì đó kỳ lạ và mới; Hugo đã phát hành bốn tập và mỗi tập tiếp theo đều thu hút một lượng khán giả nhỏ hơn so với tập trước đó.
MYTOUR nói chuyện với một số người sáng tạo khác của podcast được tạo ra bởi trí tuệ nhân tạo và họ đồng thanh với quan điểm của Hugo. Họ thích thú khi chơi với công nghệ, nhưng họ coi kết quả cuối cùng là một sản phẩm phụ của thử nghiệm. Ví dụ, kỹ sư âm thanh đến từ Israel Lior Sol đã tạo một podcast kỳ lạ mang tên Myself, I Am and That sử dụng công cụ của ElevenLabs. Anh ấy tạo ra một bản sao giọng của mình và sau đó là một bản sao của bản sao đó trong một cuộc trò chuyện cực kỳ meta. “Tôi chắc chắn đang có niềm vui với nó,” anh ấy nói. Nhưng điều đó không có nghĩa là anh ấy đang theo đuổi khán giả lớn. Hiện tại, số người nghe của anh ấy chỉ đếm trên vài chục người. Bạn bè anh ấy thích nó, anh ấy thích nó - đó là một dự án nghệ thuật và cơ hội để nghịch với công nghệ mới, không phải là một cố gắng tạo ra một cái gì đó thương mại.
Một số nhà sáng tạo thậm chí không mong đợi khán giả thích sản phẩm của họ, đặc biệt là khi tính mới mẻ mất đi. Andi Durrant, ví dụ, đã giúp tạo ra một podcast được tạo ra bởi trí tuệ nhân tạo mang tên Synthetic Stories tại công ty tiếp thị nội dung của anh ấy tại Vương quốc Anh. Ngoài giọng của người dẫn bản sao, mọi yếu tố khác của Synthetic Stories đều được tạo ra bởi trí tuệ nhân tạo, bao gồm kịch bản và thiết kế âm thanh. “Chúng tôi tự hào về nó như một thử nghiệm,” Durrant nói. Nhưng như một tác phẩm sáng tạo, đúng không? “Bạn sẽ nhanh chóng nhận ra những hạn chế.”
Tuy nhiên, Dimitris Nikolaou, CEO của startup podcast AI WondercraftAI, tin rằng khán giả có thể phát triển lòng trung thành với podcast được tạo ra bởi trí tuệ nhân tạo. Đội của ông đã tạo ra Hacker News Recap, cung cấp bản tóm tắt ngắn hàng ngày về những câu chuyện hàng đầu trên diễn đàn Hacker News do Y Combinator quản lý, như là bằng chứng để cho thấy nền tảng của mình có thể làm gì. Hiện nó đang đứng ở vị trí số 31 trên bảng xếp hạng công nghệ của Apple Podcasts ở Mỹ. (Ở nơi khác, nó đang hoạt động tốt hơn. “Hiện tại, chúng tôi đang ở vị trí thứ hai tại Latvia vì một lý do nào đó,” Nikolaou nói.)
Nikolaou không nghĩ rằng kịch bản được tạo ra bởi trí tuệ nhân tạo của Hacker News Recap có vượt trội hơn so với những kịch bản do con người viết, hoặc giọng nhân tạo của nó có êm tai hơn. “Không có gì đặc biệt cả. Đó là cùng nội dung bạn sẽ tìm thấy trong bất kỳ podcast công nghệ nào khác,” ông nói. “Điều quan trọng là chúng tôi có thể đều đặn và phát sóng mỗi sáng, dù có chuyện gì.”
Podcast được thiết kế để giới thiệu cách dịch vụ của Wondercraft hoạt động: Cả kịch bản và âm thanh đều được tạo ra bởi trí tuệ nhân tạo dựa trên bất kỳ bài viết nào xuất hiện ở đầu trang của Hacker News. (Wondercraft đã có sự cho phép của Y Combinator để sử dụng nội dung của nó, điều này không có gì ngạc nhiên; tổ chức ủy quyền khởi nghiệp này cũng là một trong những nhà đầu tư của Wondercraft.) Đối với những người chỉ muốn một tóm tắt thông tin dưới dạng âm thanh, đó là một sự đều đặn.
Ông cũng tin rằng Wondercraft sẽ thu hút một số loại người sáng tạo độc lập, như những người viết bản tin có thể muốn phát phiên bản âm thanh của bài blog của họ nhưng không có thời gian để làm điều đó hoặc không có tiền để thuê người đọc.
Người dẫn chương trình của con người đã bắt đầu chấp nhận các công cụ chỉnh sửa AI, mà thường được sử dụng bởi các hãng phát thanh lớn. Những công cụ này có thể đơn giản hóa các công việc như loại bỏ tiếng ồn nền hoặc làm rõ những từ nói nhỏ nhẹ. Và một số người đang thử nghiệm ý tưởng sao chép giọng nói của họ cho quảng cáo. Tuần này, ví dụ, người sáng lập The Ringer Bill Simmons đã thảo luận về khả năng phát triển quảng cáo do giọng nói giả tạo của các người dẫn chương trình cho bộ podcast Spotify của mình.
Tuy nhiên, người dẫn chương trình được tạo hoàn toàn bởi trí tuệ nhân tạo là một câu chuyện khác.
Đồng dẫn chương trình Who? Weekly Bobby Finger và Lindsey Weber nhìn thấy khả năng sử dụng công cụ chỉnh sửa AI, nhưng họ không dự đoán rằng công cụ tạo giọng nói AI sẽ mang lại giá trị thực sự cho podcast yêu quý của họ đã tồn tại lâu dài. “Cách duy nhất nó sẽ hợp lý là trong một trò đùa đen tối,” Finger nói. “Nó không thuyết phục.”
Kelsey McKinney, người dẫn chương trình của chương trình gặt hái thành công gần đây Normal Gossip, nghi ngờ rằng podcast được tạo bởi trí tuệ nhân tạo sẽ kết nối với khán giả theo cách lâu dài. “Cái AI này, tôi thấy ghét nó, ở mọi hình thức,” cô nói. “Mọi người muốn cảm thấy kết nối với nhau. Lý do mà podcast rất phổ biến là vì người nghe cảm thấy kết nối với những người tạo ra chúng.”
McKinney nhìn nhận rằng podcast AI là một phần của một đợt đẩy mạnh lớn hơn từ các tập đoàn giải trí để tự động hóa và giảm giá trị nghệ thuật - một nỗ lực được dẫn dắt bởi các nhà quản lý cắt giảm chi phí chứ không phải là người sáng tạo. “Họ muốn sử dụng AI cho podcast. Họ muốn sử dụng AI cho viết kịch bản. Họ muốn sử dụng AI cho diễn viên,” cô nói. “Điều họ đang cố gắng nói là họ không muốn trả tiền cho những người sáng tạo.”
Đặc biệt là với các podcast như Who? Weekly và Normal Gossip - thân mật, nói lung tung, hài hước, kỳ cục - sức hấp dẫn chính của việc nghe hàng tuần là nghe những gì con người cụ thể ở micro muốn nói. Cho dù công nghệ có tiến triển đến đâu, ý tưởng rằng một con robot có thể sao chép hoàn toàn trải nghiệm vẫn chỉ là khoa học viễn tưởng thuần túy. (Spike Jonze’s Her 2: Her Starts a Podcast ra mắt rạp vào năm 2033.)
Điều đó không có nghĩa là Nikolaou sai với Hacker News Recap; có những người rõ ràng muốn các bài viết tin tức tóm tắt được đọc bởi một giọng nói nhân tạo dễ thương không có tính cách. Nhưng các bài viết tóm tắt tin tức không đại diện cho đa số lớn podcast phổ biến. Phương tiện này được định nghĩa bởi sự thân mật, bởi người nghe cảm giác như họ đang nghe một cuộc trò chuyện giữa những người bạn cũ, hoặc ngồi ở phía sau phòng trong một buổi hội thảo đặc biệt tuyệt vời. Trong cuốn sách của mình năm 2022 Podcasting as an Intimate Medium, nghiên cứu podcast Alyn Euritt mô tả cách người nghe có thể xem bản thân họ như “thành viên của một cộng đồng quốc gia tưởng tượng.” Trong các lĩnh vực như chương trình tóm tắt tin tức, một con robot có thể đủ.
Podcast AI là một bong bóng nhỏ trong thị trường lớn hơn đang phình lên cho các sản phẩm và dịch vụ AI tạo ra, nhưng chúng giải thích những căng thẳng rộng lớn bên trong ngành công nghiệp trẻ này. Công nghệ đồng thời là phức tạp và giả tạo - nó có thể tạo ra âm thanh và hình ảnh giống như thực tế, miễn là bạn không để ý kỹ, nhưng chi tiết sai hoàn toàn. Và hiện tại, các cuộc thảo luận về tác động của AI đang bị biến dạng hoàn toàn bởi sự phô trương.
Chúng ta nhầm lẫn giữa việc thu hút sự chú ý và đổi mới trong mô hình.
