Giọng tổng hợp muốn chiếm độc tài trong thế giới sách nói

Khi diễn viên lồng tiếng Heath Miller ngồi xuống trong phòng thu tại nhà thuyền nhỏ ở Maine để ghi âm một đoạn nói sách mới, anh ấy đã đọc kỹ văn bản ít nhất một lần. Để mang lại màn trình diễn tốt nhất, anh ấy ghi chú về mỗi nhân vật và mọi gợi ý về cách họ nên nghe. Trong hai năm qua, vai diễn sách nói, như việc diễn đọc bộ truyện tranh phổ biến Người Đấu Với Quái Vật, đã trở thành nguồn việc chính của Miller. Nhưng vào tháng 12, anh ấy ngắn ngủi trở thành nhà thám tử trực tuyến sau khi thấy một tweet từ tác giả khoa học viễn tưởng người Anh Jon Richter tiết lộ rằng cuốn sách nói mới nhất của ông không cần đến loại nghệ thuật mà Miller cung cấp: Nó được đọc bởi một giọng tổng hợp.
Sách của Richter trên Amazon's Audible ghi công giọng đó là “Nicholas Smith” mà không tiết lộ rằng nó không phải là con người. Điều đó làm cho Miller ngạc nhiên, ông phát hiện ra rằng “Smith” đã đọc tổng cộng khoảng một nửa tá sách trên trang web từ nhiều nhà xuất bản khác nhau—vi phạm quy tắc của Audible rằng sách nói “phải được đọc bởi con người.” Mặc dù “Smith” nghe có vẻ phong cách hơn so với giọng tổng hợp thông thường, theo tai của Miller, nó rõ ràng là nhân tạo và mang lại trải nghiệm kém hơn so với người kể chuyện. Nó mắc phải những lỗi ngớ ngẩn, như phát âm Covid thành “kah-viid” khi nói về đại dịch.
Miller tìm ra “Smith”—giọng nó trùng khớp với một mẫu được đăng trên SoundCloud bởi Speechki, một startup ở San Francisco cung cấp hơn 300 giọng tổng hợp cho xuất bản sách nói trên 77 tiếng địa ngục và ngôn ngữ. Anh ấy và các diễn giả và người hâm mộ âm thanh khác đã thảo luận về sách nói nhân tạo trên mạng và báo cáo các tựa sách đó cho Audible, sau đó được gỡ bỏ. Mặc dù không phải là một con số lớn, nhưng việc phát hiện ra rằng giọng tổng hợp đủ tốt để một số nhà xuất bản sử dụng chúng đã khiến Miller tự hỏi về tương lai của nghệ thuật và thu nhập của mình. “Đó là một chút kinh hoàng vì đó là sinh kế của tôi và của nhiều người tôi tôn trọng,” anh ấy nói.
Richter cho biết ông chọn giọng tổng hợp vì khái niệm và âm thanh “thung lũng kỳ lạ” phù hợp với cuốn sách của ông, trong đó có một phần mềm trí tuệ nhân tạo là một trong những nhân vật chính, và ông không biết đến chính sách của Audible. “Ý định của tôi không bao giờ là làm tổn thương hoặc làm tổn thất ai,” ông nói. Speechki cho biết họ khuyến nghị nhà xuất bản xác định rằng bản đọc là tổng hợp và thông báo về chính sách của Audible. Will Farrell-Green, giám đốc cấp cao tại Audible, nói trong một tuyên bố qua email rằng công ty sử dụng quy trình tự động và thủ công để thực hiện quy tắc của mình nhưng rằng “do lượng nội dung trên dịch vụ của chúng tôi, các tựa sách không tuân thủ đôi khi trôi qua.” Chính sách “chỉ con người” của Audible đã tồn tại ít nhất từ năm 2014, khi giọng tổng hợp còn kém thuyết phục nhiều, và công ty cho biết quy tắc này giúp mang lại những màn trình diễn mà người nghe mong đợi.
Giọng tổng hợp đã trở nên ít làm phiền trong những năm gần đây, một phần là do nghiên cứu trí tuệ nhân tạo của các công ty như Google và Amazon, cạnh tranh để cung cấp trợ lý ảo và dịch vụ đám mây với âm thanh nhân tạo mượt mà hơn. Những tiến bộ đó cũng đã được sử dụng để tạo ra các “deepfakes” chế ngự hiện thực. Speechki là một trong số nhiều startup phát triển tổng hợp giọng đọc sách nói. Nó phân tích văn bản bằng phần mềm nội bộ để đánh dấu cách nhấn khác nhau cho từng từ, đọc bằng công nghệ được chuyển giao từ các nhà cung cấp dịch vụ đám mây bao gồm Amazon, Microsoft và Google, và sử dụng người nghe chứng minh lỗi. Google đang thử nghiệm dịch vụ “tự đọc” của mình mà các nhà xuất bản có thể sử dụng để tạo ra sách nói tiếng Anh miễn phí, sử dụng hơn 20 giọng tổng hợp khác nhau. Sách nói được xuất bản thông qua chương trình bao gồm một lịch sử học kịch và khám phá về thái độ văn hóa đối với tình dục của một nhà văn. Người phát ngôn của Google, Dan Jackson, nói rằng sách tự đọc của họ bổ sung chứ không thay thế sách nói chuyên nghiệp. “Mục tiêu của chúng tôi với tự đọc là làm cho việc tạo sách nói giá thấp cho bất kỳ tiêu đề ebook nào trở nên khả thi và tăng cường khả năng tiếp cận nội dung đối với những người không thể đọc qua ebook,” ông nói.
Một số nhà xuất bản xem giọng tổng hợp là cách để khai thác nhu cầu ngày càng tăng về sách nói, một đoạn thị trường khỏe mạnh hơn so với các phần khác của ngành sách. Tổng doanh thu xuất bản sách tại Hoa Kỳ giảm nhẹ giữa 2015 và 2020 và doanh thu ebook giảm, nhưng doanh thu sách nói tăng 157%, theo Hiệp hội Xuất bản Mỹ. Người tiêu dùng đã ngày càng thoải mái với định dạng này, được hỗ trợ bởi sự cải thiện kỹ thuật của ứng dụng di động, loa thông minh và tai nghe không dây. Nhưng do chi phí của một người kể chuyện và sản xuất âm thanh, hầu hết các tiêu đề không bao giờ trở thành sách nói, đặc biệt là tại các nhà xuất bản nhỏ, theo Brian Carroll, quản lý quyền tại Đại học Indiana Press.
IU Press cấp phép một phần nhỏ của danh mục sách của mình cho sản xuất âm thanh truyền thống nhưng hiện là khách hàng của Speechki. Kế hoạch phát hành sách nói tổng hợp đầu tiên của họ sẽ diễn ra vào cuối năm nay. “Tất cả những cuốn sách khác cuối cùng cũng có cơ hội trở thành sách nói ngay bây giờ,” Carroll nói.
Công nghệ của Speechki đã ấn tượng trong các bài kiểm tra cho đến nay, Carroll nói, điều hướng ngôn ngữ học thuật của các tiêu đề về cổ sinh học và triết học. Một cuốn sách được chọn để sản xuất là Vòng quanh thế giới trong 80 ly chúc, trong đó phần mềm phải xử lý văn bản rải rác từ các ngôn ngữ khác nhau. “Chúng tôi nghĩ nếu nó có thể làm được điều này, nó sẽ có khả năng làm bất cứ điều gì, và nó đã làm một công việc khá tốt,” Carroll nói.
Taylan Kamis, CEO của DeepZen có trụ sở tại London, cho biết đọc tổng hợp có thể đền bù cho sự mất cân bằng toàn cầu trong sách nói, đa số là tiếng Anh. “Một loạt các tiêu đề không bao giờ được chuyển đổi thành âm thanh, hoặc chỉ được chuyển đổi thành tiếng Anh,” Kamis nói. DeepZen sử dụng công nghệ tổng hợp giọng nói nội bộ để nhân bản giọng của người kể chuyện chuyên nghiệp, với kết quả mà khách hàng sau đó có thể đưa vào sử dụng. Phần mềm của công ty tìm kiếm dấu hiệu trong văn bản của một cuốn sách để áp dụng bảy tông cảm xúc khác nhau, bao gồm sợ hãi và giận dữ.
Cả hai startup đều nói rằng họ không đe dọa nguy cơ của người kể chuyện chuyên nghiệp vì công nghệ của họ sẽ được sử dụng để tạo sách nói mà nếu không có công nghệ này sẽ không bao giờ được ghi âm. “Người và giọng tổng hợp có thể phát triển song song—có nhiều công việc,” Bill Wolfsthal, một người có kinh nghiệm lâu năm trong ngành sách, giúp đỡ Speechki về phát triển kinh doanh, nói. Nhưng kinh tế có thể nhìn đáng sợ đối với người kể chuyện chuyên nghiệp, người có thể nhận khoảng $250 mỗi giờ âm thanh hoàn chỉnh họ gửi đến một nhà xuất bản. DeepZen tính phí cho nhà xuất bản khoảng $120 cho mỗi giờ âm thanh hoàn chỉnh, hoặc ít hơn cho các khách hàng sẵn lòng kiềm chế chất lượng kiểm soát.
Kamis của DeepZen khẳng định công nghệ của ông có thể tăng thu nhập cho người kể chuyện nếu họ cho phép ông nhân bản giọng của họ vì họ sẽ nhận được tiền cước. Edward Herrmann, ngôi sao của loạt phim truyền hình Gilmore Girls và đọc sách từ các tác giả như Stephen King và Walter Isaacson, qua đời vào năm 2014 nhưng vẫn đọc sách mới ngày nay thông qua DeepZen, đã ký một thỏa thuận với gia đình diễn viên và nhân bản giọng của ông bằng cách sử dụng các bản ghi âm cũ. Các sách nói mới được đọc bởi Herrmann nhưng thông báo rằng ông là một “giọng tổng hợp,” như một lịch sử về trận chiến Stalingrad, có thể mua trên cửa hàng số của Apple và Google.
Bạn sẽ không tìm thấy sự tái sinh kỹ thuật số của Herrmann trên Amazon’s Audible, nơi chiếm ưu thế trong sách nói giống như cửa hàng của công ty trong bán sách giấy và số. Quy tắc lâu dài của Audible yêu cầu người kể chuyện con người đặt ra một hạn chế lớn đối với những khao khát của những người cung cấp giọng tổng hợp. Wolfsthal, người làm việc với Speechki, dự đoán rằng khi giọng tổng hợp trở nên phổ biến hơn trên các cửa hàng cạnh tranh, Audible sẽ cảm thấy áp lực để cho phép chúng.
Audible không chi tiết hóa các quy trình tự động và thủ công mà nó sử dụng để ngăn chặn giọng tổng hợp. Ngay cả sau khi dọn dẹp do Miller và người khác khởi xướng, MYTOUR phát hiện ra sách nói phi hư cấu được tạo ra bằng giọng DeepZen bởi công ty IT Governance Publishing ở Anh trên dịch vụ mà không tiết lộ rằng chúng được tổng hợp. “Alice White” được liệt kê là người đọc các tựa sách về bảo mật máy tính và luật bảo vệ dữ liệu EU và khớp với một mẫu trên trang chủ của DeepZen.
Những cuốn sách đó bây giờ đã biến mất. “Audible không sản xuất hoặc bán các tựa đề được đọc bởi trí tuệ nhân tạo; do đó, những tựa sách này đã bị gỡ bỏ,” Farrell-Green nói. Andreas Chrysostomou, quản lý quan hệ xuất bản tại IT Governance Publishing, nói với MYTOUR rằng danh sách của Google và Apple cho sách nói tổng hợp thiếu thông báo do nhầm lẫn với một nhà phân phối. Ông nói rằng công ty đã thử nghiệm công nghệ của DeepZen để đưa sách nói nhanh chóng hơn ra thị trường nhưng sau những đánh giá trái chiều, nó không có kế hoạch sản xuất thêm tựa sách theo cách này. Năm ngoái, một người mua viết trong đánh giá một sao rằng đó là “gần như không thể nghe được robot này sát hại ngôn ngữ tiếng Anh.” Chrysostomou nói rằng công ty hy vọng sẽ sớm sử dụng cả người và giọng tổng hợp, tùy thuộc vào sách và tiến triển trong trí tuệ nhân tạo.
Nếu sách nói với người đọc tổng hợp bắt đầu nhận được nhiều đánh giá tích cực hơn, số lượng nhỏ hiện có ngày nay có thể tăng nhanh—phần mềm có thể tạo ra âm thanh nhanh hơn so với con người.
Eline Blackman, người quản lý một blog về sách nói và cùng với Miller và những người khác săn và báo cáo sách nói tổng hợp trên Audible, có cảm xúc lẫn lộn khi thấy chúng trở nên phổ biến. Cô không nghĩ rằng công nghệ sẽ trở nên đủ tốt để đe dọa những người đọc hiện tại nhưng lo lắng rằng sản xuất trí tuệ nhân tạo rẻ hơn, ít gợi cảm có thể ngăn cản một số sách hoặc tác giả từ việc nhận được sự công nhận mà họ xứng đáng từ người nghe và các nhà phê bình. Cô cũng nhìn thấy những lợi ích nếu nhà xuất bản sử dụng công nghệ một cách cẩn thận. “Nếu điều đó có nghĩa là sẽ có nhiều sách hơn được cung cấp dưới định dạng âm thanh và điều đó khiến chúng trở nên dễ tiếp cận hơn, tôi hoàn toàn ủng hộ điều đó,” Blackman nói.
Những điều tuyệt vời khác của MYTOUR
- 📩 Những thông tin mới nhất về công nghệ, khoa học và nhiều hơn nữa: Nhận bản tin của chúng tôi!
- Chào mừng đến với Miami, nơi mà tất cả những meme của bạn trở thành sự thật!
- Làm thế nào để chuẩn bị cho ảnh hưởng ngay lập tức của biến đổi khí hậu
- Tại sao Big Tech im lặng về luật pháp phá thai ở Texas
- Mạng lưới chuyển đưa những phòng game của Nhật Bản đến Hoa Kỳ
- Nhược điểm của Zoom có thể đã tiết lộ cuộc gọi
- 👁️ Khám phá trí tuệ nhân tạo như chưa bao giờ với cơ sở dữ liệu mới của chúng tôi
- 📱 Lưỡng lự giữa những chiếc điện thoại mới nhất? Đừng lo lắng—kiểm tra hướng dẫn mua iPhone của chúng tôi và những chiếc điện thoại Android yêu thích
