Có Phải Đây Là Những Video Deepfakes Ẩn Trong Bộ Phim về Anthony Bourdain?

Khi Roadrunner, một bộ phim tài liệu về đầu bếp và người du lịch trễ Anthony Bourdain, ra mắt trong các rạp tháng trước, đạo diễn Morgan Neville đã làm phong phú thêm các cuộc phỏng vấn quảng bá bằng một sự tiết lộ phi thường đối với một nhà làm phim tài liệu. Một số từ ngữ mà khán giả nghe Bourdain nói trong bộ phim được làm giả mạo bằng phần mềm trí tuệ nhân tạo được sử dụng để bắt chước giọng của ngôi sao.
Những cáo buộc từ các fan của Bourdain rằng Neville đã hành động một cách không đạo đức nhanh chóng trở thành điểm nổi bật trong sự chú ý đối với bộ phim. Mặc dù có sự chú ý đó, việc nhiều phần giọng của Bourdain được giả mạo trong bộ phim hai giờ, và nói gì, đã không rõ ràng cho đến bây giờ.
Trong cuộc phỏng vấn làm cho bộ phim của ông trở nên nổi tiếng, Neville nói với The New Yorker rằng ông đã tạo ra ba đoạn video giả mạo Bourdain với sự cho phép của di sản của ông, tất cả từ những từ ngữ mà đầu bếp đã viết hoặc nói nhưng không có sẵn dưới dạng âm thanh. Ông chỉ tiết lộ một đoạn, một email Bourdain “đọc” trong đoạn quảng cáo của bộ phim, nhưng khoe khoang rằng hai đoạn video còn lại sẽ không thể phát hiện. “Nếu bạn xem bộ phim,” The New Yorker dẫn lời Neville, người đoạt giải Oscar nói, “bạn có lẽ không biết những đoạn khác là gì mà AI đã nói, và bạn sẽ không biết.”
Chuyên gia âm thanh tại Pindrop, một công ty khởi nghiệp giúp ngân hàng và người khác chống lại gian lận điện thoại, nghĩ họ đã biết. Nếu phân tích của công ty là chính xác, tranh cãi về deepfake Bourdain xuất phát từ ít hơn 50 giây âm thanh trong bộ phim kéo dài 118 phút.
Phân tích của Pindrop đã đánh dấu đoạn trích email được Neville tiết lộ và cũng một đoạn video ở đầu phim có vẻ được rút ra từ một bài luận Bourdain viết về Việt Nam có tựa đề “Người Mỹ Đói,” được thu thập trong cuốn sách năm 2008 của ông, The Nasty Bits. Nó cũng nhấn mạnh âm thanh ở giữa bộ phim trong đó đầu bếp nhận xét rằng nhiều đầu bếp và nhà văn có “bản năng không ngừng để phá hủy điều tốt lành.” Những câu cùng xuất hiện trong một cuộc phỏng vấn với trang web thực phẩm First We Feast nhân dịp sinh nhật lần thứ 60 của ông vào năm 2016, hai năm trước khi ông qua đời tự tử.
Tất cả ba đoạn video đều nghe có vẻ như Bourdain. Tuy nhiên, khi nghe kỹ, chúng có vẻ mang những đặc điểm của giọng tổng hợp, như ngữ điệu lạ và các âm thanh như “s” và “f” kỳ quặc. Một người dùng Reddit độc lập đã gắn cờ ba đoạn video giống như Pindrop, viết rằng chúng dễ nghe khi xem bộ phim lần thứ hai. Hãng phân phối bộ phim, Focus Features, không phản hồi lại yêu cầu bình luận; công ty sản xuất của Neville từ chối bình luận.
Khi Neville dự đoán rằng việc sử dụng phương tiện truyền thông được tạo ra bằng trí tuệ nhân tạo, đôi khi được gọi là deepfakes, của ông sẽ không thể phát hiện được, có thể ông đã đánh giá cao sự tinh tế của sự giả mạo của mình. Ông có lẽ không dự đoán được sự tranh cãi hoặc sự chú ý mà việc sử dụng kỹ thuật này của ông sẽ thu hút từ người hâm mộ và chuyên gia âm thanh. Khi sự xôn xao đến tai các nhà nghiên cứu tại Pindrop, họ nhìn thấy đây là trường hợp thử nghiệm hoàn hảo cho phần mềm họ xây dựng để phát hiện deepfakes âm thanh; họ đặt nó vào hoạt động khi bộ phim ra mắt trên các dịch vụ phát trực tuyến đầu tiên tháng này. “Chúng tôi luôn tìm cách để kiểm tra hệ thống của mình, đặc biệt là trong điều kiện thực tế - đây là một cách mới để xác nhận công nghệ của chúng tôi,” Collin Davis, giám đốc công nghệ của Pindrop, nói.
Kết quả của Pindrop có thể đã giải quyết bí ẩn về deepfakes mà Neville đã làm mất, nhưng sự kiện này báo trước về những tranh cãi trong tương lai khi deepfakes trở nên phức tạp và dễ tiếp cận hơn cho cả các dự án sáng tạo và độc hại.
Công nghệ deepfake đã trở nên thuyết phục hơn và dễ truy cập hơn trong những năm gần đây. Một số người đã bị hại bởi deepfakes khiêu dâm được sử dụng để kích thích hoặc quấy rối. Nhưng rất ít người trong xã hội đã bị tác động trực tiếp hoặc bị đánh lừa bởi công nghệ này. Mặc dù có những cuộc thảo luận sợ hãi trong giới học thuật và Quốc hội về khả năng mất mát lớn do deepfake, nhưng đến nay, đe doạ chủ yếu là giả định.
Dự án của Neville đã làm cho deepfakes trở nên rất thực tế với người hâm mộ của Bourdain. Hàng triệu người cảm thấy có mối quan hệ cá nhân với đầu bếp, người có thể khiến tính chân thật lan tỏa từ màn hình. Những đoạn video giả mạo là một lời nhắc châm biếm rằng những mối quan hệ đó luôn luôn được lọc qua công nghệ và bởi các chuyên gia truyền thông như Neville. “Nếu bạn biết rằng công nghệ mà bạn nghĩ làm cho mối quan hệ này chân thật đang thực sự làm suy giảm nó, điều đó tạo ra một cuộc khủng hoảng,” William Little, giáo sư nghiên cứu truyền thông tại Đại học Virginia. Ông giảng dạy một khóa học về AI và phim và sẽ thêm Roadrunner vào chương trình học như một nghiên cứu trường hợp về một số câu hỏi do công nghệ đặt ra.
Neville, người chưa bao giờ gặp Bourdain, nói với GQ rằng anh đã chuyển sang âm thanh deepfake vì anh muốn sử dụng suy nghĩ của ngôi sao mà không có sẵn trên băng. “Tôi không đặt lời vào miệng anh ấy. Tôi chỉ muốn làm cho chúng trở nên sống động,” anh ấy nói. Có thể anh ấy cũng nhìn thấy công nghệ này như một cách để thu hút sự chú ý cho bộ phim của mình.
Việc deepfake chủ đề của bộ phim này thậm chí còn có một sự logic nhất định: Roadrunner nói về những bản dạng khác nhau của Bourdain và những cảm xúc đối nghịch mà chúng gây ra trong những người xung quanh anh và chính ngôi sao. Liệu Bourdain có phải là người hùng chân thật nhưng tốt bụng mà người xem yêu mến, hay “gã phiền toái” như bạn bè nói anh ấy có thể là ngoài camera? Một nhà thám hiểm đầy lòng trắc ẩn hay chỉ là một gã trắng đeo kính mũ bảo hiểm đang nhảy dù vào các địa điểm nước ngoài với một đội ngũ quay phim? Và tại sao anh ấy lại khó mừng?
Việc Neville sử dụng deepfakes để theo đuổi những câu hỏi đó ở một số khía cạnh không khác biệt quá nhiều so với những kỹ thuật tài liệu nổi tiếng và được chấp nhận khác cũng có một mức độ nghệ thuật. Một số trong Roadrunner có lẽ đã trông có vẻ lừa dối vào những thời kỳ trước đây.
Neville có Bourdain kể lại cuộc đời mình trong bộ phim từ bên kia lăng mộ trong một tấm thảm âm thanh được rút từ chương trình truyền hình, sách nói, đài phát thanh và podcast. Deepfakes chỉ cung cấp một vài sợi nhỏ. Và bộ phim sử dụng những thủ thuật cắt ghép thông thường kết hợp âm thanh và video từ các thời điểm và địa điểm khác nhau một cách có thể làm bẽ bình hiện thực. Trong một cảnh, một đối tác kinh doanh của Bourdain kể lại một cuộc gọi điện thoại đáng chú ý, so với hình ảnh đầu tiên của ngôi sao nói chuyện trên điện thoại flip. Liệu đoạn clip từ kho lưu trữ có ghi lại phía anh ấy trong cuộc gọi đó không? Có lẽ không, nhưng ảo tưởng này giúp kể câu chuyện.
Hơn một thế kỷ kể từ khi bộ phim chuyển động đầu tiên xuất hiện, khán giả đã quen với những mánh khóe như vậy. Ngành truyền thông và kỳ vọng của khán giả đối với deepfakes vẫn đang trong quá trình phát triển. “Đây là điều mà mọi người đều đang đối mặt,” nói Sam Gregory, người làm việc về chính sách deepfakes tại tổ chức phi lợi nhuận Witness và thường xuyên nói chuyện với các nhà sản xuất truyền thông và công ty công nghệ về việc tiết lộ thông tin. “Mọi người nói chung đồng lòng với ý kiến rằng bạn cần có cách nào đó để thông báo cho người tiêu dùng hoặc người xem rằng có sự can thiệp nào đó,”
Một số đạo diễn đã thử nghiệm. Trong bộ phim tài liệu năm 2020 Welcome to Chechnya, về các nhà hoạt động LGBTQ bỏ chạy khỏi sự bức hại, một số đối tượng được che mặt sống ảo với khuôn mặt tổng hợp mô phỏng chuyển động khuôn mặt của họ. Những nhà sản xuất của bộ phim đã chủ ý ngừng lại không làm giả mạo hiện thực quá mức, tạo ra sự mờ ảo đáng sợ cho những chiếc mặt nạ số họ gọi là hào quang như một hình thức tiết lộ.
Âm thanh cung cấp ít cơ hội hơn cho những biểu hiện nhưng vẫn có khả năng thông báo cho người nghe về nguồn gốc của những gì họ đang nghe. Tại một điểm nào đó trong Roadrunner, một chú thích khuyến cáo người xem rằng họ đang nghe “GIỌNG LỒNG - NỢ.” Không rõ tại sao Neville không sử dụng một chú thích “âm thanh tổng hợp” cho các đoạn clip được tạo ra bởi trí tuệ nhân tạo của mình—hoặc liệu việc tiết lộ chúng trong bộ phim, không chỉ trong các cuộc phỏng vấn mà anh ta tự hào rằng chúng không thể phát hiện được, có thể đã làm dịu đi sự phản đối.
Đóng góp của Pindrop vào sự kiện tranh cãi về Roadrunner mô tả cách các bộ phát hiện deepfake có thể giúp phát hiện ra sự lừa dối nhưng cũng làm rõ rằng công nghệ này không phải là một phương thuốc kỳ diệu.
Để quét deepfake của Bourdain, công ty đã xử lý soundtrack của bộ phim để loại bỏ tiếng ồn và làm cho tiếng nói trở nên nổi bật hơn, sau đó chạy các đoạn chứa tiếng nói qua một bộ phát hiện deepfakes dựa trên máy học tìm kiếm chữ ký của giọng tổng hợp. Elie Khoury, giám đốc nghiên cứu của Pindrop, nói rằng một số hiện tượng này có thể được cảm nhận bằng tai người, nhưng những cái khác cần sự giúp đỡ của công nghệ.
Hệ thống của Pindrop đánh giá điểm deepfake từ 1 đến 100 cho mỗi đoạn tiếng nói trong Roadrunner; công ty xác định hai đoạn clip tổng hợp bị mất sau khi xem xét 30 đoạn có điểm số cao nhất, trong đó cũng bao gồm đoạn clip giả mạo được Neville tiết lộ. Kết quả của quá trình này cho thấy sức mạnh nhưng cũng một số hạn chế của việc phát hiện deepfake. Một số đoạn khác ngoài ba đoạn mà Pindrop cuối cùng tập trung cũng đạt điểm cao trong quét ban đầu.
Hầu hết được loại bỏ dễ dàng vì bị nhận dạng là giả mạo bằng cách nhận biết hình ảnh trên màn hình như cử chỉ môi của Bourdain, hoặc sử dụng các kỹ thuật phân tích âm thanh tiêu chuẩn nhận diện xử lý âm thanh thông thường, âm nhạc nặng, hoặc tiếng ồn nền. Davis của Pindrop nói rằng khi công ty cung cấp phát hiện gian lận trong các trung tâm cuộc gọi, các kết quả giả mạo có thể được kiểm tra bằng cách yêu cầu người gọi gây ra hệ thống cung cấp thêm thông tin bảo mật. Nhưng không phải mọi ví dụ về sự lừa dối deepfake đều cho phép xác minh hoặc kiểm tra chéo dễ dàng.
Một video gây tranh cãi về một chính trị gia bị bắt giữ trong cuộc đảo chính quân sự ở Myanmar năm nay là minh họa cho vấn đề đó. Trong đoạn clip, người đàn ông tuyên bố đã trả tiền hối lộ cho lãnh đạo Myanmar Aung San Suu Kyi bằng tiền mặt và vàng. Giọng điệu và khuôn mặt của anh ta trông bị méo mó. Các cáo buộc rằng đó là sản phẩm tổng hợp đã tăng mạnh sau khi một bức ảnh chụp màn hình từ một công cụ phát hiện deepfake trực tuyến tuyên bố rằng đoạn clip giả mạo với tỷ lệ 93% được đăng lên Twitter. Vụ án này chưa kết thúc, vì không có cách nào để xác nhận tuyên bố đó.
Các bộ phát hiện deepfake là một nghệ thuật mới nổi và các hệ thống khác nhau có thể tạo ra kết quả rất khác nhau. Kiến thức chuyên sâu về phân tích âm thanh và video cần thiết để diễn giải hoặc kiểm tra kết quả từ các công cụ như vậy. “Nếu bạn không cẩn thận, việc đưa ra các bộ phát hiện có thể làm cho việc phân biệt giữa giả mạo và thật trở nên khó khăn hơn,” Gregory của Witness nói. Anh ấy vẫn cho rằng tính xác thực của video ở Myanmar là chưa rõ.
Một bí ẩn còn lại về những deepfake về Bourdain gợi ý rằng sự kiện vẫn có thể mang đến nhiều bài học hơn. Neville nói với GQ rằng anh đã có Bourdains được tạo bởi bốn công ty khác nhau và chọn một cái nghe hay nhất, nhưng anh không xác định bất kỳ cái nào.
MYTOUR liên lạc với 10 công ty quảng cáo khả năng tổng hợp hoặc nhân bản giọng nói, từ các công ty khởi nghiệp nhỏ đến Google và Microsoft—một cuộc tập luyện làm nổi bật cách công nghệ này hiện đang rộng rãi sẵn có. Tất cả đều phủ nhận làm việc với Neville trong dự án của anh ấy. Một phân tích của Pindrop gợi ý rằng nhiều khả năng Bourdain đã được đưa giọng sau khi mất bằng một phiên bản của một kỹ thuật được công bố lần đầu bởi phân khúc AI DeepMind của Google vào năm 2016 và từ đó đã được tích hợp vào trợ lý ảo của Google và rộng rãi được triển khai lại trong phần mềm mã nguồn mở. Một người phát ngôn của DeepMind nói rằng công ty ủng hộ ý kiến rằng “không nên sử dụng giọng nói mà không có sự cho phép.”
- 📩 Tin mới nhất về công nghệ, khoa học, và nhiều hơn nữa: Đăng ký nhận bản tin của chúng tôi!
- Hàng trăm cách để hoàn thành mọi việc—và chúng ta vẫn chưa xong
- Tại sao tôi sẽ không bao giờ hoàn thành Legend of Zelda: Breath of the Wild
- Làm thế nào phải phải phải, phải phải phải, phải phải phải, phải phải phải
- Nơi để nhận giảm giá với địa chỉ email sinh viên của bạn
- Big Tech đang uốn cong theo ý chí của chính phủ Ấn Độ
- 👁️ Khám phá trí tuệ nhân tạo như chưa bao giờ trước đây với cơ sở dữ liệu mới của chúng tôi
- 🎮 MYTOUR Games: Nhận các mẹo, đánh giá, và nhiều hơn nữa
- ✨ Tối ưu hóa cuộc sống gia đình của bạn với những lựa chọn tốt nhất của đội ngũ Gear chúng tôi, từ máy hút bụi robot đến nệm giá rẻ đến loa thông minh
