Deepfakes Đang Trở Thành Công Cụ Đào Tạo Doanh Nghiệp Đầy Hứng Thú

Tháng này, tập đoàn quảng cáo khổng lồ WPP sẽ gửi những video đào tạo doanh nghiệp độc đáo đến hàng chục nghìn nhân viên trên toàn thế giới. Một người trình bày sẽ nói bằng ngôn ngữ của người nhận và gọi tên họ, trong khi giải thích một số khái niệm cơ bản về trí tuệ nhân tạo. Các video sẽ là minh chứng mạnh mẽ về những gì trí tuệ nhân tạo có thể làm: Khuôn mặt và những từ nó nói sẽ được tổng hợp bằng phần mềm.
WPP không quảng cáo chúng như vậy, nhưng các video đào tạo tổng hợp của họ có thể được gọi là deepfakes, một thuật ngữ mơ hồ được áp dụng cho hình ảnh hoặc video được tạo ra bằng trí tuệ nhân tạo có vẻ thật. Mặc dù nổi tiếng nhất là công cụ gây quấy rối, khiêu dâm hoặc sự giả mạo, trí tuệ nhân tạo tạo hình ảnh hiện nay đang được các tập đoàn lớn sử dụng cho mục đích như đào tạo doanh nghiệp.

Các video đào tạo không thật của WPP, được tạo ra bằng công nghệ từ công ty khởi nghiệp Synthesia ở London, không hoàn hảo. Giám đốc công nghệ của WPP, Stephan Pretorius, cho biết cách phát âm của người trình bày có thể không chính xác, lỗi khó chịu nhất trong một bản demo sơ bộ được MYTOUR xem có vẻ mượt mà về mặt hình ảnh. Nhưng khả năng cá nhân hóa và địa phương hóa video cho nhiều người tạo ra cảnh quay hấp dẫn hơn so với những video thông thường của doanh nghiệp, ông nói. “Công nghệ đang trở nên rất tốt rất nhanh,” Pretorius nói.
Sản xuất theo phong cách deepfake cũng có thể rẻ và nhanh chóng, một ưu điểm được tăng cường bởi các hạn chế của Covid-19 đã khiến việc quay video truyền thống trở nên phức tạp và rủi ro hơn. Pretorius nói rằng một chiến dịch giáo dục nội bộ trên toàn công ty có thể đòi hỏi 20 kịch bản khác nhau cho lực lượng lao động toàn cầu của WPP, mỗi kịch bản tốn hàng chục nghìn đô la để sản xuất. “Với Synthesia, chúng ta có thể có những hình ảnh biểu tượng đa dạng và nói tên và đại lý của bạn bằng ngôn ngữ của bạn và toàn bộ điều này có thể chỉ tốn 100.000 đô la,” ông nói. Trong chiến dịch đào tạo của mùa hè này, các ngôn ngữ được hạn chế chỉ bằng tiếng Anh, tiếng Tây Ban Nha và tiếng Quan Thoại. Pretorius hy vọng phân phát các đoạn video, 20 module mỗi module khoảng 5 phút, cho 50.000 nhân viên trong năm nay.
Thuật ngữ deepfakes bắt nguồn từ tên người dùng Reddit của người hoặc những người đã vào năm 2017 phát hành một loạt đoạn video khiêu dâm được sửa đổi bằng học máy để thêm vào các khuôn mặt của nữ diễn viên Hollywood. Mã của họ đã được phát hành trực tuyến, và các dạng công nghệ tạo video và hình ảnh AI khác nhau hiện có sẵn cho bất kỳ người tự học nào quan tâm. Deepfakes đã trở thành công cụ quấy rối chống lại những người hoạt động chính trị, và một nguyên nhân đáng lo ngại đối với các nhà lập pháp và các nhà điều hành truyền thông xã hội lo lắng về thông tin sai lệch chính trị, mặc dù chúng cũng được sử dụng cho mục đích vui vẻ, như để chèn Nicolas Cage vào những bộ phim mà anh không xuất hiện.
Deepfakes được tạo ra để kích thích, quấy rối, hoặc giải trí thường đi kèm với những lỗi rõ ràng. Các công ty khởi nghiệp hiện đang xây dựng công nghệ AI có thể tạo ra video và hình ảnh có thể được thay thế cho các đoạn video doanh nghiệp truyền thống hoặc hình ảnh tiếp thị. Điều này đến khi phương tiện tổng hợp, và con người, đang trở nên phổ biến hơn. Công ty tài năng nổi tiếng CAA gần đây đã ký hợp đồng với Lil Miquela, một người ảo Instagram được tạo bằng máy tính có hơn 2 triệu người theo dõi.

Rosebud AI chuyên tạo ra những hình ảnh bóng bẩy được sử dụng trong thương mại điện tử hoặc tiếp thị. Năm ngoái, công ty phát hành một bộ sưu tập gồm 25.000 bức ảnh mô hình của những người chưa từng tồn tại, cùng với các công cụ có thể thay thế khuôn mặt tổng hợp vào bất kỳ bức ảnh nào. Gần đây hơn, họ đã ra mắt dịch vụ có thể đặt quần áo chụp trên búp bê trên người mẫu ảo nhưng có vẻ thật.
Lisha Li, CEO và người sáng lập của Rosebud, nói rằng công ty có thể giúp các thương hiệu nhỏ có tài nguyên hạn chế tạo ra các bộ sưu tập hình ảnh mạnh mẽ hơn, với những gương mặt đa dạng hơn. “Nếu bạn là một thương hiệu muốn kể câu chuyện hình ảnh, trước đây bạn phải có một đội ngũ sáng tạo lớn, hoặc mua ảnh chụp sẵn,” cô nói. Bây giờ bạn có thể sử dụng thuật toán để tạo bộ sưu tập của mình thay vì.
JumpStory, một công ty khởi nghiệp ảnh chụp sẵn tại Højbjerg, Đan Mạch, đã thử nghiệm công nghệ của Rosebud. Họ đã xây dựng một doanh nghiệp xung quanh công nghệ học máy nội bộ cố gắng tạo ra một thư viện chỉ chứa những bức ảnh có hình ảnh ấn tượng nhất. Sử dụng công nghệ của Rosebud, JumpStory thử nghiệm một tính năng cho phép khách hàng thay đổi khuôn mặt trong một bức ảnh chụp sẵn chỉ với vài cú nhấp chuột, bao gồm thay đổi sắc tộc hình ảnh của một người, một công việc mà nếu không thì không thực tế hoặc cần công việc Photoshop cẩn thận.
Jonathan Low, CEO của JumpStory, nói rằng công ty đã chọn không ra mắt tính năng này, ưu tiên làm nổi bật sự chân thực của hình ảnh. Nhưng công nghệ này rất ấn tượng. “Nếu đó là một bức chân dung thì nó hoạt động cực kỳ tốt,” Low nói. Kết quả thường không tốt bằng khi khuôn mặt không rõ ràng trong một bức ảnh, chẳng hạn như trong một bức chụp toàn thân, ông nói.
Synthesia, startup ở London đã đưa ra sức mạnh cho dự án deepfake của WPP, tạo ra video có các người nói tổng hợp cho các khách hàng doanh nghiệp bao gồm Accenture và SAP. Năm ngoái, họ đã giúp David Beckham xuất hiện để đưa ra thông điệp về sự phòng chống sốt rét bằng nhiều ngôn ngữ khác nhau, bao gồm tiếng Hindi, tiếng Ả Rập và tiếng Kinyarwanda, được nói bởi hàng triệu người ở Rwanda.
Victor Riparbelli, CEO và đồng sáng lập Synthesia, nói rằng việc sử dụng rộng rãi video tổng hợp không thể tránh được vì người tiêu dùng và các công ty có nhu cầu lớn về video không thể đáp ứng bằng sản xuất truyền thống. “Chúng tôi đang nói hãy loại bỏ máy ảnh khỏi phương trình,” ông nói. Riparbelli nói rằng sự quan tâm vào công nghệ của ông đã tăng từ khi Covid-19 đóng cửa nhiều buổi quay video và buộc một số công ty phải ra mắt các chương trình đào tạo mới cho nhân viên.
Tạo video với các công cụ của Synthesia chỉ mất vài giây. Chọn một nhân vật từ danh sách, gõ kịch bản và nhấn nút “Tạo video.” Các nhân vật của công ty dựa trên người thật, họ nhận tiền hoa hồng dựa trên lượng video được tạo ra với hình ảnh của họ. Sau khi tiếp thu một số video thực sự của một người, các thuật toán của Synthesia có thể tạo ra các khung hình video mới để phù hợp với các chuyển động của khuôn mặt họ với từng từ của giọng nói tổng hợp, có thể tạo ra ở hơn hai mươi ngôn ngữ. Khách hàng có thể tạo ra nhân vật của riêng họ bằng cách cung cấp vài phút video mẫu của một người và cũng có thể tùy chỉnh môi trường xung quanh và giọng nói.

Riparbelli và những người khác đang làm việc để thương mại hóa deepfakes nói rằng họ đang tiến hành cẩn thận, không chỉ vội vàng kiếm tiền. Synthesia đã đăng tải các quy tắc đạo đức trực tuyến và nói rằng họ kiểm tra khách hàng và kịch bản của họ. Họ yêu cầu sự đồng ý chính thức từ một người trước khi họ tổng hợp hình ảnh của họ và không đụng đến nội dung chính trị. Rosebud có tuyên bố đạo đức riêng của họ, ít chi tiết hơn, cam kết chống lại việc sử dụng và tác động tiêu cực của hình ảnh tổng hợp.
Li, CEO của Rosebud, nói rằng công nghệ của cô nên mang lại nhiều lợi ích hơn là hại. Giúp đỡ một loạt người cạnh tranh, không cần ngân sách sản xuất lớn, sẽ thúc đẩy việc mở rộng các tiêu chuẩn về vẻ đẹp, cô nói. Công nghệ của cô có thể tạo ra mô hình giới tính không nhịn không hẳn, cũng như các dân tộc khác nhau. “Rất nhiều người dùng tôi đang làm việc với là chủ sở hữu thương hiệu thiểu số muốn tạo ra hình ảnh đa dạng để đại diện cho cơ sở người dùng của họ,” nói Li, người từng làm việc như một người mẫu hơn 10 năm trước khi có được bằng tiến sĩ tại Berkeley về thống kê và học máy và làm việc như một nhà đầu tư rủi ro.
Subbarao Kambhampati, giáo sư trí tuệ nhân tạo tại Đại học Arizona State, nói rằng công nghệ này ấn tượng nhưng đặt ra câu hỏi liệu một số khách hàng của Rosebud có sử dụng các mô hình tổng hợp đa dạng thay thế cho những người thật từ cộng đồng thiểu số không. “Nó có thể khiến chúng ta mắc phải cảm giác hoàn thành giả mạo khi nói về việc đại diện mà không thay đổi thực tế,” ông nói.
Khi hình ảnh tổng hợp di chuyển vào hàng loạt doanh nghiệp, các thương hiệu lớn và các công ty quảng cáo của họ sẽ có ảnh hưởng lớn đến cách mọi người trải nghiệm công nghệ. Pretorius của WPP nói rằng công ty của ông đang khám phá nhiều ứng dụng cho hình ảnh tổng hợp bằng trí tuệ nhân tạo, với những tác phẩm đã bao gồm một bức chân dung theo phong cách Rembrandt và các mô hình được tạo bằng số không phân biệt được với người thật. “Kỹ thuật chúng tôi có thể làm được nhưng chúng tôi đang điều chỉnh từ từ khi triển khai ra thị trường,” ông nói. Tổng cố vấn của công ty đang làm việc trên một bộ tiêu chuẩn đạo đức cho các mô hình tổng hợp và hình ảnh khác, bao gồm khi nào và cách để tiết lộ rằng một điều gì đó không phải là như nó có vẻ.
Những bài viết tuyệt vời khác từ MYTOUR
- Đất nước đang mở cửa trở lại. Tuy nhiên, tôi vẫn đang bị phong tỏa
- Muốn bắt đầu một podcast hoặc phát trực tiếp? Đây là những gì bạn cần
- Doomscrolling đang dần phá hoại sức khỏe tinh thần của bạn
- Roller derby cho phụ nữ có một kế hoạch cho Covid, và nó rất tuyệt vời
- Hacker Lexicon: Side channel attack là gì?
- 👁 Nếu thực hiện đúng cách, Trí tuệ Nhân tạo có thể làm cho công tác cảnh sát công bằng hơn. Ngoài ra: Nhận tin tức Trí tuệ Nhân tạo mới nhất
- ✨ Tối ưu hóa cuộc sống tại nhà của bạn với những lựa chọn tốt nhất từ đội ngũ Gear của chúng tôi, từ robot hút bụi đến nệm giá cả phải chăng đến loa thông minh
