
Có một cuộc cách mạng đang diễn ra, và bạn sẽ nhận biết nó qua những vằn dầu.
Đầu năm nay, một nhóm nghiên cứu của Berkeley đã phát hành một cặp video. Trong một video, một con ngựa đi sau hàng rào lưới thép. Trong video thứ hai, con ngựa đột nhiên có hoa văn đen trắng giống như loại ngựa vằn. Việc thực hiện không hoàn hảo, nhưng những sọc vằn vừa vặn với con ngựa đến mức nó làm cho cây phả họng của gia đình ngựa này trở nên hỗn loạn.
Biến một con ngựa thành một con ngựa vằn là một màn biểu diễn tuyệt vời, nhưng đó không phải là tất cả. Nó cũng là một dấu hiệu của sức mạnh ngày càng lớn của các thuật toán học máy để viết lại thế giới thực. Những người làm thí nghiệm khác, ví dụ, đã sử dụng công cụ biến đổi thành công cụ biến đổi thành công chụp hình của gấu đen thành những bức ảnh đáng tin cậy về gấu panda, táo thành cam, và mèo thành chó. Một người dùng Reddit đã sử dụng một thuật toán học máy khác nhau để chỉnh sửa video khiêu dâm để có khuôn mặt của các người nổi tiếng. Tại một công ty khởi nghiệp mới có tên là Lyrebird, các chuyên gia về học máy đang tổng hợp âm thanh đáng tin cậy từ mẫu giọng của một người trong một phút. Và các kỹ sư phát triển nền tảng trí tuệ nhân tạo của Adobe, có tên là Sensei, đang truyền đạt học máy vào nhiều công cụ chỉnh sửa video, ảnh và âm thanh đột phá. Những dự án này rất khác nhau về nguồn gốc và ý định, nhưng chúng có một điều chung: Chúng tạo ra những cảnh và âm thanh nhân tạo mà nhìn và nghe thực tế.

Các công nghệ đứng đằng sau sự thay đổi này sẽ sớm đưa chúng ta vào các miền sáng tạo mới, làm tăng cường khả năng của nghệ sĩ ngày nay và nâng tầm những người nghiệp dư lên mức chuyên nghiệp. Chúng ta sẽ tìm kiếm định nghĩa mới về sự sáng tạo mà mở rộng ô dù đến sản phẩm của máy móc. Nhưng sự bùng nổ này cũng sẽ có mặt tối. Một số nội dung được tạo ra bởi trí tuệ nhân tạo sẽ được sử dụng để lừa dối, đánh dấu sự lo sợ về một lavanche tin đồn giả mạo được tạo ra bởi thuật toán. Cuộc tranh cãi cũ về việc xem liệu một hình ảnh có bị chỉnh sửa hay không sẽ nhường chỗ cho những cuộc tranh cãi mới về nguồn gốc của mọi loại nội dung, bao gồm cả văn bản. Bạn sẽ tự hỏi, nếu bạn chưa từng tự hỏi trước đây: Con người đã đóng vai trò gì, nếu có, trong việc tạo ra album/series TV/bài viết clickbait đó?
Một thế giới tràn ngập nội dung được tạo ra bởi trí tuệ nhân tạo là một trường hợp kinh điển của một ước mơ tưởng tượng cũng như một thảm kịch. Nó lộn xộn, nó đẹp, và nó đã xuất hiện.
Hiện tại có hai cách để tạo ra âm thanh hoặc video giống như thế giới thực. Cách thứ nhất là sử dụng máy ảnh và micro để ghi lại một khoảnh khắc trong thời gian, chẳng hạn như lần đáng nhớ khi tới Mặt Trăng. Cách thứ hai là tận dụng tài năng của con người, thường là với chi phí lớn, để đặt hàng một bản sao. Vì vậy, nếu hạ cánh xuống Mặt Trăng đã là giả mạo, một đội ngũ làm phim tài năng sẽ phải tỉ mỉ để đặt Neil Armstrong lên bề mặt Mặt Trăng. Thuật toán học máy hiện nay cung cấp một lựa chọn thứ ba, cho phép bất kỳ ai có một chút kiến thức kỹ thuật tổ hợp nội dung hiện tại để tạo ra nội dung mới.
Ban đầu, nội dung được tạo ra bởi học sâu không hướng đến tính chân thực như thực tế. Deep Dreams của Google, được phát hành vào năm 2015, là một ví dụ sớm về việc sử dụng học sâu để tạo ra các cảnh quang kỳ lạ và quái dị. Năm 2016, ứng dụng chỉnh sửa ảnh phổ biến có tên là Prisma sử dụng học sâu để tạo ra bộ lọc ảnh nghệ thuật, ví dụ biến những bức ảnh chụp thành sự tôn vinh của Mondrian hoặc Munch. Kỹ thuật đứng sau Prisma được biết đến là truyền dẫn phong cách: lấy phong cách của một hình ảnh (như The Scream) và áp dụng nó vào một bức ảnh thứ hai.
Bây giờ, các thuật toán đang kiểm soát truyền tải phong cách đang trở nên chính xác, báo hiệu cho sự kết thúc của Thung lũng Chông Gai - cảm giác lo lắng mà con người thường xuyên cảm nhận khi đối mặt với hình ảnh người máy được tạo ra bởi máy tính có vẻ thực tế. Ngược lại với những hiệu ứng khá thô sơ trước đây, những chiêu thức như biến đổi thành zebra đang bắt đầu làm đầy lòng thung lũng. Hãy xem xét công việc từ phòng thí nghiệm của Kavita Bala tại Cornell, nơi học sâu có thể hòa quyện phong cách của một bức ảnh, chẳng hạn như không khí lúc đêm trở thành một hình ảnh của một thành phố u ám - và đánh lừa các nhà đánh giá con người khiến họ nghĩ rằng địa điểm hỗn hợp là thực. Inspirational by khả năng của trí tuệ nhân tạo để nhận biết những phẩm chất mỹ thuật, Bala đã thành lập một công ty có tên là Grokstyle xung quanh ý tưởng này. Hãy nói bạn ngưỡng mộ những chiếc gối trên sofa của bạn hoặc một bản trải nghiệm tạp chí đã thu hút ánh nhìn của bạn. Hãy đưa hình ảnh này vào thuật toán của Grokstyle, và nó sẽ hiển thị các đối tượng tương tự với diện mạo đó.

“Điều tôi thích về những công nghệ này là chúng đang làm cho thiết kế và phong cách trở nên dễ dàng,” Bala nói. “Tôi là một kỹ sư công nghệ - tôi đánh giá cái đẹp và phong cách nhưng không thể tạo ra nó được. Vì vậy, công việc này khiến nó trở nên dễ dàng cho tôi. Và có một niềm vui khi làm cho nó trở nên dễ dàng cho người khác, để mọi người có thể chơi với cái đẹp. Chỉ vì chúng ta không có tài năng trên một hành trục nhất định không có nghĩa là chúng ta phải sống trong một xứ sở ảm đạm.”
Tại Adobe, học máy đã là một phần của các sản phẩm sáng tạo của công ty được hơn một thập kỷ, nhưng chỉ gần đây AI mới trở nên đột phá. Vào tháng 10, các kỹ sư làm việc trên Sensei, bộ công nghệ AI của công ty, đã giới thiệu một công cụ chỉnh sửa video tiềm năng mang tên Adobe Cloak, cho phép người dùng một cách mượt mà loại bỏ, ví dụ như một cột đèn đường từ đoạn clip video - một công việc mà thông thạo một biên tập viên con người có lẽ sẽ làm mệt mỏi. Một thử nghiệm khác, được gọi là Dự án Puppetron, áp dụng một phong cách nghệ thuật cho video theo thời gian thực. Ví dụ, nó có thể lấy một luồng trực tiếp của một người và biểu diễn anh ta như một bức tượng đồng trò chuyện hoặc một bức tranh hoạt họa bằng tay. “Mọi người có thể cơ bản là thực hiện một buổi biểu diễn trước webcam hoặc bất kỳ máy quay nào và biến nó thành hoạt hình, theo thời gian thực,” Jon Brandt, nhà nghiên cứu chính cấp cao và giám đốc Nghiên cứu Adobe nói. (Các thử nghiệm của Sensei không luôn trở thành sản phẩm thương mại.)
Học máy làm cho những dự án này trở nên khả thi vì nó có thể hiểu rõ các phần của một khuôn mặt hoặc sự khác biệt giữa phần trước và phần nền tốt hơn so với những phương pháp trước đó trong thị giác máy tính. Các công cụ của Sensei cho phép nghệ sĩ làm việc với các khái niệm, thay vì với nguyên liệu thô. “Photoshop tuyệt vời trong việc chỉnh sửa pixel, nhưng những gì mọi người đang cố gắng làm là chỉnh sửa nội dung được đại diện bởi các pixel,” Brandt giải thích.
Điều này là điều tốt. Khi nghệ sĩ không còn phải lãng phí thời gian giải quyết từng điểm trên màn hình, năng suất của họ tăng lên, và có thể còn sự sáng tạo, theo Brandt. “Tôi hào hứng với khả năng xuất hiện các hình thức nghệ thuật mới, điều mà tôi dự kiến sẽ đến.”
Nhưng không khó để nhìn thấy là làm thế nào sự nổ lực sáng tạo này có thể đi sai lạc. Đối với Yuanshun Yao, một sinh viên sau đại học tại Đại học Chicago, đó là một video giả mạo đã khiến anh bắt đầu dự án mới của mình để khám phá một số nguy cơ của học máy. Anh đã bấm play trên một đoạn clip gần đây về một bài phát biểu của Barack Obama được tạo ra bởi trí tuệ nhân tạo, trông rất thực, và bắt đầu tự hỏi: Liệu anh có thể làm điều tương tự với văn bản?

Một tác phẩm văn bản cần phải gần như hoàn hảo để đánh lừa đa số độc giả, vì vậy anh bắt đầu với một mục tiêu dễ chịu, những đánh giá giả mạo trực tuyến cho các nền tảng như Yelp hoặc Amazon. Một đánh giá có thể chỉ là vài câu, và độc giả không mong đợi một bài viết chất lượng cao. Do đó, anh và đồng nghiệp đã thiết kế một mạng nơ-ron nhả ra các đoạn văn như Yelp, mỗi đoạn khoảng năm câu. Xuất hiện một ngân hàng đánh giá tuyên bố những điều như, “Điểm đến yêu thích của chúng tôi chắc chắn!” và “Tôi đi với anh trai và chúng tôi đã thưởng thức mì ăn chay và nó thật ngon miệng.” Sau đó, anh yêu cầu con người đoán xem chúng có thật hay giả, và dường như, người đọc thường xuyên bị đánh lừa.
Với những đánh giá giả mạo giá khoảng từ 10 đến 50 đô la mỗi cái từ các thị trường micro-task, Yao nghĩ rằng chỉ là vấn đề thời gian trước khi một kỹ sư đầy nhiệt huyết thử tự động hóa quá trình này, đẩy giá xuống và khởi đầu một đại dịch đánh giá giả mạo. (Anh ấy cũng nghiên cứu việc sử dụng các mạng nơ-ron để bảo vệ một nền tảng khỏi nội dung giả mạo, với một số thành công.) “Theo những gì chúng tôi biết, hiện vẫn chưa có hệ thống nào như vậy,” Yao nói. “Nhưng có lẽ trong năm hoặc mười năm nữa, chúng ta sẽ bị bao quanh bởi mọi thứ được tạo ra bởi trí tuệ nhân tạo.” Mục tiếp theo của anh? Tạo ra các bài báo tin cậy.

Tiến triển trên video có thể diễn ra nhanh hơn. Hany Farid, một chuyên gia phát hiện ảnh và video giả mạo và giáo sư tại Dartmouth, lo lắng về tốc độ lan truyền nhanh của nội dung viral và quá trình xác minh chậm chạp. Farid tưởng tượng một tương lai gần, trong đó một đoạn video giả mạo thuyết phục về Tổng thống Trump mệnh lệnh hủy diệt hạt nhân toàn bộ Bắc Triều Tiên lan truyền và gây kinh hoàng, giống như một phiên bản lại của Chiến tranh thế giới cho thời đại AI. “Tôi cố gắng không làm những dự đoán hỗn loạn, nhưng tôi nghĩ rằng điều này không phải là điều quá mức phức tạp,” anh ta nói. “Điều này thuộc lĩnh vực của những điều có thể thực hiện ngay bây giờ.”
Những bài phát biểu giả mạo của Trump đã lan truyền trên internet, một sản phẩm của Lyrebird, công ty khởi nghiệp tổng hợp giọng nói—tuy nhiên, trong các đoạn âm thanh mà công ty đã chia sẻ với công chúng, Trump giữ ngón tay ra khỏi nút, giới hạn bản thân chỉ đến việc khen ngợi Lyrebird. Jose Sotelo, đồng sáng lập và CEO của công ty, lập luận rằng công nghệ này là không thể tránh khỏi, vì vậy anh và đồng nghiệp của anh có thể là người thực hiện nó, với hướng dẫn đạo đức. Anh tin rằng phòng thủ tốt nhất, ít nhất là trong lúc này, là tăng cường nhận thức về khả năng của học máy. “Nếu bạn nhìn thấy một bức ảnh của tôi trên mặt trăng, bạn có thể nghĩ rằng đó có lẽ là một phần mềm chỉnh sửa ảnh nào đó,” Sotelo nói. “Nhưng nếu bạn nghe âm thanh thuyết phục của người bạn thân nói những điều xấu về bạn, bạn có thể lo lắng. Đây là một công nghệ mới và một vấn đề thách thức.”
Có lẽ không có gì có thể ngăn chặn làn sóng sắp tới của nội dung được tạo ra bởi trí tuệ nhân tạo—nếu chúng ta thậm chí muốn làm điều đó. Ở mức tệ nhất, những kẻ lừa đảo và những nhà hoạt động chính trị sẽ triển khai các thuật toán học máy để tạo ra lượng lớn thông tin sai lệch không ngừng. Bởi vì các mạng xã hội chỉ truyền tải nội dung thu hút sự chú ý nhất, kết quả của hệ thống này sẽ tiến triển để làm cho nó trở nên có thể thích, có thể nhấp và có thể chia sẻ nhất.
Nhưng ở mức tốt nhất của nó, nội dung được tạo ra bởi trí tuệ nhân tạo có thể chữa lành cấu trúc xã hội của chúng ta theo nhiều cách như nó có thể tạo nên nó. Sotelo của Lyrebird mơ ước về cách công nghệ của công ty có thể phục hồi giọng nói cho những người đã mất giọng nói do các bệnh như ALS hoặc ung thư. Đoạn video từ ngựa thành zebra tại Berkeley? Đó là một phản ứng phụ của công việc để cải thiện cách chúng ta đào tạo xe tự lái. Thường xuyên, phần mềm lái xe được đào tạo trong môi trường ảo trước tiên, nhưng một thế giới như Grand Theft Auto chỉ có thể giống thực tế một cách tổng quát. Thuật toán biến ngựa thành zebra được thiết kế để thu nhỏ khoảng cách giữa môi trường ảo và thế giới thực, cuối cùng làm cho xe tự lái trở nên an toàn hơn.
Đây là hai cạnh của thanh kiếm AI. Khi nó cải thiện, nó bắt đầu bắt chước hành động của con người ngày càng chặt chẽ hơn. Cuối cùng, nó không có lựa chọn nào khác ngoài việc trở nên quá con người: có khả năng làm điều tốt và điều xấu một cách bằng nhau.
