Tại sao Nghệ thuật AI trông giống như bìa album Prog-Rock những năm '70?

Đôi khi chúng ta tìm thấy sự hiểu biết ở những nơi không ngờ. Vào cuối năm ngoái, ví dụ, tôi đọc có lẽ là mô tả chính xác nhất từng được viết về nghệ thuật tạo ra bởi trí tuệ nhân tạo trong phần bình luận của The New York Times. Bài báo mô tả những gì xảy ra khi một người tên là Jason Allen gửi một hình ảnh được tạo ra bởi chương trình trí tuệ nhân tạo Midjourney tham gia một cuộc thi nghệ thuật và giành chiến thắng. (Nói ngắn gọn: Nghệ sĩ tức giận.) Trong khi câu chuyện tập trung vào cuộc tranh luận về đạo đức của các trình tạo hình ảnh trí tuệ nhân tạo, bình luận không liên quan đến những xem xét đạo đức gai góc. Thay vào đó, nó mô tả cách công việc chiến thắng trông như thế nào. “Chúc mừng ông Allen đã thuyết phục một thuật toán phun ra một hình ảnh giống như bìa album prog rock những năm 1970,” đọc nó. Tên của người bình luận? Người quan sát Cynical.

Cynical, có lẽ. Quan sát, chắc chắn. “Giống như bìa album prog rock những năm 1970” là một cách mô tả hoàn hảo để truyền đạt những gì bối cảnh nghệ thuật AI sinh tạo mới này thường xuyên mô phỏng. Công trình chiến thắng của Allen giống như một bức tranh học thuật Pháp với một chút tinh tế về khoa học viễn tưởng. Những hình ảnh phụ nữ trong những bộ trang phục màu sienna và trắng bồng bềnh đứng trong một không gian lớn lẻo với một phong cảnh thành phố hơi ngoại trái đất ở phía sau. Nó không phải là điều gì đáng kể cả—việc gọi nó là “hơi phong cách” là phù hợp—nhưng hãy nói chung giải nhất có lý hơn nếu các giám khảo của cuộc thi nghệ thuật là tất cả những thành viên còn sống sót cuối cùng của Jethro Tull.
Trong năm qua, một loạt các chương trình tạo hình ảnh AI đã tạo ra một lượng tương đối lớn sự chú ý. Được đào tạo trên các bộ dữ liệu lớn chứa hàng tỷ hình ảnh được lấy từ khắp internet—hình ảnh động, những bức ảnh biểu tượng, công việc của các nghệ sĩ còn sống và đã chết, meme, ảnh chụp màn hình, ảnh tự sướng, thậm chí là khiêu dâm—những chương trình này tạo ra những hình ảnh có thể trông gần như giống với những gì một con người có thể tạo ra, cộng và trừ một hoặc hai tay không ổn định. Midjourney (và các chương trình tương tự như Stable Diffusion và Dall-E) đã gây kinh ngạc, lo sợ, tức giận và đặt ra câu hỏi: Liệu AI này có lấy đi công việc của nghệ sĩ? Luật bản quyền đứng ở đâu? Máy móc có thể tạo ra một cái gì đó thực sự mới mẻ không? Tôi có nên cảm thấy tội lỗi khi tạo ra một bức tranh của Tony Soprano uống cappuccino với Shrek và chia sẻ nó với nhóm trò chuyện của tôi không?
Những câu hỏi tốt, những câu hỏi mà mọi người có lẽ sẽ tranh cãi mạnh mẽ trong nhiều năm tới. Điều bị lạc giữa sự hứng thú và lo lắng, tuy nhiên, là một câu hỏi khác: Tại sao nhiều nghệ thuật AI trông giống như có thể nằm trên bìa album prog-rock những năm '70?

Thật may mắn, tôi là một nhà báo, vì vậy tôi đã liên hệ và hỏi ý kiến của một số nghệ sĩ, nhà nghiên cứu và nhà phê bình nghệ thuật về thẩm mỹ của nghệ thuật AI. Đầu tiên, tôi gọi điện cho Amelia Winger-Bearskin, một nghệ sĩ và giáo sư tại Đại học Florida. Winger-Bearskin đã liệt kê các xu hướng thị giác khác nhau mà cô đã nhận thức được trong nghệ thuật AI gần đây. Cô gọi một xu hướng là AlpCorp—thường được mô tả bằng những hình ảnh được tạo ra bởi Google's Deep Dream, một trình tạo hình ảnh cũ được phát hành vào năm 2015. Nó chuyên về hình ảnh xoắn, tâm thần hóa, giống như những kí ức từ một cuộc đi acid đặc biệt đau đớn. “Rõ ràng có ảnh hưởng từ prog-rock,” cô nói. Một danh mục khác mà Winger-Bearskin khám phá, cô gọi là Dada 3D, nghe có vẻ giống những cảnh ngốc nghếch mà tôi kích thích khi tôi nghịch với những trình tạo hình ảnh này. Cô mô tả nó như “một trò chơi phòng surrealism.”
Ngoài việc phân loại các xu hướng, Winger-Bearskin đã nhận thức các đặc điểm phong cách rộng lớn hơn trong những trình tạo hình ảnh này. Cô nhìn thấy ảnh hưởng rõ ràng từ hoạt hình phong cách phương Tây của Disney và anime, cũng như xu hướng coi sự trắng là mặc định về chủng tộc—một kết quả, cô nghi ngờ, là do huấn luyện những trình tạo hình ảnh này trên các bộ dữ liệu nặng về hoạt hình phong cách phương Tây của Disney, anime và hình ảnh của người da trắng.
Lev Manovich đang chú ý một cách sâu sắc, nghiên cứu về đề tài này. Nhà lý thuyết văn hóa và giáo sư tại Đại học Thành phố New York đã theo dõi trong máy chủ Discord của Midjourney từ năm ngoái, phân tích cách mọi người sử dụng trình tạo ra nghệ thuật này. Sau khi Midjourney phát hành một bản cập nhật vào mùa thu năm ngoái, ông nhận thấy một số thay đổi trong cách mọi người yêu cầu trình tạo hình. Sau khi nó trở nên xuất sắc hơn trong việc đại diện cho con người một cách thực tế, ví dụ như, yêu cầu về chân dung cả nam và nữ đã tăng lên.
Nghệ sĩ số Sam King bắt đầu theo dõi chặt chẽ về tình hình nghệ thuật trí tuệ nhân tạo vào năm 2021. Họ phấn khích với những gì họ thấy, họ bắt đầu chia sẻ những hình ảnh yêu thích của họ trên mạng xã hội, xây dựng một đám đông người hâm mộ như một người tổ chức ngay khi công nghệ này bắt đầu phát triển. Họ mô tả là những bức tranh tạo ra bởi các máy tạo hình trong làn sóng trước đó là “điều trừu tượng, kỳ lạ”. (Những máy tạo hình này được biết đến là mạng tạo đối kháng sinh tạo, hoặc GAN. Tôi đã thấy một số người gọi cái nhìn này, một cách không sáng tạo, là GANism.)
King nhìn nhận rằng làn sóng mới nhất của các máy tạo hình, được gọi là mô hình lan truyền, có phong cách khác biệt. Giống như tranh dầu và màu nước tạo ra những hiệu ứng khác nhau mà chúng ta có thể nhận ra, máy tạo hình GAN và máy tạo hình lan truyền tạo ra những hình ảnh có thể nhận biết được khác nhau. Nếu bạn muốn một bản vẽ chân thực hơn về, ví dụ như, Tony Soprano uống cappuccino với Shrek, mô hình lan truyền có khả năng tạo ra kết quả thuyết phục hơn. “Lý thuyết, bạn có thể tạo ra mọi loại thẩm mỹ khác nhau với những chiếc máy này,” họ nói. Tuy nhiên, thực tế hơn không nhất thiết có nghĩa là đa dạng về phong cách hơn. Giống như Winger-Bearskin, King thấy ảnh hưởng của Disney và anime xuất hiện thường xuyên, cũng như nghệ thuật truyện tranh.
“Rhetoric từ những công ty này là bạn có thể tạo ra bất cứ thứ gì bạn có thể tưởng tượng. Đó là về một vùng đất mở. Nhưng, tất nhiên, văn hóa đại chúng theo sau những kiểu mẫu và trope cụ thể,” Manovich nói. Ông thấy sự biến thể trên một số chủ đề điều này lặp đi lặp lại: “Fantasy, cổ tích, truyện tranh, trò chơi video.”

Manovich chỉ ra rằng loại người hướng tới những chương trình này đặc biệt định hình những gì được sản xuất thông qua sở thích và ưu thích cá nhân của họ. Discord của Midjourney, ví dụ: “Rất nhiều người sử dụng nam chiếm ưu thế.” Điều này phản ánh cách King mô tả những gì họ thấy từ Midjourney: “Nhiều hình ảnh về phụ nữ với khuôn mặt trống rỗng, nơi họ trông hơi gợi cảm.”
Tôi lấy một trang sách từ sách của Manovich và bắt đầu rình rập trong Midjourney Discord, để quan sát những gì mọi người tạo ra trong thời gian thực. Đó không phải là một hành trình vào vanguard. Trong hai phút đầu tiên, các đề xuất bao gồm “phụ nữ nhìn vào đám mây theo phong cách phục hồi,” “công chúa không gian nhỏ, khuôn mặt đẹp, vương miện, lâu đài phép thuật, váy, nhân vật hoạt hình, độ phân giải cao, 8k,” “người già hút pipe, chân dung, siêu thực, 4K,” và “geisha nam.”
Mỗi tác phẩm nghệ thuật AI có phải lúc nào cũng ngớ ngẩn hoặc nhàm chán không? Không. Nhưng nó đáng chú ý khi chúng ta đã phát triển những công cụ mạnh mẽ đáng kinh ngạc này để triệu hồi hình ảnh biểu tượng về giấc mơ hoang dã của chúng ta và chúng ta lại tạo ra những geisha nam và công chúa không gian. Có cảm giác như đang xem người ta chơi “Chopsticks” liên tục trên đàn piano grand Steinway Model D. Đã có những kiểu mẫu đang hình thành về hình ảnh nghệ thuật AI trông như thế nào; một nghệ sĩ gần đây đã bị cấm tham gia diễn đàn Reddit vì công việc của họ đơn giản trông như nó được tạo ra bởi AI. (Không phải vậy.) “Bạn cần phải tìm một phong cách khác,” người quản trị nói. Có lẽ không làm bạn ngạc nhiên khi nghe rằng bức tranh cụ thể, hiển thị một người phụ nữ xinh đẹp trong chiếc áo mỏng manh, bao quanh bởi những con chim và đôi mắt đỏ trên bầu trời, trông giống như nó có thể là một bìa album prog-rock.
Nhưng đây là một ý nghĩ hay: Mặc dù việc tạo hình ảnh bằng trí tuệ nhân tạo có thể không bao giờ vượt qua giả mạo, nó vẫn có thể dẫn đến những đột phá nghệ thuật thực sự. Nhà phê bình nghệ thuật Mike Pepi không ấn tượng bởi cách mọi người đang sử dụng các trình tạo hiện tại. “Hiện tại, khi bạn vào Midjourney hoặc DALL-E và bạn nhập vào một cái gì đó và nó trở nên thực sự tuyệt vời—và đó chỉ là bạn đang làm mèo trên máy tính của bạn—rõ ràng, đó không phải là ý chí của tác giả. Đó không phải là một phản ánh thực sự về bạn như một nghệ sĩ,” ông nói. Tuy nhiên, ông không loại trừ khả năng rằng những trình tạo này có thể hỗ trợ nghệ thuật thực sự nếu sử dụng một cách cẩn thận. “Điều thú vị có thể là một nghệ sĩ đang sử dụng những công cụ này như một bước trong một sự kết hợp lớn hơn, giống như một đạo diễn phim hoặc nghệ sĩ khái niệm. Đó là nơi bạn có khả năng để sáng tạo con người tốt nhất áp dụng những công cụ này,” ông nói.
Trong khi đó, Winger-Bearskin thích tưởng tượng rằng thành tựu thẩm mỹ lớn nhất của trí tuệ nhân tạo tạo ra có thể là ngẫu nhiên. Khoảnh khắc này nhắc nhở cô về sự xuất hiện của nhiếp ảnh, khi nhiều họa sĩ lo sợ công nghệ mới sẽ làm cho họ trở nên lạc hậu. “Mọi người nói, OK, đó là cái chết của hội họa, vì bây giờ mọi người chỉ cần tái tạo chân dung một cách hoàn hảo bằng máy này,” cô nói. “Nhưng điều đó dẫn đến sự bùng nổ của chủ nghĩa ấn tượng và chủ nghĩa trừu tượng và tất cả những hình thức hội họa khác, bởi vì chúng ta nhận ra rằng hội họa không cần phải đại diện cho một cái gì đó.”
Theo cùng một tinh thần, Winger-Bearskin nghĩ rằng khoảnh khắc này có thể kích thích nghệ sĩ phản đối trí tuệ nhân tạo—hoặc sử dụng nó một cách phản động—để tạo ra công việc đích thực độc đáo. Tôi thích ý tưởng này. Tưởng tượng: Sau tất cả sự tiến triển và sự quấy rối về công nghệ này, thành tựu thú vị nhất của những trình tạo này có thể là truyền cảm động để nghệ sĩ phản đối chúng. Điều đó có ý nghĩa. Cuối cùng, nếu không có prog rock, không có punk.
