DALL-E Mini - Người Máy Meme Trí Tuệ Nhân Tạo Là Điểm Ưa Chuộng Trên Internet

Vào ngày 6 tháng 6, Hugging Face, một công ty chủ nhà các dự án trí tuệ nhân tạo mã nguồn mở, chứng kiến lưu lượng truy cập đến công cụ tạo hình ảnh trí tuệ nhân tạo mang tên DALL-E Mini tăng vọt.
Ứng dụng bề ngoài đơn giản, tạo ra chín hình ảnh dựa trên bất kỳ yêu cầu văn bản nào, đã được ra mắt gần một năm trước bởi một nhà phát triển độc lập. Nhưng sau vài cải tiến gần đây và một số tweet lan truyền, khả năng vẽ một cách đơn giản những hình ảnh siêu thực, hài hước và thậm chí là kinh dị của nó bất ngờ trở thành phép màu meme. Thưởng thức những phiên bản của nó như “Thanos tìm mẹ tại Walmart,” “những chàng trai không áo đi lang thang ở Mordor,” “đoạn video camera an ninh của Darth Vader nhảy breakdance,” và “một chú hamster Godzilla đeo mũ sombrero tấn công Tokyo.”
Khi ngày càng nhiều người tạo và chia sẻ hình ảnh từ DALL-E Mini trên Twitter và Reddit, và thêm nhiều người dùng mới, Hugging Face thấy máy chủ của họ quá tải. “Các kỹ sư của chúng tôi không ngủ suốt đêm đầu tiên,” Clément Delangue, CEO của Hugging Face, nói qua cuộc gọi video từ nhà của ông ở Miami. “Việc phục vụ những mô hình này ở quy mô lớn thực sự khó khăn; họ phải sửa mọi thứ.” Trong vài tuần gần đây, DALL-E Mini đã phục vụ khoảng 50,000 hình ảnh mỗi ngày.
Khi DALL-E Mini trở nên nổi bật, điều này không chỉ dự báo một cách mới để tạo meme. Nó cũng cung cấp cái nhìn sớm về những gì có thể xảy ra khi các công cụ trí tuệ nhân tạo tạo hình ảnh theo yêu cầu trở nên phổ biến và nhắc nhở về sự không chắc chắn về ảnh hưởng có thể xảy ra. Các thuật toán tạo ra ảnh tùy chỉnh có thể biến đổi nghệ thuật và hỗ trợ doanh nghiệp trong tiếp thị, nhưng chúng cũng có thể có sức mạnh để điều chỉnh và đánh lừa. Một cảnh báo trên trang web của DALL-E Mini cảnh báo rằng nó có thể “củng cố hoặc làm trầm trọng thêm các đặc tính đặc biệt xã hội” hoặc “tạo ra hình ảnh chứa đựng định kiến về các nhóm thiểu số.”
DALL-E Mini được truyền cảm hứng từ một công cụ tạo hình ảnh trí tuệ nhân tạo mạnh mẽ hơn gọi là DALL-E (tổ hợp từ Salvador Dali và WALL-E), được tiết lộ bởi công ty nghiên cứu trí tuệ nhân tạo OpenAI vào tháng 1 năm 2021. DALL-E mạnh mẽ hơn nhưng không được công bố công khai do lo ngại về việc sử dụng sai mục đích.
Trong lĩnh vực nghiên cứu trí tuệ nhân tạo, đã trở nên phổ biến khi các đột phá nhanh chóng được sao chép ở những nơi khác nhau, thường là trong vòng vài tháng, và DALL-E không phải là ngoại lệ. Boris Dayma, một tư vấn machine learning đóng cửa ở Houston, Texas, cho biết ông đã mê mẩn với bài báo nghiên cứu gốc về DALL-E. Mặc dù OpenAI không công bố bất kỳ mã nguồn nào, anh ta đã tạo ra phiên bản đầu tiên của DALL-E Mini tại một cuộc thi hackathon do Hugging Face và Google tổ chức vào tháng 7 năm 2021. Phiên bản đầu tiên tạo ra các hình ảnh chất lượng thấp thường khó nhận biết, nhưng Dayma đã tiếp tục cải thiện từ đó. Tuần trước, ông đổi tên dự án của mình thành Craiyon, sau khi OpenAI yêu cầu ông đổi tên để tránh nhầm lẫn với dự án DALL-E gốc. Trang web mới hiển thị quảng cáo và Dayma cũng đang lên kế hoạch cho một phiên bản premium của trình tạo hình ảnh của mình.
Hình ảnh của DALL-E Mini mang đặc điểm của một cái nhìn đặc biệt ngoại trái. Đối tượng thường bị méo mó và vẩn đục, và người ta xuất hiện với khuôn mặt hoặc các bộ phận cơ thể bị thiếu hoặc bị hỏng. Nhưng thường có thể nhận biết được nó đang cố gắng miêu tả cái gì, và so sánh giữa sản phẩm đầu ra đôi khi không kiểm soát của trí tuệ nhân tạo với câu hỏi gốc thường mang lại niềm vui.
Mô hình trí tuệ nhân tạo đằng sau DALL-E Mini tạo hình ảnh bằng cách sử dụng các mô hình thống kê mà nó thu được từ việc phân tích khoảng 30 triệu hình ảnh được đánh nhãn để rút trích các kết nối giữa từ ngữ và điểm ảnh. Dayma tổng hợp dữ liệu đào tạo đó từ một số bộ sưu tập hình ảnh công cộng được thu thập từ web, bao gồm cả một bộ phát hành bởi OpenAI. Hệ thống có thể mắc lỗi một phần vì nó thiếu hiểu biết thực sự về cách các đối tượng nên hoạt động trong thế giới vật lý. Đoạn văn ngắn thường mơ hồ, và mô hình trí tuệ nhân tạo không hiểu ý nghĩa của chúng như con người. Tuy nhiên, Dayma đã kinh ngạc với những gì mà mọi người đã đạt được từ sáng tạo của ông trong vài tuần qua. “Ý kiến sáng tạo nhất của tôi là 'Tháp Eiffel trên mặt trăng',” ông nói. “Bây giờ mọi người làm những điều điên rồ—và nó hoạt động.”
Một số ý tưởng sáng tạo đó đã đưa DALL-E Mini theo hướng độc đáo, tuy nhiên. Hệ thống không được đào tạo về nội dung rõ ràng, và nó được thiết kế để chặn một số từ khóa. Tuy nhiên, người dùng vẫn chia sẻ hình ảnh từ các yêu cầu bao gồm tội ác chiến tranh, vụ xả súng tại trường học và vụ tấn công Trung tâm Thương mại Thế giới.
Sự biến đổi hình ảnh do trí tuệ nhân tạo điều khiển, bao gồm cả ảnh giả mạo của người thật được gọi là deepfakes, đã trở thành mối quan ngại của các nhà nghiên cứu trí tuệ nhân tạo, những người làm luật và các tổ chức phi lợi nhuận chuyên nghiên cứu về quấy rối trực tuyến. Các tiến bộ trong học máy có thể kích thích nhiều ứng dụng có giá trị cho hình ảnh được tạo ra bởi trí tuệ nhân tạo, nhưng cũng có thể sử dụng một cách ác ý như việc lan truyền thông tin sai lệch hoặc kích động sự căm ghét.
Tháng 4 này, OpenAI giới thiệu DALL-E 2. Đây là người kế nhiệm của phiên bản gốc có khả năng tạo ra hình ảnh giống như các bức ảnh và minh họa mà dường như được tạo ra bởi một nghệ sĩ chuyên nghiệp. OpenAI cho biết DALL-E 2 có thể gây nhiều vấn đề hơn so với hệ thống gốc vì nó có thể tạo ra hình ảnh thuyết phục hơn nhiều. Công ty cho biết họ giảm thiểu rủi ro sử dụng sai mục đích bằng cách lọc dữ liệu đào tạo của hệ thống và hạn chế từ khóa có thể tạo ra đầu ra không mong muốn.
OpenAI chỉ cung cấp quyền truy cập vào DALL-E và DALL-E 2 cho một số người dùng được chọn lựa, bao gồm nghệ sĩ và nhà khoa học máy tính được yêu cầu tuân theo các quy tắc nghiêm ngặt, một phương pháp mà công ty nói sẽ cho phép họ “tìm hiểu về khả năng và giới hạn của công nghệ.” Các công ty khác đang xây dựng công cụ tạo hình ảnh của riêng họ với tốc độ đáng kể. Tháng 5 này, Google công bố một hệ thống nghiên cứu có tên là Imagen mà họ nói có khả năng tạo ra hình ảnh có chất lượng tương tự như DALL-E 2; tuần trước họ công bố một hệ thống khác có tên là Parti, sử dụng một phương pháp kỹ thuật khác. Cả hai đều chưa được công bố công khai.
Don Allen Stevenson III, một nghệ sĩ có quyền truy cập vào DALL-E 2 mạnh mẽ hơn của OpenAI, đã sử dụng nó để phát triển ý tưởng và tăng tốc quá trình tạo ra tác phẩm nghệ thuật mới, bao gồm nội dung thực tế ảo như bộ lọc Snapchat biến người thành một con tôm hoặc một minh họa theo phong cách Bored Ape. “Tôi cảm thấy như đang học một cách tạo mới hoàn toàn,” ông nói. “Nó cho phép bạn mạo hiểm hơn với ý tưởng và thử nghiệm với các thiết kế phức tạp hơn vì nó hỗ trợ nhiều biến thể.”
Stevenson nói rằng anh đã gặp các hạn chế được lập trình bởi OpenAI để ngăn chặn sự tạo ra nội dung cụ thể. “Đôi khi tôi quên rằng có rào cản, và tôi phải được nhắc nhở với cảnh báo từ ứng dụng” thông báo rằng quyền truy cập của anh có thể bị thu hồi. Nhưng anh không xem đây là một giới hạn đối với sự sáng tạo của mình vì DALL-E 2 vẫn là một dự án nghiên cứu.
Delangue của Hugging Face cho biết rằng việc DALL-E Mini tạo ra những hình ảnh thô sơ hơn so với DALL-E 2 là điều tốt vì những lỗi này làm cho rõ ràng hình ảnh không thực tế và đã được tạo ra bởi trí tuệ nhân tạo. Anh ấy cho rằng điều này đã giúp DALL-E Mini giúp mọi người hiểu rõ về khả năng chỉnh sửa hình ảnh của AI, mà hầu hết đã được giữ kín từ công chúng. “Machine learning đang trở thành cách mặc định mới để xây dựng công nghệ, nhưng có sự mất kết nối với các công ty xây dựng những công cụ này đằng sau cửa đóng,” anh ấy nói.
Dòng liên tục của nội dung DALL-E Mini cũng giúp công ty giải quyết các vấn đề kỹ thuật, Delangue nói, khi người dùng báo cáo vấn đề như kết quả không lành mạnh hoặc độ chệch trong đầu ra. Hệ thống được huấn luyện trên hình ảnh từ web có thể, ví dụ, có khả năng hiển thị một giới tính hơn giới tính khác trong các vai trò cụ thể, phản ánh độ chệch xã hội sâu sắc. Khi DALL-E Mini được yêu cầu vẽ một “bác sĩ,” nó sẽ hiển thị hình ảnh giống như đàn ông; nếu được yêu cầu vẽ một “y tá,” hình ảnh dường như sẽ hiển thị phụ nữ.
Sasha Luccioni, một nhà nghiên cứu khoa học đang làm việc về đạo đức AI tại Hugging Face, nói rằng sự đổ dồn của các meme DALL-E Mini khiến cô nhận ra tầm quan trọng của việc phát triển các công cụ có khả năng phát hiện hoặc đo lường độ chệch xã hội trong những mô hình AI mới này. “Tôi chắc chắn thấy cách mà chúng có thể gây hại và hữu ích,” cô ấy nói.
Có thể trở nên ngày càng khó khăn để kiềm chế một số tác động tiêu cực đó. Dayma, người sáng tạo của DALL-E Mini, thừa nhận rằng chỉ là vấn đề thời gian trước khi các công cụ như của anh ấy, mà rộng rãi hơn, cũng có khả năng tạo ra hình ảnh giống thực tế hơn. Nhưng anh ấy nghĩ những meme được tạo ra bởi trí tuệ nhân tạo trong vài tuần qua có thể đã giúp chúng ta chuẩn bị cho sự không tránh khỏi đó. “Bạn biết đấy, nó đang đến gần,” Dayma nói. “Nhưng tôi hy vọng DALL-E Mini đưa ra nhận thức cho mọi người rằng khi họ nhìn thấy một hình ảnh, họ nên biết rằng nó không nhất thiết là đúng.”
Cập nhật ngày 27/6/2022 11:30 sáng ET: Một phiên bản trước đây của câu chuyện này đã viết sai chính tả tên của Sasha Luccioni.