Dall-E 3 của OpenAI: Máy Tạo Nghệ Thuật Được Điều Khiển Bởi ChatGPT

OpenAI vừa công bố Dall-E 3, công cụ nghệ thuật AI mới nhất của họ. Nó sử dụng ChatGPT, chatbot được yêu thích của OpenAI, để tạo ra những tác phẩm nghệ thuật phức tạp và được soạn thảo cẩn thận hơn bằng cách tự động mở rộng từ một yêu cầu một cách chi tiết và hợp nhất.
Dall-E 3 có điểm mới ở chỗ nó loại bỏ một số phức tạp liên quan đến việc làm rõ văn bản được đưa vào chương trình—được biết đến là “kỹ thuật đặt câu hỏi”—và cách nó cho phép người dùng làm rõ qua giao diện trò chuyện của ChatGPT. Công cụ mới này có thể giúp giảm ngưỡng cho việc tạo ra nghệ thuật AI phức tạp, và nó có thể giúp OpenAI giữ vững vị thế dẫn đầu nhờ vào khả năng xuất sắc của chatbot của họ.
Ví dụ như hình ảnh vua khoai tây này chẳng hạn.
Nghệ thuật AI độc đáo như thế này trở nên phổ biến trên mạng xã hội nhờ vào nhiều công cụ biến yêu cầu văn bản thành một bức tranh trực quan. Nhưng cái này được tạo ra với sự hỗ trợ nghệ thuật đáng kể từ ChatGPT, nó đã lấy một yêu cầu ngắn và biến nó thành một yêu cầu chi tiết hơn, bao gồm hướng dẫn về cách soạn thảo chính xác.
Điều này không chỉ là một bước tiến lớn đối với Dall-E, mà còn đối với nghệ thuật AI sáng tạo nói chung. Dall-E, một từ ghép của nhân vật Pixar Wall-E và nghệ sĩ Salvador Dalí được công bố vào năm 2021 và ra mắt vào năm 2022, bao gồm một thuật toán được cung cấp bằng lượng lớn hình ảnh được gắn nhãn thu thập từ web và các nguồn khác. Nó sử dụng những gì được biết đến là mô hình truyền dẫn để dự đoán cách hiển thị một hình ảnh cho một yêu cầu nhất định. Với lượng dữ liệu đủ lớn, điều này có thể tạo ra hình ảnh phức tạp, nhất quán và thẩm mỹ. Điều khác biệt ở Dall-E 3 là cách con người và máy tương tác.
Hình ảnh này, được tạo ra bởi Dall-E 3, cho thấy cách sử dụng ChatGPT để điền vào một yêu cầu tạo ra một hình ảnh phức tạp và nhất quán hơn. Thông thường, điều này có thể đòi hỏi một lượng lớn kỹ thuật đặt câu hỏi, trong đó người dùng thử nghiệm yêu cầu ngày càng phức tạp để tạo ra một cái gì đó phức tạp. Nhưng với Dall-E 3, ChatGPT đảm nhận công việc tạo ra yêu cầu phức tạp hơn đó.
Dall-E 3 tạo ra hình ảnh này dưới đây dựa trên yêu cầu sau: “Một minh họa về trái tim con người được làm bằng thủy tinh trong suốt, đứng trên một đài đứng giữa biển động. Tia nắng mặt trời xuyên qua đám mây, chiếu sáng trái tim, tiết lộ một vũ trụ nhỏ bên trong. Câu nói 'Tìm thấy vũ trụ bên trong bạn' được khắc chìm trong chữ in đậm qua đường chân trời.”
Dall-E 3 cũng cho phép người dùng làm rõ sáng tạo thông qua ChatGPT, như là họ đang yêu cầu một nghệ sĩ thực sự thực hiện sửa đổi. “Bạn thực sự không cần phải lo lắng về việc làm phiền lòng với các yêu cầu dài,” Aditya Ramesh, nhà nghiên cứu chính và trưởng nhóm Dall-E nói. “Thay vào đó, bạn chỉ cần tương tác với ChatGPT như bạn đang nói chuyện với một đồng nghiệp.”
Gabriel Goh, nhà nghiên cứu chính của nhóm Dall-E, đã thể hiện mẹo này cho MYTOUR bằng cách yêu cầu Dall-E 3 tạo ra một số poster quảng cáo cho một nhà hàng mì ảo. Sau khi được giới thiệu với một số lựa chọn, Goh yêu cầu Dall-E 3, qua ChatGPT, chọn một trong số chúng và biến nó thành minh họa của một biển hiệu treo ngoại trời của một nhà hàng.
Dall-E 3 hiện đã có thông qua ChatGPT Plus, phiên bản trả phí của chatbot.
Trong năm 2022, sự xuất hiện của nhiều bộ tạo nghệ thuật AI đã báo hiệu sự bùng nổ rộng lớn hơn của AI tạo sinh. Nhiều bộ tạo ban đầu là những bản thô và không thể làm rõ hay sửa đổi hình ảnh. Ngoài OpenAI, các startup như Midjourney, Stable Diffusion và Ideogram đã thu hút đầu tư đáng kể và sự quan tâm của công chúng. Nhưng việc sử dụng các hệ thống nghệ thuật AI này cũng gây lo ngại rằng nghệ sĩ con người chuyên nghiệp có thể bị thay thế và về cách các công ty AI sử dụng tư liệu có bản quyền để đào tạo các thuật toán của họ.
Phản ứng trước tranh cãi này, OpenAI cũng thông báo hôm nay rằng nó sẽ ra mắt một cách để nghệ sĩ có thể yêu cầu loại bỏ tác phẩm của họ khỏi các chuỗi đào tạo trong tương lai. Dall-E 3 cũng sẽ ngăn người dùng cố gắng tạo ra một tác phẩm nghệ thuật theo phong cách của một nghệ sĩ nổi tiếng bằng cách phát hiện khi đó được bao gồm trong một đề xuất.
OpenAI cũng có các biện pháp an toàn để ngăn chặn người dùng tạo ra nghệ thuật khiêu dâm hoặc bạo lực đồ họa, hoặc hình ảnh có các nhân vật nổi tiếng. Sandhini Agarwal, một nghiên cứu chính sách tại OpenAI, nói rằng phiên bản mới của Dall-E đã trải qua thêm nhiều “đội đỏ,” bao gồm các nghiên cứu viên cố gắng phá vỡ các rào cản của nó. “Yêu cầu rất rõ ràng về nội dung khiêu dâm, điều đó sẽ phải qua một bộ phân loại và sẽ bị từ chối,” Agarwal nói. Tất nhiên, một số lập trình viên đã tạo ra các bộ tạo hình ảnh nguồn mở mà không có bất kỳ hạn chế nào.
Một trong những kết quả đáng chú ý nhất của sự bùng nổ trong nghệ thuật được tạo ra bởi AI là hình ảnh siêu thực đã tràn ngập trên mạng xã hội. Hình ảnh sau đây được tạo ra bằng cách sử dụng Dall-E 3 với sự giúp đỡ từ ChatGPT, sử dụng đề xuất sau đây: “Một cảnh đất rộng toàn bộ được làm hoàn toàn từ các loại thịt mở ra trước tầm nhìn. Những đồi thịt nướng mềm mại, cây gà cánh đùi, con sông bacon và những tảng thịt giăm tạo nên một cảnh siêu thực nhưng hấp dẫn. Bầu trời được trang trí bằng một mặt trời ớt và những đám mây salami.”