Google thách thức OpenAI với bộ tạo ảnh từ văn bản đẹp mắt
Cuộc đua sáng tạo AI ngày càng trở nên cá nhân.
Tuần này, Google trình làng một đối thủ mới cho bộ tạo ảnh từ văn bản nổi tiếng DALLE-2 của OpenAI và đồng thời chỉ trích nỗ lực của đối thủ.
Cả hai mô hình đều chuyển đổi yêu cầu văn bản thành hình ảnh. Tuy nhiên, nhóm nghiên cứu của Google cho biết hệ thống của họ cung cấp “sự chân thực vô song và sự hiểu biết sâu sắc về ngôn ngữ.”
Human raters preferred Imagen over DALLE-2 for both sample quality and image-text alignment. Credit: Saharia et al.mô hình truyền tán phátTrong các thử nghiệm, nhóm Google nói rằng Imagen “đạt hiệu suất đáng kể hơn” DALL-E 2.
Imagen particularly outshone DALL-E 2 in the colors, positional, text, and description categories. Credit: Saharia et al.Các nhà phát triển của Imagen thậm chí đã sáng tạo ra một phương pháp mới để đo lường vượt trội của tác phẩm của họ.
Được đặt tên là DrawBench, thước đo so sánh sự đánh giá của con người về các sản phẩm của các máy tạo văn bản thành hình ảnh khác nhau.
Không có gì ngạc nhiên khi phương pháp của Google đã cho điểm mạnh cho hệ thống của chính Google.
“Với DrawBench, đánh giá rộng rãi từ con người cho thấy rằng Imagen vượt trội hơn so với các phương pháp gần đây khác một cách đáng kể,” các nhà nghiên cứu nói trong bài báo nghiên cứu của họ.
DALL-E 2 can struggle to correctly assign colors to objects — especially for prompts with more than one object. Credit: Saharia et al.Bạn có thể thử nghiệm một số bản demo tương tác tại trang web của Imagen, nhưng chỉ cho phép bạn sử dụng một số cụm từ nhỏ để tạo thành một câu có hạn chế.
Cho đến khi mô hình và mã nguồn được phát hành công khai, những người hoài nghi sẽ nghi ngờ rằng Google đang lựa chọn kết quả.
Imagen was significantly better than DALL-E 2 in prompts with quoted text. Credit: Saharia et al.Các nhà nghiên cứu cảnh báo rằng các phương pháp tạo ra có thể lan truyền thông tin sai lệch, kích động quấy rối và làm trầm trọng thêm tình trạng tách biệt.
“Đánh giá sơ bộ của chúng tôi cũng cho thấy Imagen mã hóa nhiều đặc điểm thiên hướng xã hội và định kiến, bao gồm sự thiên hướng chung về việc tạo ra hình ảnh của những người có làn da nhợt nhạt và xu hướng hình ảnh về các nghề nghiệp khác nhau phù hợp với định kiến giới tính phương Tây,” các nhà nghiên cứu nói.
Imagen significantly outperformed DALL-E 2 in the positional, text, and descriptions categories. Credit: Saharia et al.Tôi đợi sự cập nhật của họ với sự cẩn trọng. Là người tạo hình ảnh cho các bài viết mỗi ngày, khả năng các phòng lab AI cạnh tranh để cung cấp kết quả tốt hơn là hấp dẫn.
Ngược lại, tôi không muốn những người máy chủ lên thay thế nghệ sĩ bằng các thuật toán.
