Google thách thức OpenAI với công cụ tạo ảnh từ văn bản ấn tượng

Buzz

Ngày cập nhật gần nhất: 15/6/2026

Nội dung bài viết

Google thách thức OpenAI với bộ tạo ảnh từ văn bản đẹp mắt

Xem thêm

Đọc tóm tắt

- Google ra mắt Imagen để cạnh tranh với DALL-E 2 của OpenAI trong việc tạo ảnh từ văn bản.
- Imagen được đánh giá cao hơn DALL-E 2 về chất lượng mẫu và sự phù hợp giữa hình ảnh và văn bản.
- Mô hình của Google cũng vượt trội hơn trong các thử nghiệm về màu sắc, vị trí, văn bản và mô tả.
- Các nhà nghiên cứu của Imagen phát triển DrawBench để đánh giá tác phẩm của họ.
- Imagen có sự thiên hướng xã hội và định kiến, tạo ra hình ảnh với làn da nhợt nhạt và các nghề nghiệp khác nhau.

Google thách thức OpenAI với bộ tạo ảnh từ văn bản đẹp mắt

Cuộc đua sáng tạo AI ngày càng trở nên cá nhân.

Tuần này, Google trình làng một đối thủ mới cho bộ tạo ảnh từ văn bản nổi tiếng DALLE-2 của OpenAI và đồng thời chỉ trích nỗ lực của đối thủ.

Cả hai mô hình đều chuyển đổi yêu cầu văn bản thành hình ảnh. Tuy nhiên, nhóm nghiên cứu của Google cho biết hệ thống của họ cung cấp “sự chân thực vô song và sự hiểu biết sâu sắc về ngôn ngữ.”

Human raters preferred Imagen over DALLE-2 for both sample quality and image-text alignment. Credit: Saharia et al.mô hình truyền tán phát

Trong các thử nghiệm, nhóm Google nói rằng Imagen “đạt hiệu suất đáng kể hơn” DALL-E 2.

Imagen particularly outshone DALL-E 2 in the colors, positional, text, and description categories. Credit: Saharia et al.

Các nhà phát triển của Imagen thậm chí đã sáng tạo ra một phương pháp mới để đo lường vượt trội của tác phẩm của họ.

Được đặt tên là DrawBench, thước đo so sánh sự đánh giá của con người về các sản phẩm của các máy tạo văn bản thành hình ảnh khác nhau.

Không có gì ngạc nhiên khi phương pháp của Google đã cho điểm mạnh cho hệ thống của chính Google.

“Với DrawBench, đánh giá rộng rãi từ con người cho thấy rằng Imagen vượt trội hơn so với các phương pháp gần đây khác một cách đáng kể,” các nhà nghiên cứu nói trong bài báo nghiên cứu của họ.

DALL-E 2 can struggle to correctly assign colors to objects — especially for prompts with more than one object. Credit: Saharia et al.

Bạn có thể thử nghiệm một số bản demo tương tác tại trang web của Imagen, nhưng chỉ cho phép bạn sử dụng một số cụm từ nhỏ để tạo thành một câu có hạn chế.

Cho đến khi mô hình và mã nguồn được phát hành công khai, những người hoài nghi sẽ nghi ngờ rằng Google đang lựa chọn kết quả.

Imagen was significantly better than DALL-E 2 in prompts with quoted text. Credit: Saharia et al.

Các nhà nghiên cứu cảnh báo rằng các phương pháp tạo ra có thể lan truyền thông tin sai lệch, kích động quấy rối và làm trầm trọng thêm tình trạng tách biệt.

“Đánh giá sơ bộ của chúng tôi cũng cho thấy Imagen mã hóa nhiều đặc điểm thiên hướng xã hội và định kiến, bao gồm sự thiên hướng chung về việc tạo ra hình ảnh của những người có làn da nhợt nhạt và xu hướng hình ảnh về các nghề nghiệp khác nhau phù hợp với định kiến giới tính phương Tây,” các nhà nghiên cứu nói.

Imagen significantly outperformed DALL-E 2 in the positional, text, and descriptions categories. Credit: Saharia et al.

Tôi đợi sự cập nhật của họ với sự cẩn trọng. Là người tạo hình ảnh cho các bài viết mỗi ngày, khả năng các phòng lab AI cạnh tranh để cung cấp kết quả tốt hơn là hấp dẫn.

Ngược lại, tôi không muốn những người máy chủ lên thay thế nghệ sĩ bằng các thuật toán.

Các câu hỏi thường gặp

Hệ thống tạo ảnh từ văn bản của Google có gì khác biệt so với DALL-E 2 của OpenAI?

Google Imagen vượt trội hơn DALL-E 2 về chất lượng mẫu hình ảnh và sự phù hợp giữa hình ảnh và văn bản. Imagen cũng thể hiện sự hiểu biết sâu sắc hơn về ngôn ngữ và đạt hiệu suất tốt hơn trong nhiều yếu tố như màu sắc và vị trí của đối tượng.

Công cụ DrawBench của Google đánh giá hiệu suất của các hệ thống tạo ảnh như thế nào?

DrawBench là một phương pháp mới của Google để đo lường và so sánh sự đánh giá của con người về các sản phẩm của các hệ thống tạo ảnh từ văn bản khác nhau. Phương pháp này đã chỉ ra rằng Imagen vượt trội hơn các hệ thống hiện tại.

Imagen của Google có vấn đề gì về định kiến xã hội khi tạo ảnh không?

Các nghiên cứu ban đầu chỉ ra rằng Imagen có thể mã hóa những đặc điểm thiên hướng xã hội và định kiến, chẳng hạn như xu hướng tạo ra hình ảnh của người có làn da nhợt nhạt và phản ánh các nghề nghiệp theo định kiến giới tính phương Tây.

Có thể thử nghiệm Google Imagen trực tiếp không?

Hiện tại, bạn có thể thử nghiệm một số bản demo của Google Imagen, nhưng chúng chỉ cho phép bạn sử dụng một số cụm từ nhỏ để tạo hình ảnh. Việc truy cập mã nguồn và mô hình vẫn chưa được công khai.

Nội dung từ Mytour nhằm chăm sóc khách hàng và khuyến khích du lịch, chúng tôi không chịu trách nhiệm và không áp dụng cho mục đích khác.

Nếu bài viết sai sót hoặc không phù hợp, vui lòng liên hệ qua Zalo: 0978812412 hoặc Email: [email protected]