Mặc dù mới xuất hiện chỉ vài ngày, công cụ AI mới của Google đã nhận được những phản hồi vô cùng tích cực và ấn tượng.
Google vừa giới thiệu Gemini 2.0 Flash Experimental, một công cụ AI chỉnh sửa ảnh đang gây chấn động trong giới công nghệ. Với khả năng chỉnh sửa ảnh thông qua ngôn ngữ tự nhiên, nhiều người dùng đã không khỏi kinh ngạc trước tiềm năng của nó, thậm chí có người còn dự đoán rằng công cụ này có thể khiến Photoshop trở nên lỗi thời.
Oriol Vinyals, một trong những người dùng đầu tiên, đã chia sẻ về khả năng tạo ảnh độc đáo của Gemini 2.0 Flash. Theo Vinyals, công cụ này có thể tạo ra hình ảnh phù hợp với ngữ cảnh, chỉnh sửa thông qua trò chuyện và thêm văn bản dài vào ảnh - tất cả đều được tối ưu hóa cho tương tác qua chat.

Thay đổi chi tiết trong ảnh chưa bao giờ dễ dàng đến thế
Không chỉ thế, Poonam Soni, một người dùng khác, còn hướng dẫn cách sử dụng công cụ này một cách đơn giản: chỉ cần truy cập Google AI Studio, chọn mô hình 'Gemini 2.0 Flash Experimental', đảm bảo đã chọn "Images and text", sau đó tải lên ảnh và yêu cầu chỉnh sửa bằng ngôn ngữ tự nhiên.

Thao tác chỉnh sửa cũng trở nên dễ dàng hơn nhiều so với Photoshop
Người dùng có thể dễ dàng thay đổi màu sắc quần áo, bố trí nội thất trong ảnh, hoặc tạo ảnh hộ chiếu chỉ bằng cách nhập yêu cầu bằng ngôn ngữ tự nhiên. Ví dụ, một số nhận xét cho thấy việc thay đổi màu áo, chuyển góc chụp từ mặt trước sang góc nghiêng hoặc hậu cảnh đều được thực hiện nhanh chóng và trơn tru, mang lại hiệu quả chỉnh sửa ấn tượng mà không cần sử dụng chuột, bàn phím hay các thao tác phức tạp như trong Photoshop.

Từ một bức ảnh chụp thông thường, người dùng có thể tự tạo ảnh chân dung để làm giấy tờ tùy thân

Hoặc ngược lại, người dùng có thể xoay ảnh chụp thẳng mặt trước sang góc nhìn bên cạnh

Thậm chí xoay ảnh từ trước ra sau
Ngoài ra, tính năng chỉnh sửa văn bản trực tiếp trên hình ảnh cũng nhận được nhiều đánh giá tích cực từ người dùng. Các thao tác như thêm chữ, xóa đối tượng không mong muốn hoặc ghép các phần của ảnh khác nhau chỉ cần thực hiện bằng lệnh thoại.

Nếu không phải là người thường xuyên sử dụng Photoshop, việc thêm chữ vào hình ảnh như trên sẽ không hề dễ dàng
Điều này không chỉ giúp tiết kiệm thời gian mà còn mở ra cơ hội sáng tạo mới cho những người không chuyên về thiết kế đồ họa. Tuy nhiên, các ví dụ trên chỉ là văn bản đơn giản, nhiều phản hồi khác cho thấy việc chỉnh sửa văn bản phức tạp hơn có thể dễ mắc lỗi.
Ví dụ, nếu bạn muốn thay đổi phông nền phía sau hình ảnh của mình - có thể dùng để minh họa lý do đi muộn - bạn chỉ cần mô tả mong muốn của mình cho công cụ của Google.

Chỉ với một câu lệnh, bạn đã có ngay minh họa hoàn hảo cho lý do đi muộn của mình
Điều đáng chú ý là người dùng cũng chia sẻ cách các nhân vật trong hình ảnh có thể duy trì tính nhất quán. Trong bài đăng dưới đây, người dùng cho biết hình ảnh thứ 2 được tạo bằng ImageFX từ hình ảnh đầu tiên, sau đó Gemini 2.0 Flash tạo ra các hình ảnh còn lại (hình 3, hình 4). Cuối cùng, tất cả được ghép lại bằng Sora AI để tạo thành một clip ngắn.

Ngoài ra, người dùng Denis Shiryaev đã thử nghiệm một ứng dụng thực tế của công cụ này: khả năng khôi phục ảnh cũ và tô màu cho ảnh đen trắng, cho thấy tiềm năng lớn của Gemini 2.0 Flash, dù vẫn còn một số hạn chế.

Tô màu và phục chế ảnh cũ có lẽ chưa bao giờ dễ dàng đến thế
Tuy nhiên, Shiryaev cũng chỉ ra một số hạn chế của Gemini Flash 2.0. Một số tác vụ như xử lý độ phân giải cao hoặc chỉnh sửa văn bản trên ảnh, công cụ này vẫn chưa thể đáp ứng mọi yêu cầu chuyên sâu. Các lỗi nhỏ như hiện tượng artifact trong quá trình tô màu ảnh cũng được ghi nhận, cho thấy công nghệ vẫn cần được hoàn thiện để đạt độ ổn định và chính xác tối đa.

Dù có thể tô màu cho ảnh cũ, nhưng kết quả cuối cùng vẫn mang lại cảm giác giả tạo
Một trong những điểm nổi bật của Gemini Flash 2.0 experimental là khả năng tương tác linh hoạt với hình ảnh. Người dùng có thể “điều khiển” ảnh theo ý muốn, từ việc thay đổi góc nhìn đến tạo ra những hình ảnh sáng tạo như làm cho một đối tượng “bay lơ lửng”, “kéo dài” hoặc “thu nhỏ” chỉ bằng cách ra lệnh bằng giọng nói.

Chỉ với 2 bức ảnh, một người dùng đã có thể tạo ra hình ảnh quảng cáo phù hợp. Điều đáng kinh ngạc là ngay cả nhãn dán trên chai nước cũng được giữ nguyên vẹn trong hình ảnh cuối cùng.
Sự kết hợp giữa khả năng chỉnh sửa trực quan và hiệu suất làm việc ấn tượng khiến nhiều người tin rằng, trong tương lai gần, công cụ này có thể thay thế hoặc ít nhất là bổ sung các chức năng chỉnh sửa ảnh hiện có trên các phần mềm truyền thống.
Nếu bạn còn nhớ, những lần ra mắt công cụ chỉnh sửa ảnh bằng AI trước đây của Google thường kết thúc với những sự cố đáng tiếc - từ việc sử dụng ảnh đã chỉnh sửa sẵn đến tạo ra các bức ảnh mang tính thiên vị chủng tộc. Điều này đã phần nào gây tổn hại đến danh tiếng của Google trong lĩnh vực AI.
Tuy nhiên, phản hồi từ cộng đồng cho thấy Google Gemini Flash 2.0 experimental đang mở ra một hướng đi mới cho lĩnh vực chỉnh sửa ảnh bằng cách tận dụng sức mạnh của AI và khả năng xử lý ngôn ngữ tự nhiên. Những ưu điểm vượt trội về tính đơn giản, tốc độ xử lý và khả năng sáng tạo đã được đông đảo người dùng đón nhận, trong khi các hạn chế nhỏ đang dần được cải thiện dựa trên phản hồi thực tế. Đây hứa hẹn sẽ là bước tiến quan trọng, không chỉ đối với Google mà còn cho toàn bộ ngành công nghiệp chỉnh sửa ảnh trong kỷ nguyên số.
