Trí tuệ nhân tạo siêu phân giải của Google tiếp tục đẩy mạnh khả năng xử lý hình ảnh. Máy học sẽ tổng hợp hình ảnh tự nhiên từ kho dữ liệu và áp dụng cho nhiều tính năng xử lý ảnh đa dạng. Tính năng siêu độ phân giải không chỉ hữu ích mà còn đặc biệt trong việc khôi phục chi tiết của ảnh chân dung kích thước nhỏ thành tác phẩm có độ phân giải cao.
Google giới thiệu mô hình 'khuếch tán' SR3, hoạt động bằng cách thêm dần nhiễu vào, phủ lấp chi tiết và khoảng trống để sau đó chạy thuật toán đảo ngược. Quá trình này tạo ra mẫu ảnh thuần tuý từ dữ liệu nhiễu, tối ưu hóa theo mật độ để tạo ra những mẫu ảnh chi tiết và độc đáo.


SR3 tiếp nhận hình ảnh độ phân giải thấp và biến chúng thành tác phẩm với độ phân giải cao. Quá trình đầu gọi là 'làm hỏng hình ảnh', thêm nhiễu hạt cho đến khi chỉ còn nhiễu. Sau đó, máy học học cách loại bỏ dần nhiễu, giữ lại chỉ nhiễu thuần tuý dựa trên mẫu ảnh đầu vào để tạo ra bức ảnh chi tiết hơn. SR3 sử dụng mô hình xếp nhiều lớp để tăng hiệu suất siêu phân giải, từ việc phục hồi từ 64x64 -→ 1024x1024.

Độ chính xác của SR3 là rất ấn tượng, nhưng Google đã tiến xa hơn với mô hình CDM - khuếch tán có điều kiện theo lớp, được đào tạo trên dữ liệu ImageNet để tạo ra ảnh siêu phân giải và tự nhiên hơn. ImageNet, một bộ dữ liệu khó, đào tạo nhiều mô hình khuếch tán liên tiếp, tạo ra độ phân giải tối đa.
Nhiều người kỳ vọng rằng mô hình này sẽ ngày càng trở thành tính năng chính, không chỉ trong việc phục hồi ảnh sau chụp mà ngay khi chụp. Chẳng hạn, chụp ảnh zoom số trên điện thoại ở mức 10x, 20x, 50x thường gặp giới hạn về độ phân giải, nhưng mô hình có thể giải quyết điều này, đồng thời tạo lợi thế cho người dùng vượt qua hạn chế của ống kính quang học trên điện thoại.