Hôm qua, khi đang đọc Reddit và tham gia các nhóm nghệ thuật sáng tạo AI, có người phát hiện thông tin là cách đây 5 ngày trên GitHub, các nhà phát triển của Apple đã quietly giới thiệu một mô hình chỉnh sửa hình ảnh dựa trên lệnh văn bản và mô hình ngôn ngữ đa nhiệm. Apple đặt tên cho mô hình AI này là MGIE, viết tắt của MLLM-Guided Image Editing, trong đó MLLM là viết tắt của Multimodal Large Language Models.
Checkpoint chia sẻ trên GitHub của Apple cũng là mã nguồn mở, bất kỳ ai cũng có thể tải về và thử nghiệm với dịch vụ chạy repo có tên Spaces trên trang web Hugging Face. Từ đó, bạn có thể chỉnh sửa ảnh bằng mô hình AI và lệnh dưới dạng văn bản, tổng quát như Adobe Firefly, công cụ tạo hình từ mô hình AI trong Photoshop.
Khám phá thêm, MGIE là kết quả của sự hợp tác giữa đội ngũ phát triển của Apple và các nhà nghiên cứu tại Đại học California, Santa Barbara. Bản mã nguồn của mô hình AI được chia sẻ trên GitHub, đi kèm với báo cáo nghiên cứu đã được gửi tới hội thảo quốc tế ICLR 2024, một trong những sự kiện quy tụ các nhà nghiên cứu hàng đầu về trí tuệ nhân tạo trên thế giới.
MGIE sử dụng mô hình ngôn ngữ quy mô lớn (MLLM) theo hai bước. Ban đầu, nó áp dụng MLLM để dịch thuật lệnh chỉnh sửa mà người dùng nhập vào trong quá trình chỉnh ảnh. Ví dụ, nếu bạn nhập 'làm cho bầu trời trở nên xanh hơn', MGIE sẽ hiểu như là 'tăng độ rực màu xanh của bầu trời thêm 20%.'
Thứ hai, MGIE sử dụng mô hình ngôn ngữ để tạo ra hình ảnh dựa trên mô tả bằng từ ngữ. Nhờ đó, bạn có thể chỉnh sửa từng điểm ảnh trong bức hình, tạo ra những chi tiết mới hoặc loại bỏ những chi tiết không mong muốn.
Apple và các nhà nghiên cứu tại đại học California đặc tả những khả năng đặc biệt của MGIE:- Chỉnh ảnh theo lệnh văn bản: Hiểu ngôn ngữ con người để chuyển đổi lệnh văn bản thành các chỉnh sửa chi tiết và khu vực cụ thể trong tấm hình. Điều này không chỉ nâng cao chất lượng chỉnh ảnh mà còn tăng cường trải nghiệm người dùng.
- Chỉnh hình như Photoshop: MGIE thực hiện các chỉnh sửa cơ bản giống như Adobe Photoshop, như vùng chọn, thu phóng, xoay lật hình, hoặc thêm bộ lọc màu vào ảnh. Mô hình này còn thực hiện được nhiều chỉnh sửa cao cấp như thay đổi chi tiết nền, cân bằng màu sắc và ghép hình.
- Tối ưu hình ảnh: MGIE có khả năng tối ưu chất lượng của một tấm hình, điều chỉnh độ sáng, độ tương phản, độ nét và cân bằng màu, thậm chí sử dụng bộ lọc để biến ảnh thành tranh vẽ hoặc hoạt hình.
- Chỉnh sửa chi tiết hình ảnh: MGIE có thể chỉnh sửa một khu vực cụ thể trong ảnh như khuôn mặt, đôi mắt, tóc, trang phục và trang sức.
Nếu đã sử dụng tính năng Generative Fill, được biết với tên mã Firefly trong những phiên bản Photoshop mới nhất của Adobe, bạn sẽ nhận thấy MGIE không khác biệt gì trong việc chỉnh sửa hình ảnh. Câu hỏi lớn bây giờ là, liệu những công cụ mạnh mẽ này sẽ xuất hiện trên các sản phẩm thương mại của Apple trong thời gian sớm nhất, từ iPhone đến iPad, thậm chí là trên máy tính Mac.