Một vài tháng trước đây, Stability AI ra mắt mô hình Stable Diffusion XL. Một trong những trọng tâm cơ bản của SD XL là khả năng nội suy hình ảnh với độ chân thực rất cao, điều này đã tạo nên uy tín cho công cụ này trong cuộc cạnh tranh trực tiếp với SD, Midjourney từ khi phiên bản v5 chính thức ra mắt. Chi tiết gương mặt và cấu trúc của tấm hình được cải thiện đáng kể trong SD XL so với các mô hình và checkpoint dựa trên SD 2.0 và 2.1.Theo Stability UI, SD XL hoạt động như sau. Checkpoint đầu tiên tạo hình ở độ phân giải thấp, được gọi là Base model. Hình ảnh được tạo ra sẽ có độ phân giải 128x128 pixel. Tiếp theo, hình ảnh này sẽ được tăng độ phân giải và chi tiết lên đến 1024x1024 pixel. Đây được xem là kích thước lý tưởng theo Stability AI, cho thấy mô hình SD XL đã được huấn luyện kỹ lưỡng.
Ngày 18/7 tới, phiên bản 1.0 của SD XL sẽ chính thức ra mắt. Tuy nhiên, phiên bản 0.9 đã rò rỉ trên internet trong vài ngày qua. Đáng chú ý, Stability AI đã phát hành phiên bản 'nghiên cứu thử nghiệm' của SD XL 0.9, cho phép mọi người đăng ký để tải xuống và sử dụng local trên máy tính cá nhân, với điều kiện máy đủ cấu hình để tạo ra hình ảnh dựa trên trí tuệ nhân tạo.
Những trải nghiệm này chỉ mang tính chất thú vị, để so sánh sức mạnh của SD XL với Midjourney hoặc Dall-E. Nếu bạn muốn tạo hình từ trí tuệ nhân tạo, bạn có thể lựa chọn giải pháp Automatic1111 WebUI, và tôi đã có hướng dẫn chi tiết dưới đây.
Nếu máy tính không đủ mạnh để trải nghiệm SD XL, Clipdrop cung cấp giải pháp tạo hình miễn phí, mỗi ngày 60 hình, hoàn toàn xử lý trên máy chủ của Stability AI. Bạn chỉ cần mở trang web lên và sử dụng:
Để sử dụng SD XL 0.9 và ComfyUI, máy tính cần phải có ít nhất 32GB RAM, GPU 16GB VRAM, và nên dùng card đồ họa Nvidia. ComfyUI tải toàn bộ mô hình refiner của SD XL 0.9 vào RAM, điều này đòi hỏi một lượng RAM lớn. Một trải nghiệm không mong muốn đã khiến mình phát hiện ra máy tính chỉ còn 16GB RAM do một thanh RAM đã chết. Khi xử lý hình ảnh qua mô hình refiner, máy tính hoạt động rất chậm cho đến khi tải xong checkpoint để hoàn tất quá trình xử lý.
Tải checkpoint của SDXL
Để sử dụng SD XL 0.9, anh em cần phải đăng ký tài khoản và đồng ý với các điều khoản của phiên bản thử nghiệm 0.9 của SD XL. Sau đó, Stability AI sẽ cung cấp cho anh em gói dữ liệu để tải về máy tính.
- sd_xl_base_0.9.safetensors
- sd_xl_refiner_0.9.safetensors
Khi đã có checkpoint SD XL 0.9, bước tiếp theo là chọn công cụ để vận hành checkpoint và tạo hình bằng các lệnh được cung cấp.ComfyUI hay Automatic1111 WebUI?
Vài ngày trước đây, WebUI đã cập nhật đặc biệt để hỗ trợ tạo hình bằng SD XL 0.9. WebUI là một trong những công cụ phổ biến nhất để tạo hình ảnh bằng trí tuệ nhân tạo, sử dụng các mô hình từ Stability UI hoặc từ các nguồn khác dựa trên các phiên bản SD 1.5, 2.0 và 2.1...
Tuy nhiên, cách hoạt động của WebUI khi tạo hình bằng SD XL 0.9 cũng có nhược điểm. Thứ nhất, anh em chỉ có thể chọn một trong hai checkpoint base hoặc refiner để tạo hình. Nếu dùng checkpoint base, hình ảnh sẽ thô và không chi tiết, còn nếu dùng refiner thì có thể gặp phải vấn đề về chi tiết, như mất hoặc thừa bàn tay, chân, vì cách hoạt động của SD XL đã được mô tả ở phần trước.
- Truy cập trang GitHub của ComfyUI: GitHub - comfyanonymous/ComfyUI: Một giao diện đồ họa ổn định và có tính mô-đun với giao diện đồ thị/nút.
- Ở mục Cài đặt, anh em click vào liên kết Trực tiếp để Tải xuống. Phiên bản này bao gồm toàn bộ các tệp cài đặt cần thiết để sử dụng trên máy tính chạy Windows, và GPU Nvidia. Chỉ cần tải gói này về là anh em sẽ tiết kiệm được một khoản thời gian để thiết lập phần mềm.
- Sau khi tải xong file ComfyUI_windows_portable_nvidia_cu118_or_cpu.7z, anh em giải nén ở ổ cứng mong muốn.
- Sau đó, mở thư mục ComfyUI_windows_portable_nvidia_cu118_or_cpu, tìm đến đường dẫn ComfyUI_windows_portable\ComfyUI\models\checkpoints.
- Trong thư mục checkpoints, anh em bỏ hai tệp checkpoint sd_xl_base_0.9.safetensors và sd_xl_refiner_0.9.safetensors.
- Quay lại thư mục ComfyUI_windows_portable, sẽ có hai tệp bat để khởi động ComfyUI. Anh em sẽ sử dụng tệp run_nvidia_gpu.bat để bắt đầu.
- Mở tệp run_nvidia_gpu.bat, chờ quá trình thiết lập hoàn tất, trang web cục bộ để tạo hình bằng trí tuệ nhân tạo sẽ hiển thị ngay, không cần phải nhập địa chỉ như WebUI. Tuy nhiên, anh em đừng bắt đầu tạo hình ngay lúc này, hãy tải một không gian làm việc để tối ưu hóa với SD XL trước.
- Anh em truy cập https://pastebin.com/sjhP8Pcj, tải về tệp json. Đây là bố cục để xử lý tạo hình bằng SD XL, bao gồm cả hai checkpoint base và refiner.
- Trên giao diện của ComfyUI, anh em nhấn nút Tải lên ở bảng lệnh xử lý hình ảnh, tải tệp json vừa tải xuống vào ComfyUI. Khi đó, giao diện tạo hình bằng trí tuệ nhân tạo sẽ trông giống như thế này:

Vận hành đòi cấu hình máy rất cao
Rất dễ nhận thấy hai vấn đề với việc xử lý tạo hình bằng SD XL, bất kể là trên ComfyUI hay Automatic1111 WebUI. Thứ nhất là tốc độ xử lý, bất kể chọn mẫu nào, chỉ đạt khoảng 4 đến 5 it/s, so với 15 đến 18 it/s khi xử lý tạo hình với SD 1.5. Và thứ hai, yêu cầu cấu hình máy khi làm việc với SD XL, đặc biệt là với phiên bản 0.9 không hề thấp.
Trong phiên bản hiện tại, với mức độ tối ưu này, việc sử dụng card đồ họa có dung lượng VRAM dưới 12GB (RTX 3080 Ti trở xuống) sẽ gặp rất nhiều khó khăn khi tạo hình bằng SD XL. Tuy nhiên, điều này chắc chắn sẽ được cải thiện trong các bản cập nhật sau của mô hình diffusion từ Stability AI. Bài viết này nhấn mạnh vào việc mô tả các khác biệt trong hình ảnh mà SD XL tạo ra, so sánh với các mô hình trước đây mà Stability AI đã nghiên cứu trong hai năm qua.
Nếu xét về giá trị của SD XL theo mục tiêu của bài viết, thì phải thừa nhận rằng mô hình này đang có rất nhiều tiềm năng. SD XL có thể làm tốt mọi phong cách từ nhiếp ảnh, hoạt hình, mô hình 3D đến mô phỏng các bộ phim hoạt hình của Pixar.
Quan trọng nhất là, so với SD 1.5 và 2.1 mà tôi đã trải nghiệm cách đây vài tháng, SD XL đã có những cải tiến đáng kể. Đặc biệt là về khẩu độ bức ảnh theo yêu cầu và chi tiết của bàn tay con người, trông tự nhiên hơn nhiều. Mặc dù vẫn còn một số điểm chưa hoàn hảo, nhưng sự tiến bộ so với các phiên bản Stable Diffusion trước đó là đáng kể và đáng khen ngợi.
Tất nhiên vẫn có những lúc bàn tay trông rất kỳ dị, nhưng hầu hết thời gian, bàn tay của nhân vật trong hình ảnh AI tạo ra trông rất ấn tượng.
Có một điểm rất dễ nhận biết về SD XL. Nếu tạo ra các bức hình với từ khóa “chân thực” hay “nhiếp ảnh”, chất lượng da của nhân vật trong các bức hình, hoặc chất lượng ánh sáng chi tiết từng phần trên cơ thể đều rất tinh tế. Điều này cho thấy tần suất mẫu mà thư viện hình ảnh của Stability AI sử dụng để huấn luyện SD XL là rất lớn. Tương tự, chất lượng bề mặt của quần áo, sợi vải trông rất chi tiết, không bị nhăn và phẳng như trước đây.
Nếu bạn muốn thử nghiệm ComfyUI với SD XL 0.9, một gợi ý cho bạn là ở phần tùy chỉnh lệnh của model refiner, trong mục CFG, hãy tăng số lên cao hơn một chút, ví dụ như 8 hoặc 9, thậm chí là cao hơn. Lúc này, mô hình refiner sẽ không can thiệp chỉnh sửa quá nhiều so với hình ảnh gốc, từ đó tạo ra kết quả tạo hình trông trùng khớp hơn, thay vì hai mô hình tạo ra hai bức ảnh giống nhau về màu sắc và bố cục nhưng lại khác biệt về chi tiết.
Và vấn đề cổ điển của các thuật toán tạo hình ảnh dựa trên diffusion vẫn tiếp tục tồn tại, đó là chữ nghĩa vẫn trông khá kỳ lạ, đúng theo cách mà AI hiểu về ký tự. Tuy nhiên, điều này không làm khó các nhà thiết kế AI, vì không có gì mà Photoshop không thể làm được.
Chỉ là phiên bản 0.9 thôi, chưa phải là phiên bản chính thức, cũng chưa hoàn thiện 100%, nhưng SD XL đã có sức mạnh như vậy. Chỉ cần có VAE gốc và mô hình gốc, cũng có thể tạo ra hàng loạt hình ảnh đa dạng, linh hoạt để phục vụ ý tưởng của mọi người.
Để kết luận, mình cũng biết rằng nhiều người đang mong chờ so sánh giữa SD XL và Firefly của Adobe, công cụ inpainting và outpainting dựa trên AI đang được tích hợp vào Photoshop. Tuy nhiên, để so sánh được SD XL và Firefly, chúng ta cần các công cụ inpaint và outpaint dựa trên sức mạnh của SD XL, hỗ trợ cho các công cụ local như WebUI hoặc ComfyUI. Nhưng mình tin rằng ngày đó sẽ đến sớm thôi, có lẽ chỉ vài tuần sau khi SD XL chính thức ra mắt phiên bản 1.0.