Sử dụng Stable Diffusion XL để tạo hình ảnh bằng trí tuệ nhân tạo: Yêu cầu cấu hình PC rất cao, nhưng kết quả là những bức hình rất đẹp

Buzz

Ngày cập nhật gần nhất: 15/7/2026

Nội dung bài viết

Tải checkpoint của SDXL

ComfyUI hay Automatic1111 WebUI?

Vận hành đòi cấu hình máy rất cao

Xem thêm

Đọc tóm tắt

- Stability AI ra mắt mô hình Stable Diffusion XL với khả năng nội suy hình ảnh chân thực.
- SD XL cạnh tranh với SD, Midjourney với phiên bản v5.
- Chi tiết và cấu trúc hình ảnh cải thiện đáng kể trong SD XL.
- Phiên bản 1.0 của SD XL sắp ra mắt, phiên bản 0.9 rò rỉ trên internet.
- Hướng dẫn sử dụng SD XL 0.9 trên ComfyUI và Automatic1111 WebUI.
- Cần cấu hình máy mạnh để sử dụng SD XL 0.9.
- SD XL có tiềm năng và cải tiến đáng kể so với các phiên bản trước đó.
- Cần tinh chỉnh lệnh model refiner để tạo hình trùng khớp hơn.
- Vấn đề cổ điển của các thuật toán tạo hình ảnh dựa trên diffusion vẫn tồn tại.
- So sánh giữa SD XL và Firefly của Adobe cần công cụ inpaint và outpaint dựa trên sức mạnh của SD XL.

Một vài tháng trước đây, Stability AI ra mắt mô hình Stable Diffusion XL. Một trong những trọng tâm cơ bản của SD XL là khả năng nội suy hình ảnh với độ chân thực rất cao, điều này đã tạo nên uy tín cho công cụ này trong cuộc cạnh tranh trực tiếp với SD, Midjourney từ khi phiên bản v5 chính thức ra mắt. Chi tiết gương mặt và cấu trúc của tấm hình được cải thiện đáng kể trong SD XL so với các mô hình và checkpoint dựa trên SD 2.0 và 2.1.Theo Stability UI, SD XL hoạt động như sau. Checkpoint đầu tiên tạo hình ở độ phân giải thấp, được gọi là Base model. Hình ảnh được tạo ra sẽ có độ phân giải 128x128 pixel. Tiếp theo, hình ảnh này sẽ được tăng độ phân giải và chi tiết lên đến 1024x1024 pixel. Đây được xem là kích thước lý tưởng theo Stability AI, cho thấy mô hình SD XL đã được huấn luyện kỹ lưỡng.

Ngày 18/7 tới, phiên bản 1.0 của SD XL sẽ chính thức ra mắt. Tuy nhiên, phiên bản 0.9 đã rò rỉ trên internet trong vài ngày qua. Đáng chú ý, Stability AI đã phát hành phiên bản 'nghiên cứu thử nghiệm' của SD XL 0.9, cho phép mọi người đăng ký để tải xuống và sử dụng local trên máy tính cá nhân, với điều kiện máy đủ cấu hình để tạo ra hình ảnh dựa trên trí tuệ nhân tạo.

Những trải nghiệm này chỉ mang tính chất thú vị, để so sánh sức mạnh của SD XL với Midjourney hoặc Dall-E. Nếu bạn muốn tạo hình từ trí tuệ nhân tạo, bạn có thể lựa chọn giải pháp Automatic1111 WebUI, và tôi đã có hướng dẫn chi tiết dưới đây.

Nếu máy tính không đủ mạnh để trải nghiệm SD XL, Clipdrop cung cấp giải pháp tạo hình miễn phí, mỗi ngày 60 hình, hoàn toàn xử lý trên máy chủ của Stability AI. Bạn chỉ cần mở trang web lên và sử dụng:

Để sử dụng SD XL 0.9 và ComfyUI, máy tính cần phải có ít nhất 32GB RAM, GPU 16GB VRAM, và nên dùng card đồ họa Nvidia. ComfyUI tải toàn bộ mô hình refiner của SD XL 0.9 vào RAM, điều này đòi hỏi một lượng RAM lớn. Một trải nghiệm không mong muốn đã khiến mình phát hiện ra máy tính chỉ còn 16GB RAM do một thanh RAM đã chết. Khi xử lý hình ảnh qua mô hình refiner, máy tính hoạt động rất chậm cho đến khi tải xong checkpoint để hoàn tất quá trình xử lý.

Tải checkpoint của SDXL

Đầu tiên, truy cập vào đường dẫn sau: stabilityai/stable-diffusion-xl-base-0.9 · Hugging Face

Để sử dụng SD XL 0.9, anh em cần phải đăng ký tài khoản và đồng ý với các điều khoản của phiên bản thử nghiệm 0.9 của SD XL. Sau đó, Stability AI sẽ cung cấp cho anh em gói dữ liệu để tải về máy tính.

sd_xl_base_0.9.safetensors
sd_xl_refiner_0.9.safetensors

Khi đã có checkpoint SD XL 0.9, bước tiếp theo là chọn công cụ để vận hành checkpoint và tạo hình bằng các lệnh được cung cấp.

ComfyUI hay Automatic1111 WebUI?

Vài ngày trước đây, WebUI đã cập nhật đặc biệt để hỗ trợ tạo hình bằng SD XL 0.9. WebUI là một trong những công cụ phổ biến nhất để tạo hình ảnh bằng trí tuệ nhân tạo, sử dụng các mô hình từ Stability UI hoặc từ các nguồn khác dựa trên các phiên bản SD 1.5, 2.0 và 2.1... Tuy nhiên, cách hoạt động của WebUI khi tạo hình bằng SD XL 0.9 cũng có nhược điểm. Thứ nhất, anh em chỉ có thể chọn một trong hai checkpoint base hoặc refiner để tạo hình. Nếu dùng checkpoint base, hình ảnh sẽ thô và không chi tiết, còn nếu dùng refiner thì có thể gặp phải vấn đề về chi tiết, như mất hoặc thừa bàn tay, chân, vì cách hoạt động của SD XL đã được mô tả ở phần trước.

Truy cập trang GitHub của ComfyUI: GitHub - comfyanonymous/ComfyUI: Một giao diện đồ họa ổn định và có tính mô-đun với giao diện đồ thị/nút.
Ở mục Cài đặt, anh em click vào liên kết Trực tiếp để Tải xuống. Phiên bản này bao gồm toàn bộ các tệp cài đặt cần thiết để sử dụng trên máy tính chạy Windows, và GPU Nvidia. Chỉ cần tải gói này về là anh em sẽ tiết kiệm được một khoản thời gian để thiết lập phần mềm.
Sau khi tải xong file ComfyUI_windows_portable_nvidia_cu118_or_cpu.7z, anh em giải nén ở ổ cứng mong muốn.
Sau đó, mở thư mục ComfyUI_windows_portable_nvidia_cu118_or_cpu, tìm đến đường dẫn ComfyUI_windows_portable\ComfyUI\models\checkpoints.
Trong thư mục checkpoints, anh em bỏ hai tệp checkpoint sd_xl_base_0.9.safetensors và sd_xl_refiner_0.9.safetensors.
Quay lại thư mục ComfyUI_windows_portable, sẽ có hai tệp bat để khởi động ComfyUI. Anh em sẽ sử dụng tệp run_nvidia_gpu.bat để bắt đầu.
Mở tệp run_nvidia_gpu.bat, chờ quá trình thiết lập hoàn tất, trang web cục bộ để tạo hình bằng trí tuệ nhân tạo sẽ hiển thị ngay, không cần phải nhập địa chỉ như WebUI. Tuy nhiên, anh em đừng bắt đầu tạo hình ngay lúc này, hãy tải một không gian làm việc để tối ưu hóa với SD XL trước.
Anh em truy cập https://pastebin.com/sjhP8Pcj, tải về tệp json. Đây là bố cục để xử lý tạo hình bằng SD XL, bao gồm cả hai checkpoint base và refiner.
Trên giao diện của ComfyUI, anh em nhấn nút Tải lên ở bảng lệnh xử lý hình ảnh, tải tệp json vừa tải xuống vào ComfyUI. Khi đó, giao diện tạo hình bằng trí tuệ nhân tạo sẽ trông giống như thế này:

Vận hành đòi cấu hình máy rất cao

Rất dễ nhận thấy hai vấn đề với việc xử lý tạo hình bằng SD XL, bất kể là trên ComfyUI hay Automatic1111 WebUI. Thứ nhất là tốc độ xử lý, bất kể chọn mẫu nào, chỉ đạt khoảng 4 đến 5 it/s, so với 15 đến 18 it/s khi xử lý tạo hình với SD 1.5. Và thứ hai, yêu cầu cấu hình máy khi làm việc với SD XL, đặc biệt là với phiên bản 0.9 không hề thấp.

Trong phiên bản hiện tại, với mức độ tối ưu này, việc sử dụng card đồ họa có dung lượng VRAM dưới 12GB (RTX 3080 Ti trở xuống) sẽ gặp rất nhiều khó khăn khi tạo hình bằng SD XL. Tuy nhiên, điều này chắc chắn sẽ được cải thiện trong các bản cập nhật sau của mô hình diffusion từ Stability AI. Bài viết này nhấn mạnh vào việc mô tả các khác biệt trong hình ảnh mà SD XL tạo ra, so sánh với các mô hình trước đây mà Stability AI đã nghiên cứu trong hai năm qua.

Nếu xét về giá trị của SD XL theo mục tiêu của bài viết, thì phải thừa nhận rằng mô hình này đang có rất nhiều tiềm năng. SD XL có thể làm tốt mọi phong cách từ nhiếp ảnh, hoạt hình, mô hình 3D đến mô phỏng các bộ phim hoạt hình của Pixar.

Quan trọng nhất là, so với SD 1.5 và 2.1 mà tôi đã trải nghiệm cách đây vài tháng, SD XL đã có những cải tiến đáng kể. Đặc biệt là về khẩu độ bức ảnh theo yêu cầu và chi tiết của bàn tay con người, trông tự nhiên hơn nhiều. Mặc dù vẫn còn một số điểm chưa hoàn hảo, nhưng sự tiến bộ so với các phiên bản Stable Diffusion trước đó là đáng kể và đáng khen ngợi.

Tất nhiên vẫn có những lúc bàn tay trông rất kỳ dị, nhưng hầu hết thời gian, bàn tay của nhân vật trong hình ảnh AI tạo ra trông rất ấn tượng.

Có một điểm rất dễ nhận biết về SD XL. Nếu tạo ra các bức hình với từ khóa “chân thực” hay “nhiếp ảnh”, chất lượng da của nhân vật trong các bức hình, hoặc chất lượng ánh sáng chi tiết từng phần trên cơ thể đều rất tinh tế. Điều này cho thấy tần suất mẫu mà thư viện hình ảnh của Stability AI sử dụng để huấn luyện SD XL là rất lớn. Tương tự, chất lượng bề mặt của quần áo, sợi vải trông rất chi tiết, không bị nhăn và phẳng như trước đây.

Nếu bạn muốn thử nghiệm ComfyUI với SD XL 0.9, một gợi ý cho bạn là ở phần tùy chỉnh lệnh của model refiner, trong mục CFG, hãy tăng số lên cao hơn một chút, ví dụ như 8 hoặc 9, thậm chí là cao hơn. Lúc này, mô hình refiner sẽ không can thiệp chỉnh sửa quá nhiều so với hình ảnh gốc, từ đó tạo ra kết quả tạo hình trông trùng khớp hơn, thay vì hai mô hình tạo ra hai bức ảnh giống nhau về màu sắc và bố cục nhưng lại khác biệt về chi tiết.

Và vấn đề cổ điển của các thuật toán tạo hình ảnh dựa trên diffusion vẫn tiếp tục tồn tại, đó là chữ nghĩa vẫn trông khá kỳ lạ, đúng theo cách mà AI hiểu về ký tự. Tuy nhiên, điều này không làm khó các nhà thiết kế AI, vì không có gì mà Photoshop không thể làm được.

Chỉ là phiên bản 0.9 thôi, chưa phải là phiên bản chính thức, cũng chưa hoàn thiện 100%, nhưng SD XL đã có sức mạnh như vậy. Chỉ cần có VAE gốc và mô hình gốc, cũng có thể tạo ra hàng loạt hình ảnh đa dạng, linh hoạt để phục vụ ý tưởng của mọi người. Để kết luận, mình cũng biết rằng nhiều người đang mong chờ so sánh giữa SD XL và Firefly của Adobe, công cụ inpainting và outpainting dựa trên AI đang được tích hợp vào Photoshop. Tuy nhiên, để so sánh được SD XL và Firefly, chúng ta cần các công cụ inpaint và outpaint dựa trên sức mạnh của SD XL, hỗ trợ cho các công cụ local như WebUI hoặc ComfyUI. Nhưng mình tin rằng ngày đó sẽ đến sớm thôi, có lẽ chỉ vài tuần sau khi SD XL chính thức ra mắt phiên bản 1.0.

Các câu hỏi thường gặp

Stable Diffusion XL có những cải tiến nổi bật nào so với các phiên bản trước?

Stable Diffusion XL (SD XL) cải tiến đáng kể về độ chân thực trong việc nội suy hình ảnh, giúp tăng cường chi tiết gương mặt và cấu trúc hình ảnh so với các phiên bản SD trước. Điều này tạo nên sự nổi bật và uy tín cho công cụ trong cuộc cạnh tranh.

Máy tính cần cấu hình như thế nào để chạy Stable Diffusion XL 0.9 hiệu quả?

Để sử dụng Stable Diffusion XL 0.9 hiệu quả, máy tính cần ít nhất 32GB RAM và GPU 16GB VRAM, thường là các card đồ họa Nvidia. Cấu hình cao giúp quá trình xử lý hình ảnh diễn ra mượt mà hơn.

Làm thế nào để tải và sử dụng phiên bản Stable Diffusion XL 0.9 trên máy tính cá nhân?

Để tải Stable Diffusion XL 0.9, bạn cần đăng ký tài khoản trên Stability AI và đồng ý với điều khoản. Sau đó, tải các tệp checkpoint cần thiết và sử dụng các công cụ như ComfyUI hoặc Automatic1111 WebUI để vận hành và tạo hình.

Có sự khác biệt nào giữa ComfyUI và Automatic1111 WebUI khi sử dụng SD XL không?

Có, sự khác biệt giữa ComfyUI và Automatic1111 WebUI khi sử dụng SD XL là ở giao diện và cách hoạt động. ComfyUI có giao diện đồ họa dễ sử dụng hơn, trong khi Automatic1111 WebUI thường được ưa chuộng hơn cho khả năng tùy chỉnh sâu.

Chất lượng hình ảnh từ Stable Diffusion XL có đáng tin cậy không?

Có, chất lượng hình ảnh từ Stable Diffusion XL được cải thiện rõ rệt, đặc biệt là trong việc tạo ra chi tiết tự nhiên hơn cho các bức chân dung và các yếu tố khác như chất liệu vải và ánh sáng. Mặc dù vẫn có một số lỗi, nhưng chất lượng tổng thể rất đáng khen.

Stable Diffusion XL có thể tạo ra những phong cách nào trong hình ảnh?

Stable Diffusion XL có khả năng tạo ra nhiều phong cách hình ảnh đa dạng từ nhiếp ảnh chân thực, hoạt hình, mô hình 3D đến các phong cách nghệ thuật khác. Điều này cho thấy khả năng linh hoạt và sáng tạo của mô hình này.

Nội dung từ Mytour nhằm chăm sóc khách hàng và khuyến khích du lịch, chúng tôi không chịu trách nhiệm và không áp dụng cho mục đích khác.

Nếu bài viết sai sót hoặc không phù hợp, vui lòng liên hệ qua Zalo: 0978812412 hoặc Email: [email protected]