Hướng dẫn chi tiết về cách tạo prompt ảnh trong Stable Diffusion

Buzz

Ngày cập nhật gần nhất: 15/7/2026

Nội dung bài viết

1. Cách nhận diện một Prompt hiệu quả

2. Prompt tiêu cực

3. Các cú pháp để điều khiển từ khóa

4. Khai thác sức mạnh của các model tùy chỉnh

5. Một số mẹo để cải thiện Prompt

Tóm tắt

Xem thêm

Câu lệnh hay Prompt là yếu tố rất quan trọng để tạo ra những bức ảnh đúng ý trong Stable Diffusion. Khi mới thử nghiệm tạo ảnh bằng Gen AI, tôi thường chỉ nhập một câu mô tả ngắn bằng tiếng Anh và kết quả thường không được như mong đợi. Nguyên nhân là do hệ thống không hiểu chính xác ý tưởng của bạn, dẫn đến kết quả chung chung.

Do đó, cần phải có một prompt 'chuẩn xác'. Điều này có nghĩa là chúng ta cần phải viết câu lệnh sao cho hệ thống hiểu đúng ý tưởng của bạn theo cách của nó. Tương tự như việc bạn cần biết sử dụng các công cụ trong Photoshop để tạo ra hình ảnh, giờ đây thay vì sử dụng chuột, bạn chỉ cần gõ từ khóa và chờ GPU xử lý.

Không dài dòng nữa, hãy cùng xem qua các điểm chính mà chúng ta cần nắm bắt.

1. Cách nhận diện một Prompt hiệu quả

Để có một prompt hiệu quả, bạn cần đảm bảo hai yếu tố quan trọng: chính xác và rõ ràng. Giống như khi bạn yêu cầu ai đó làm một việc, việc miêu tả chi tiết và cụ thể sẽ giúp người đó thực hiện đúng yêu cầu của bạn. Để đạt được sự chính xác và rõ ràng, bạn cần sử dụng các từ khóa (keyword) đúng cách, sắp xếp chúng hợp lý và tuân thủ cú pháp. Đầu tiên, chúng ta sẽ phân loại từ khóa thành các nhóm yếu tố cơ bản tạo nên một bức ảnh:

Chủ đề: Nội dung chính của bức ảnh, mô tả rõ nhất về ý tưởng và hình ảnh bạn muốn thể hiện. Một từ khóa chủ đề tốt sẽ là khởi đầu vững chắc cho các bước tiếp theo.
Góc máy: Các từ khóa xác định góc nhìn vào đối tượng, thể hiện ý đồ của bạn.
Chất liệu: Các từ khóa liên quan đến công cụ, vật liệu, phương pháp tạo tác phẩm (digital, oil, watercolor, photograph,...)
Phong cách: Trường phái nghệ thuật của bức ảnh (hiện đại, siêu thực, trừu tượng, cyberpunk,...)
Nghệ sĩ: Phong cách của một nghệ sĩ cụ thể
Chi tiết: Từ khóa bổ sung độ chi tiết cho hình ảnh
Ánh sáng: Từ khóa hoàn thiện ánh sáng của bức ảnh
Chi tiết tinh chỉnh: Từ khóa thêm các chi tiết khác để hoàn thiện bức tranh

Những thứ cần chuẩn bị

Đã cài đặt Stable Diffusion: Nếu bạn chưa biết cách cài đặt, có thể tham khảo hướng dẫn tại

và

Trong bài viết này, tôi sẽ sử dụng mô hình DreamShaper 8 được xây dựng trên nền tảng Stable Diffusion 1.5. Đây là một mô hình phổ biến trên Civitai, bạn có thể tải và cài đặt tại liên kết dưới đây.

DreamShaper - 8 | Stable Diffusion Checkpoint | Civitai

1.1 Chọn chủ đề

Ví dụ cụ thể, nếu bạn nghĩ đến 'Nữ siêu anh hùng', bạn có thể dịch sang prompt tiếng Anh là 'female superhero'. Tuy nhiên, prompt này vẫn còn khá chung chung. Hãy thử hình dung thêm: Nữ siêu anh hùng đó trông như thế nào? Cô ấy mặc trang phục màu gì? Cô có siêu năng lực gì? Cô đang đứng yên hay hành động, chuyển động gì? Phông nền phía sau là gì?....

Giả sử trong trường hợp này, tôi đang nghĩ đến Wonder Woman do Gal Gadot thủ vai trong phim Marvel.

Thử dùng prompt: A female superhero
Bây giờ, tôi sẽ nhanh chóng viết prompt này làGal Gadot trong vai nữ siêu anh hùng, bí ẩn với bụi ma thuật màu vàng và viền hologram cam1.2 Điều chỉnh góc máyGóc nhìn

Khi chụp ảnh, góc máy khác nhau sẽ mang đến những bức ảnh đa dạng với mục đích và ý tưởng khác nhau. Tương tự, khi tạo ảnh bằng SD, bạn cần hình dung góc nhìn của bạn đối với chủ thể (như từ dưới lên, ngang qua, từ trên xuống, v.v.) và truyền đạt điều đó cho SD qua các từ khóa trong prompt. Dưới đây là hình minh họa cho các 'từ khóa' tương ứng với từng góc máy.

Hãy thử ví dụ từ prompt trên và thử nghiệm với hai prompt sau:

Trái: High angle shot của Gal Gadot trong vai nữ siêu anh hùng, bí ẩn, bụi ma thuật vàng với viền holo cam
Phải: Low angle shot của Gal Gadot trong vai nữ siêu anh hùng, bí ẩn, bụi ma thuật vàng với viền holo cam

Sau khi cố định góc máy, chúng ta có thể thể hiện góc nhìn về chủ thể rõ hơn và tạo ra cảm xúc mạnh mẽ hơn.

Độ cao camera

Điều này thường áp dụng khi bạn tạo ảnh với chủ thể là người. Bạn sẽ dùng các từ khóa về độ cao của camera để quyết định xem bạn muốn chụp ảnh thẻ, chân dung, bán thân hay toàn thân,... Một yếu tố khác là khung hình, bạn có thể tập trung vào miệng, mắt, chụp chân dung toàn mặt, hoặc lấy cảnh xung quanh nhiều hơn,... Hình trên là một số từ khóa phổ biến cùng với các minh họa vị trí để bạn dễ hình dung.

Độ cao của camera và góc máy, dù là cận cảnh, trung cảnh hay toàn cảnh, đều có ảnh hưởng lớn đến cảm xúc và ý nghĩa của bức ảnh. Những ai làm phim hay chụp ảnh street life sẽ hiểu rõ điều này. Ví dụ, góc máy cận ngang mắt chủ thể sẽ làm nổi bật nhân vật, trong khi góc máy toàn cảnh giúp đặt chủ thể vào một bối cảnh rộng lớn hơn, nơi màu sắc, chủ đề, ánh sáng và các yếu tố xung quanh đều đóng vai trò quan trọng trong việc truyền tải thông điệp.

Dưới đây là ví dụ để bạn dễ hình dung.

Đây là một ví dụ về prompt yêu cầu chụp toàn thân (lưu ý rằng chụp toàn thân có thể gặp vấn đề như rách quần áo của chủ thể): Full body shot của Gal Gadot trong vai nữ siêu anh hùng, bí ẩn, bụi ma thuật vàng với viền holo
Hãy thử một prompt khác (phải): Closeup shot của Gal Gadot trong vai nữ siêu anh hùng, bí ẩn, bụi ma thuật vàng với viền holo cam

Tiếp theo, thử góc máy từ trên xuống: Closeup shot của Gal Gadot trong vai nữ siêu anh hùng, high angle shot, bí ẩn, bụi ma thuật vàng với viền holo cam

Việc chọn góc máy cận hay toàn thân phụ thuộc vào ý đồ của bạn. Đôi khi cần thử nghiệm nhiều kiểu khác nhau để tìm ra góc máy ưng ý, diễn tả chính xác ý muốn và tạo được cảm xúc.

Miêu tả về camera

Trong một số trường hợp, bạn có thể thêm thông số phần cứng của camera như thương hiệu máy, tiêu cự ống kính, tốc độ chụp để chỉ định rõ hơn về khung hình và màu sắc.

Ví dụ về prompt ống kính máy ảnh:

Góc rộng, tiêu cự 10mm, 35mm
Tiêu cự 50mm
Tiêu cự 85mm, 200mm

Ví dụ về prompt tốc độ chụp

Tốc độ chụp chậm, 1/30 giây
Tốc độ chụp nhanh, 1/1000 giây

Một số ví dụ về tên máy ảnh:

Leica Q2
Fujifilm X-T4
Fujifilm X-T3
Canon EOS 5D Mark
Nikon D850
Sony A6400
Sony A7 IV
Fujifilm X100V

1.3 Medium của bức ảnh

Khái niệm này dùng để chỉ công cụ hoặc chất liệu mà nghệ sĩ sử dụng để tạo ra tác phẩm, ví dụ như tranh sơn dầu, tranh màu nước, ảnh chụp bằng máy ảnh hay ảnh đồ họa máy tính. Việc lựa chọn medium không chỉ ảnh hưởng đến thẩm mỹ mà còn quyết định phong cách của bức ảnh được SD tạo ra.

Dưới đây là một số từ khóa phổ biến khi tạo ảnh trong SD:

Minh họa: thường liên quan đến các yếu tố vẽ tay (bằng bút chì, mực, bút dạ hoặc vẽ trên phần mềm, tablet,...). Cũng có thể kết hợp với các từ khóa khác như sketches (nét vẽ cơ bản bằng bút chì, bút mực), black and white / BW / Colors (màu sắc hoặc đơn sắc),...
Tranh sơn dầu: những bức tranh có chiều sâu, nhiều lớp màu được chồng lên nhau để tạo chiều sâu và ánh sáng. Đôi khi còn thể hiện được sự khô dần theo thời gian của lớp sơn,...
3D rendering: đây là loại digital Art, hình ảnh là các mô hình 3 chiều và cảnh vật được dựng bằng công nghệ 3D. Điều này thường thể hiện rõ qua độ sắc nét, chi tiết, ánh sáng và bóng đổ,...
Photorealistic: từ khóa này liên quan đến việc tạo ra các bức ảnh giống như chụp bằng máy ảnh, với chủ thể và các chi tiết xung quanh được tái hiện giống như ngoài đời về màu sắc, tương phản, ánh sáng,...

Thử với prompt (trái): Tranh sơn dầu về Gal Gadot trong vai nữ siêu anh hùng, bí ẩn, bụi ma thuật vàng với viền holo cam
Và prompt (phải): Hình ảnh Anime của Gal Gadot trong vai nữ siêu anh hùng, bí ẩn, bụi ma thuật vàng với viền holo cam

Lưu ý rằng từ một medium, bạn có thể khám phá nhiều nhánh khác nhau, thêm nhiều từ khóa như Film Noir, Black and White photography, Anime, Vector Illustration,... rất nhiều. Bạn có thể tham khảo thêm ở liên kết dưới đây và tự mình khám phá nhé.

1.4 Trường phái nghệ thuật - Style

Trường phái nghệ thuật không chỉ bị ảnh hưởng bởi kỹ thuật tạo tác phẩm mà còn bởi phương pháp và đặc điểm riêng như cách sử dụng màu sắc, chi tiết, hình thể,... Đây là một số từ khóa thường dùng trong SD:

Impressionist: trường phái ấn tượng, nhấn mạnh vào cảm xúc và ánh sáng
Surrealist: trường phái siêu thực, thể hiện những hình ảnh kỳ quái, không thực tế
Pop Art: trường phái nghệ thuật đại chúng, sử dụng hình ảnh phổ biến và yếu tố văn hóa đại chúng
Hyperrealistic: trường phái cực thực, tập trung vào việc tạo ra hình ảnh gần như thật tuyệt đối (mới mẻ với mình)
Fantasy: kỳ ảo, lý tưởng cho các hình ảnh về phù thủy, rồng, huyền thoại và các trận chiến thần thoại
Anime: không cần bàn cãi, phong cách này đặc trưng cho các hình ảnh anime
Cinematic: phong cách điện ảnh, mang cảm giác của cảnh phim
Cyberpunk: phong cách khoa học viễn tưởng, với những yếu tố công nghệ cao và đô thị tăm tối
Steampunk: một nhánh của khoa học viễn tưởng với phong cách thời Victoria và công nghệ hơi nước

Một số phong cách khác: Anime Style, Photographic Style, Digital Art Style, Comic Book Style, Neon Punk Style, Isometric Style, Low Poly Style, Origami Style, Line Art Style, 3D Model Style, Pixel Art Style, Abstract Art Style, ASCII Art Style, Cubism Art Style, Metaphysical Art Style, Pop Surrealism Style, Rococo Art Style, Surrealism Art Style, Fauvism Art Style

Danh sách phong cách nghệ thuật còn phong phú hơn nữa. Bạn có thể thử nghiệm thêm nhiều kiểu khác. Giờ hãy thêm vào hình ảnh Wonder Woman nhé.

Prompt: Phong cách cực thực toàn thân của Gal Gadot trong vai nữ siêu anh hùng, bí ẩn, bụi ma thuật vàng với viền holo cam

1.5 Phong cách của nghệ sĩ

Trong nghệ thuật, các nghệ sĩ nổi tiếng thường sở hữu phong cách đặc trưng, dễ dàng nhận diện qua tác phẩm của họ. Vì vậy, việc sử dụng tên của nghệ sĩ như một từ khóa có thể giúp bạn tạo ra những bức tranh mang đậm dấu ấn của họ, thể hiện được cảm xúc và ý tưởng của bạn, hoặc thậm chí là “nhái” phong cách của họ.

Thử một prompt (bên trái): vẽ Gal Gadot trong vai nữ siêu anh hùng, bí ẩn, bụi ma thuật vàng với viền holo cam, theo phong cách của Aaron Horkey
Và một prompt khác (bên phải): vẽ màu nước rực rỡ, toàn thân Gal Gadot trong vai nữ siêu anh hùng, bí ẩn, bụi ma thuật vàng với viền holo cam, theo phong cách của Agnes Cecile

Bạn có thể tìm thêm phong cách tại link supagruen.github.io/StableDiffusion-CheatSheet/ để tham khảo nhiều phong cách khác nhau. Cũng có thể xem thêm tại Danh sách nghệ sĩ cho Stable Diffusion XL để so sánh.

1.6 Độ chi tiết

Khi đã định hình bố cục, góc máy và phong cách, chúng ta có thể thêm các từ khóa để tăng cường độ chi tiết của hình ảnh, làm cho nó sắc nét và ấn tượng hơn. Một số từ khóa như: 8k, ultra high res, sharp focus,... sẽ giúp Stable Diffusion tạo ra hình ảnh với độ chi tiết cao hơn. Mặc dù độ phân giải của ảnh là quan trọng, nhưng chi tiết trong hình ảnh cũng ảnh hưởng lớn đến chất lượng tổng thể.

Thử qua hai prompt bên dưới:

Trái: Photorealistic, 8k, ultra high res, toàn thân Gal Gadot trong vai nữ siêu anh hùng, bí ẩn, bụi ma thuật vàng với viền holo cam
Phải: Photorealistic, 8k, ultra high res, cận cảnh Gal Gadot trong vai nữ siêu anh hùng, bí ẩn, bụi ma thuật vàng với viền holo cam

1.7 Miêu tả ánh sáng

Dù là vẽ tranh, chụp ảnh ngoài đời hay tạo ảnh trên máy tính, ánh sáng luôn đóng vai trò quan trọng, và việc tạo ảnh bằng SD cũng không phải là ngoại lệ. Cân nhắc cách bố trí ánh sáng và bóng tối sẽ giúp bức ảnh có chiều sâu, cảm xúc và nét đặc trưng hơn.

Đặc biệt trong việc tạo ảnh bằng AI, các từ khóa liên quan đến ánh sáng như 'cinematic lightning' và 'perfect lighting' rất hữu ích để tinh chỉnh và làm cho bức ảnh thêm phần ấn tượng và sống động hơn.

Mình sẽ thử nghiệm với một prompt yêu cầu ánh sáng và một cái không yêu cầu để các bạn dễ hình dung.

Trái: Photorealistic, 8k, ultra high res, toàn thân Gal Gadot trong vai nữ siêu anh hùng, bí ẩn, bụi ma thuật vàng với viền holo cam
Phải: Photorealistic, 8k, ultra high res, toàn thân Gal Gadot trong vai nữ siêu anh hùng, bí ẩn, bụi ma thuật vàng với viền holo cam, ánh sáng điện ảnh, ánh sáng hoàn hảo

1.8 Tinh chỉnh thêm các yếu tố trong hình

Dù đã nắm rõ các công cụ cơ bản và các yếu tố của một prompt, và có một mô hình tốt, việc tạo ra hình ảnh hoàn hảo không phải lúc nào cũng dễ dàng. Tạo ra bức ảnh là một quá trình thử nghiệm và điều chỉnh liên tục, thêm thắt các yếu tố cho chủ thể và nền để đạt được kết quả ưng ý. Đây chính là vẻ đẹp của việc tạo ảnh bằng Stable Diffusion.

Tiếp tục hoàn thiện hình ảnh Wonder Woman, mình sẽ thử thêm một số yếu tố mới.

Photorealistic, 8k, ultra high res, toàn thân Gal Gadot trong vai nữ siêu anh hùng bí ẩn, với bụi ma thuật vàng và viền holo cam, ánh sáng điện ảnh, ánh sáng hoàn hảo, thành phố thời trung cổ làm nền

Photorealistic, 8k, ultra high res, toàn thân Gal Gadot trong vai nữ siêu anh hùng bí ẩn trong bối cảnh kỳ ảo cao, trang phục siêu anh hùng chi tiết cao, chi tiết tinh xảo, bụi ma thuật vàng với viền holo cam, ánh sáng điện ảnh, ánh sáng hoàn hảo, thành phố thời trung cổ làm nền

Hình ảnh chân thực, độ phân giải 8k, toàn thân của Gal Gadot trong vai một nữ siêu anh hùng bí ẩn và mạnh mẽ trong bối cảnh kỳ ảo, trang phục siêu anh hùng medieval, chi tiết tỉ mỉ, sức mạnh bụi ma thuật vàng với viền hologram cam, ánh sáng điện ảnh, ánh sáng hoàn hảo, thành phố medieval phía sau

Hình ảnh chân thực, độ phân giải 8k, toàn thân của Gal Gadot trong vai một nữ siêu anh hùng bí ẩn và mạnh mẽ trong bối cảnh kỳ ảo, trang phục siêu anh hùng medieval, chi tiết tỉ mỉ, sức mạnh bụi ma thuật vàng với viền hologram cam, đang tạo phép thuật, ánh sáng điện ảnh, ánh sáng hoàn hảo, thành phố medieval phía sau, trăng tròn, linh hồn tối tăm, ánh trăng chiếu qua tóc

2. Prompt tiêu cực

Phần trên là Prompt - những yếu tố chúng ta mong muốn có trong bức hình tạo ra bởi SD, còn Negative Prompt là những gì chúng ta không muốn thấy trong hình. Đây thường là những từ khóa liên quan đến những yếu tố không mong muốn như 'xấu xí' hoặc 'biến dạng' hay 'tay' (bàn tay, một điểm yếu của SD 1.5)

Thông thường, tôi có một danh sách từ khóa luôn được thêm vào Negative Prompt cho mọi hình ảnh, bất kể chủ đề là gì.
xấu xí, cấu trúc cơ thể kém, tay xấu, tỷ lệ không chính xác, chất lượng kém, mờ, cắt xén, biến dạng, chi tiết chi tiết bị tách rời, ngoài khung hình, ngoài tiêu điểm, khô, lỗi, biến dạng, kinh tởm, tay thừa, ngón tay thừa, chi thừa, tay bị dính, tỷ lệ xấu, cổ dài, độ phân giải thấp, chất lượng thấp, jpeg, lỗi jpeg, chất lượng bình thường, chi bị biến dạng, tay bị biến dạng, chi bị biến dạng, thiếu tay, thiếu ngón tay, khung hình, tay vẽ xấu, mặt vẽ xấu, chữ, chữ ký, tên người dùng, watermark, chất lượng tệ nhất, collage, pixel, pixel hóa, nhiễu, chữ ký

Negative Prompt khi tạo ảnh con người:
Cấu trúc cơ thể kém, tay xấu, người thiếu tay, thiếu ngón tay, thiếu chi, thiếu tay, ngón tay thừa, tay thừa, chi thừa, tay biến dạng, biến dạng, đột biến, nhiều đầu, chi bị biến dạng, biến dạng, tay vẽ xấu, mặt vẽ xấu, cổ dài, tay bị dính, tay bị dính, bị cắt, trùng lặp, tỷ lệ không chính xác, cơ thể xấu xí, mặt bị sao chép, cơ thể bị sao chép, tỷ lệ xấu, kinh tởm cơ thể, quá nhiều ngón tay

Negative Prompt khi tạo ảnh chân thực
Hoạt hình, CGI, Render, 3D, Artwork, Minh họa, 3D render, Cinema 4D, Artstation, Octane render, Sơn, Sơn dầu, Anime, 2D, Phác thảo, Vẽ, Ảnh kém, Ảnh tệ, Deviant art

Negative Prompt không dùng cho ảnh NSFW
Nsfw, Không được kiểm duyệt, Ngực, Cởi trần, Núm vú

Negative Prompt khi tạo ảnh phong cảnh, thiên nhiên
Quá sáng, Nền đơn giản, Nền trơn, Nhiễu, Chân dung, Đen trắng, Một màu, Thiếu sáng, Độ tương phản thấp, Chất lượng thấp, Tối, Biến dạng, Vết trắng, Cấu trúc bị biến dạng, Macro, Nhiều góc

Negative Prompt khi tạo ảnh vật thể
Asymmetry, Các phần, Thành phần, Thiết kế, Hỏng, Hoạt hình, Biến dạng, Các mảnh thừa, Tỷ lệ xấu, Đảo ngược, Misaligned, Rùng rợn, Thiếu phần, Quá cỡ, Nghiêng

Thử ví dụ dưới đây, bạn sẽ thấy chất lượng hình ảnh sẽ được nâng cao đáng kể.

Prompt:
Hình ảnh chân thực, độ phân giải 8k, toàn thân của Gal Gadot trong vai nữ siêu anh hùng bí ẩn, mạnh mẽ trong bối cảnh kỳ ảo, trang phục siêu anh hùng medieval, chi tiết tinh xảo, bụi ma thuật vàng với viền hologram cam, đang thực hiện phép thuật, ánh sáng điện ảnh hoàn hảo, thành phố medieval phía sau, trăng tròn, linh hồn tối tăm, ánh trăng chiếu qua tóc

Negative Prompt:
độ phân giải thấp, cấu trúc cơ thể kém, tay xấu, chữ, lỗi, thiếu ngón tay, ngón tay thừa, thiếu ngón, cắt xén, chất lượng tệ nhất, chất lượng thấp, chất lượng bình thường, lỗi jpeg, chữ ký, watermark, tên người dùng, mờ

3. Các cú pháp để điều khiển từ khóa

Từ khóa là yếu tố quyết định trong việc tạo hình ảnh bằng AI. Trên đây, chúng ta đã thảo luận về nội dung của từ khóa. Tuy nhiên, các từ khóa không có cùng mức độ ảnh hưởng, mà chúng ta có thể điều chỉnh mức độ ảnh hưởng, kết hợp từ khóa để model tạo ra hình ảnh theo mong muốn.

3.1 Cú pháp cần biết

Để điều chỉnh mức độ ảnh hưởng của từ khóa, chúng ta sử dụng cú pháp

(từ khóaệ số)

Cú pháp này có thể áp dụng cho hầu hết các từ khóa, từ vật thể, ánh sáng, phong cách, trường phái,... Nếu hệ số nhỏ hơn 1, từ khóa sẽ ít ảnh hưởng hơn, ngược lại, nếu lớn hơn 1, từ khóa sẽ được nhấn mạnh hơn. Ví dụ, hãy thử tạo 3 hình ảnh với từ khóa 'mặt trăng' sử dụng các hệ số 0.5, 1.1 và 1.3.

Chân dung siêu anh hùng nữ bí ẩn, đậm chất kỳ fantasy, với trang phục medieval chi tiết và công thức phép thuật ánh sáng vàng với viền hologram cam, đang triệu hồi phép thuật trong một bối cảnh thành phố medieval dưới ánh trăng đầy, ánh sáng điện ảnh hoàn hảo và ánh trăng chiếu qua mái tóc của Gal Gadot

Một cách khác để điều chỉnh sức mạnh của từ khóa là sử dụng ( ) và [ ]. Cú pháp (từ khóa) sẽ làm tăng sức mạnh của từ khóa lên hệ số 1.1, tương đương với (Từ khóa:1.1). Cú pháp [Từ khóa] sẽ giảm sức mạnh của từ khóa xuống hệ số 0.9, tương đương với (từ khóa:0.9). Đặc biệt là () hoặc [] có thể được sử dụng nhiều lần. Ví dụ:

(từ khóa) sẽ tăng cường độ nhấn mạnh theo hệ số 1.1
((từ khóa)) sẽ tăng cường độ nhấn mạnh theo hệ số 1.21
(((từ khóa))) sẽ tăng cường độ nhấn mạnh theo hệ số 1.33

Tương tự như vậy

[từ khóa] sẽ giảm sức mạnh theo hệ số 0.9
[[từ khóa]] sẽ giảm sức mạnh theo hệ số 0.81
[[[từ khóa]]] sẽ giảm sức mạnh theo hệ số 0.73

3.2 Tác động của thứ tự từ khóa

Thứ tự của các từ khóa trong prompt không phải là ngẫu nhiên mà cần có sự sắp xếp hợp lý. Model sẽ chú ý đến vị trí của từ khóa, với từ khóa ở đầu có trọng số cao hơn so với những từ khóa ở phía sau.

Việc thay đổi thứ tự các từ khóa có thể tạo ra các bố cục khác nhau trong hình ảnh. Do đó, khi muốn điều chỉnh một yếu tố cụ thể trong hình ảnh, bạn nên sử dụng cú pháp ( ) thay vì thay đổi thứ tự các từ khóa.

3.3 Định kiến của model tạo ảnh

Mỗi model AI được huấn luyện trên một bộ dữ liệu khổng lồ. Dù bộ dữ liệu này rất phong phú, nhưng nó cũng có thể chứa những định kiến. Kết quả của model có thể vô tình giữ lại hoặc làm tăng các định kiến này, dẫn đến các hiệu ứng không mong muốn trong hình ảnh.

Ví dụ, với prompt: Chân thực, 8k, độ phân giải cực cao, mô tả một lập trình viên ngồi tại bàn làm việc lập trình, chi tiết tỉ mỉ, ánh sáng điện ảnh hoàn hảo, (chiếu sáng điện ảnh, ánh sáng hoàn hảo:1.1)

Nhìn qua có vẻ như các bức ảnh này đều bình thường và chỉ là hình ảnh của nam lập trình viên. Nhưng nếu suy nghĩ kỹ, bạn sẽ nhận ra rằng prompt không yêu cầu phải tạo lập trình viên nam. Tuy nhiên, hầu hết các hình ảnh được tạo ra từ prompt này đều là nam lập trình viên, không có nữ. Đây chính là sự định kiến của model, nghĩa là khi nhắc đến lập trình viên, model mặc định đó phải là nam.

Định kiến không chỉ về giới tính mà còn về nhiều yếu tố khác như chủng tộc, độ tuổi, nghề nghiệp hoặc các thuộc tính khác. Đây là vấn đề cần lưu ý khi sử dụng AI để tạo hình ảnh. Các vụ lùm xùm gần đây về AI cũng xuất phát từ vấn đề này, ví dụ như vụ ảnh của Google bị chỉ trích vì phân biệt chủng tộc, hoặc ở Việt Nam có trường hợp tạo ảnh Chú bộ đội cầm súng nhưng lại là hình ảnh của lính/vũ khí không phải của VN.

Nguyên tắc quan trọng là các máy tính và model đều có giới hạn nhất định. Dù hình ảnh đầu ra có thể trông đẹp và hợp lý, nhưng vẫn có khả năng chứa thông tin sai lệch. Chỉ có con người mới có thể dễ dàng nhận ra điều này. Vì vậy, việc cẩn trọng khi tạo hình và sử dụng chúng là rất cần thiết.

4. Khai thác sức mạnh của các model tùy chỉnh

Cộng đồng sử dụng Stable Diffusion đang phát triển rất mạnh mẽ. Có rất nhiều model được đào tạo và tùy chỉnh đã được chia sẻ trên các trang như civitai, cho phép bạn tạo ra những hình ảnh chi tiết và chính xác theo ý muốn. Việc chọn model tương tự như việc bạn thuê một họa sĩ theo phong cách, kỹ thuật, và nội dung bạn mong muốn. Bạn còn có thể tùy chỉnh thêm bằng cách tiếp tục đào tạo model hoặc kết hợp nhiều model với nhau (cái này sẽ được chia sẻ trong bài viết khác). Dùng cùng một câu lệnh với các model khác nhau có thể tạo ra các hình ảnh hoàn toàn khác nhau.

Tuy nhiên, các model tùy chỉnh có thể 'hiểu' từ khóa theo cách khác nhau. Một từ khóa trong model chuẩn có thể mang ý nghĩa khác khi sử dụng trong model tùy chỉnh, dẫn đến hình ảnh tạo ra cũng có thể khác xa. Điều này đặc biệt đúng với các từ khóa liên quan đến phong cách. Ví dụ, từ khóa 'retro' có thể tạo ra hình ảnh theo phong cách thập niên 70 trong một model, nhưng có thể là thập niên 80 hoặc 90 trong model khác.

5. Một số mẹo để cải thiện Prompt

Khi khởi động Stable Diffusion, đôi khi bạn có thể cảm thấy bối rối không biết nên bắt đầu từ đâu hoặc tạo ra cái gì. Đừng lo lắng, vì hiện có rất nhiều công cụ và tài nguyên giúp bạn tìm kiếm ý tưởng sáng tạo.

Khám phá ý tưởng từ những hình ảnh khác

Hãy truy cập các trang chia sẻ như CivitAi, nơi có hàng triệu hình ảnh được tạo ra và kèm theo đó là các prompt đã sử dụng. Bằng cách đọc những prompt này, bạn có thể dễ dàng tìm thấy cảm hứng để tạo ra những hình ảnh mới cho riêng mình.

Nhờ chat bot gợi ý ý tưởng cho prompt

Đây là công cụ mình thường xuyên dùng để tìm kiếm từ khóa cho bất kỳ chủ đề nào. Đôi khi, phương pháp này còn giúp mình phát hiện thêm những từ khóa mới để hoàn thiện bức tranh, đặc biệt là các chi tiết trong bức hình. Ví dụ, nếu mình muốn tạo hình một elf cung thủ đang đối phó với zombie, mình sẽ yêu cầu Copilot 'describe a scene where an elven archer is evading zombies'. Nó sẽ cung cấp cho bạn một đoạn văn chứa những câu 'có giá trị' để tạo hình như:

'Elven archer with glistening armor, darting through a misty forest, with shadows of zombies looming behind.'
'Moonlit scene of an elf with a drawn bow, her footsteps echoing as she flees from the haunting growls of pursuing zombies.'
'An ancient woodland setting, where an elven warrior, arrows shimmering, races against time and the undead.'

Rất nhiều từ khóa để bạn phát triển thêm.

Thử nghiệm và điều chỉnh cho đến khi hoàn hảo

Điểm mạnh của Stable Diffusion là khả năng điều chỉnh nhanh chóng theo nhiều cách, từ việc thêm bớt đến thay đổi cường độ của các từ khóa cho đến khi bạn hài lòng. Ngày xưa, việc chỉnh sửa tranh tốn nhiều thời gian, và với Photoshop hay các ứng dụng vẽ trên máy tính, chúng ta cần biết cách sử dụng công cụ để thêm bớt chi tiết. Nhưng với SD, việc này trở nên nhanh chóng hơn rất nhiều; chỉ cần thay đổi lệnh là bạn sẽ thấy bức tranh mới ngay lập tức.

Tóm tắt

Vậy là xong! Bạn đã nắm được gần như toàn bộ kiến thức cần thiết về việc tạo prompt trong Stable Diffusion. Giờ là lúc bắt đầu sáng tạo. Dưới đây là 10 điểm quan trọng bạn cần nhớ về Prompt trong SD.

Khởi đầu rõ ràng: Trước khi dấn thân vào các kỹ thuật, bạn cần có một hình dung rõ ràng về mục tiêu cuối cùng. Sự rõ ràng này sẽ là kim chỉ nam cho prompt của bạn, giúp định hướng mọi quyết định trong quá trình tạo ảnh.
Động lực từ khóa: Hiểu rõ trọng số và ý nghĩa của từng từ khóa. Thứ tự và sự nhấn mạnh / giảm nhẹ đều quan trọng. Sử dụng dấu ngoặc đơn và dấu ngoặc vuông một cách hợp lý để điều chỉnh cường độ của từ khóa.
Kiểm soát định kiến: Nhận thức được các định kiến tiềm ẩn của một số từ khóa giúp bạn tránh các cạm bẫy và thành kiến, đảm bảo đầu ra phù hợp với hình dung của bạn.
Negative Prompt là bạn đồng hành: Vai trò của nó quan trọng không kém gì những gì bạn mong muốn. Negative Prompt giúp bạn tinh chỉnh hình ảnh, loại bỏ các yếu tố không mong muốn và cải thiện kết quả cuối cùng.
Khám phá các model tùy chỉnh: Nếu bạn đang tìm kiếm phong cách hoặc gu cụ thể, các model tùy chỉnh sẽ giúp bạn. Tuy nhiên, hãy sẵn sàng điều chỉnh sự hiểu biết về từ khóa khi chuyển đổi giữa các model.
Thử nghiệm liên tục: Quy trình tạo prompt là một quá trình lặp đi lặp lại. Bắt đầu với những gì đơn giản và tinh chỉnh dần. Mỗi lần thử nghiệm sẽ đưa bạn gần hơn với kết quả mong muốn.
Cập nhật thường xuyên: Thế giới AI tạo hình ảnh phát triển nhanh chóng. Luôn cập nhật các kỹ thuật, mô hình và thông tin mới từ cộng đồng mã nguồn mở liên quan đến Stable Diffusion.
Trách nhiệm đạo đức: Khi đưa ra prompt, hãy nhận thức được ảnh hưởng xã hội của việc tạo ra và phát tán hình ảnh đó. Model chỉ là công cụ, còn bạn phải chịu trách nhiệm về cách sử dụng hình ảnh.
Thử nghiệm và khám phá: Dù hướng dẫn rất cần thiết, đừng ngại thử nghiệm. Đôi khi sự kết hợp bất ngờ có thể mang lại kết quả ấn tượng.
Ghi chép quá trình: Khi tạo và tinh chỉnh lời nhắc, hãy ghi lại quy trình của bạn. Điều này không chỉ là tài liệu tham khảo giá trị mà còn giúp bạn hiểu rõ hơn về quá trình. Khi đã ghi chép, đừng ngại chia sẻ để cộng đồng cùng tham khảo và cải thiện.

Tuy nhiên, nhớ rằng Prompt chỉ là một trong những yếu tố quan trọng để tạo ảnh bằng SD. Còn nhiều công cụ khác như Lora, VAE, controlnet, inpainting, train model,... nữa. Hãy cùng chờ đón các bài viết tiếp theo nhé.

Nội dung từ Mytour nhằm chăm sóc khách hàng và khuyến khích du lịch, chúng tôi không chịu trách nhiệm và không áp dụng cho mục đích khác.

Nếu bài viết sai sót hoặc không phù hợp, vui lòng liên hệ qua Zalo: 0978812412 hoặc Email: [email protected]