Nhiều người nghĩ rằng việc tạo hình bằng AI chỉ là trò chơi, thử vài lần rồi bỏ. Nhưng nếu bạn đang thiết kế một website và cần hình ảnh trang trí hoặc viết blog, truyện fanfic với hình ảnh minh họa, hay cần nhanh chóng truyền tải ý tưởng cho logo mà bạn mong muốn, và sau đó một nhà thiết kế sẽ làm theo ý bạn, thì sao? Viết lệnh cho AI là một kỹ năng ngày càng quan trọng khi các công cụ AI trở nên mạnh mẽ và thông minh hơn. Để chuẩn bị cho điều đó, bạn cần nền tảng vững chắc về logic và cách hoạt động của công cụ. Tôi có thể cung cấp nền tảng đó và đưa bạn lên trình độ bậc thầy. Bạn có thể lựa chọn bắt đầu từ mức độ cơ bản hay đạt đến đỉnh cao của prompt engineering. Lựa chọn là của bạn, và bạn đã tiến gần hơn đến việc khai thác và làm chủ sức mạnh của AI.
Mặc dù các nguyên tắc áp dụng cho tất cả dịch vụ như MidJourney, DALL-E, Dream Studio… tôi chọn imgnAI cho loạt bài viết này vì nó miễn phí, mạnh mẽ và hiểu lệnh linh hoạt dựa trên nền tảng StableDiffusion XL 1.0. Phân tích và hướng dẫn sẽ có ngay dưới đây, bài viết này chỉ tập trung vào cách viết lệnh.
Công cụ sử dụng: imgnAI
Mặc dù các nguyên tắc áp dụng cho tất cả dịch vụ như MidJourney, DALL-E, Dream Studio… tôi chọn imgnAI cho loạt bài viết này vì nó miễn phí, mạnh mẽ và hiểu lệnh linh hoạt dựa trên nền tảng StableDiffusion XL 1.0. Phân tích và hướng dẫn sẽ có ngay dưới đây, bài viết này chỉ tập trung vào cách viết lệnh.
(((Eminem)) là spiderman), ((Ánh sáng điện ảnh)), Hỗn loạn, Góc trung bình, (Hấp dẫn)
(Ảnh 8k, RAW, chất lượng cao nhất), cô gái xinh đẹp, cận cảnh, váy, (mắt chi tiết:0.8), defiance512, (nhìn vào máy ảnh:1.4), (chất lượng cao nhất), (bóng đổ tốt nhất), chi tiết tinh xảo, nội thất, tóc đỏ:1.3, studio tối, màu sắc nhẹ nhàng, tàn nhang
Xi Jinxpin, một nhân viên cửa hàng thực phẩm thân thiện và nhiệt tình, đang sắp xếp kệ hàng với rau quả tươi. Anh ấy mặc tạp dề trắng và đội mũ lưỡi trai có logo của cửa hàng. Anh ấy mỉm cười và vẫy tay chào khách hàng khi làm việc, ((điện ảnh)), ((siêu thực))
Người đàn ông trẻ có râu thư giãn bên cạnh một con cáo lớn đang ôm, phòng làm việc, kệ sách mê cung, cửa sổ mùa thu, phong cách tranh gouache hữu cơ, 8K, HDR, chi tiết tinh xảo, chất lượng hình ảnh cực cao, tông màu xanh lam và cam
(((kiệt tác)), (((phong cách của stephen gammell))), chân dung của một người đàn ông thông thái, đôi mắt mở rộng trong khoảnh khắc khám phá sâu sắc. Các đặc điểm của ông, mang dấu ấn của nhiều năm trí tuệ, được bao phủ bởi ánh sáng huyền bí, biểu thị sự giác ngộ của ông. Phông nền là một tấm thảm tinh xảo với các yếu tố [tâm lý màu sắc] rực rỡ, sắc thái hoàng hôn và những chòm sao lấp lánh, đại diện cho kiến thức rộng lớn mà ông đã tích lũy. Xung quanh ông, những hình ảnh huyền bí hiện ra, gợi ý về bản chất của sự hiểu biết của ông. Bầu không khí tạo ra cảm giác kinh ngạc và thán phục. Giai điệu synthwave, Render 3D phức tạp với rtx, raytracing, chi tiết cao, chi tiết tinh xảo, Áp phích phim.
Hiện thực hóa những lời ‘hello darkness, my old friend’ qua một bảng màu đậm đà và u sầu. Kiệt tác siêu thực này vượt qua những sắc thái đơn giản, nắm bắt câu chuyện về sự tự chiêm nghiệm và bí ẩn. Bức tranh được trang trí bằng những hình bóng ám ảnh, mỗi cái đều kể câu chuyện của sự cô đơn và sự đồng hành với bóng tối trong những tông màu bí ẩn và sống động. Sự tương tác giữa ánh sáng và bóng tối không chỉ là hình ảnh, mà còn gợi ra những cảm xúc sâu sắc về nỗi nhớ, an ủi và điệu nhảy vĩnh cửu giữa linh hồn con người và đêm tối. Đây là một tác phẩm sống động tôn vinh mối quan hệ không thời gian giữa nhân loại và đêm, mời gọi sự suy ngẫm về những bí ẩn của tồn tại, theo phong cách của nghệ sĩ siêu thực nổi tiếng Yves Tanguy.
Các nguyên tắc cơ bản về đơn vị câu và cấu trúc của prompt
Để đạt được thành công bền vững trong việc học và sử dụng thành thạo một mô hình AI tạo hình, trước hết bạn cần có nền tảng đơn giản nhưng vững chắc về cách viết và mô tả bằng ngôn ngữ.
Từ nền tảng đó, bạn có thể tự khám phá theo khả năng của mình, viết đơn giản thì đơn giản, viết nâng cao thì tinh xảo. Khi đã thành thạo kỹ năng, bạn có thể sáng tạo và phá vỡ nguyên tắc, nhưng việc tuân theo nguyên tắc sẽ giúp bạn đạt được điều mình muốn.
Nếu ngay từ đầu bạn chỉ thử và sai mà không có phương pháp, bạn sẽ dễ nản chí, đặc biệt khi không đạt được kết quả mong muốn trong khi người khác lại thành công. Hãy bắt đầu ngay!
Hãy nhớ kỹ cấu trúc của một câu hoàn chỉnh:
Mức độ quan trọng của các thành phần trong câu cũng phải theo đúng trình tự này.
- Chủ thể: đối tượng chính bạn muốn có trong hình. Chọn một danh từ
- Động từ:
- Vật thể phụ: đối tượng nhận hành động từ chủ thể. Chọn một danh từ
Chiếc váy cưới do Van Gogh thiết kế
One Punch Man làm việc như một nhân viên thu ngân tại cửa hàng tiện lợi trong đời thực
Nếu bạn để ý, trong những ví dụ trên gần như ngữ pháp không hoàn hảo 100%. Đây chính là điểm đặc biệt của việc viết prompt cho AI, nếu bạn tuân theo nguyên tắc đơn giản về trật tự câu (chủ thể - hành động - đối tượng) thì có thể “thả lỏng” chút về các chi tiết ngữ pháp khác. Nói cách khác, câu lệnh của bạn vẫn nằm trong khả năng hiểu của mô hình AI, và nó sẽ không khắt khe như giáo viên cấp 3 của bạn đâu 😁
Từ đây, chúng ta cũng rút ra được nguyên lý cơ bản về cấu trúc của prompt:
- Một câu hoàn chỉnh cần miêu tả đầy đủ chủ thể và các đối tượng phụ đi kèm + từ khóa phụ cách nhau bằng dấu phẩy
Mặc dù có vẻ đơn giản, nhưng mình thấy rất nhiều người dùng lần đầu (bao gồm cả người từ các quốc gia khác và người bản xứ) không mô tả theo cấu trúc câu cơ bản và cũng không tách các từ khóa bằng dấu phẩy. Điều này khiến AI không thể hiểu được ý định của bạn và không thể hiện thực hóa trí tưởng tượng của bạn. Prompt của bạn trở nên lộn xộn và khó hiểu.
Thêm chi tiết cho bức ảnh bằng cách sử dụng từ khóa
Với nền tảng vững chắc về cấu trúc câu và cách bố trí prompt, giờ đây bạn có thể mở rộng số lượng từ khóa để làm cho bức tranh của bạn thêm phong phú. Có nhiều cách để bạn thử nghiệm, kết hợp, và rút ra kinh nghiệm từ những phương pháp này.
Thêm chi tiết cho nhân vật chính
Đây là cách mở rộng đơn giản nhất, bạn có thể bổ sung các từ khóa để mô tả thêm cho nhân vật chính. Ví dụ như màu tóc (red hair), kiểu tóc (ponytail), trang phục (skirt), phụ kiện (diamond necklace, golden bracelet), biểu cảm và tính cách (happy, arrogant, tender, cute, shy, awkward). Tiếp tục với ví dụ về nhân vật Taylor Swift.
Taylor Swift đang làm việc xây dựng, ăn khoai tây chiên, đội mũ McDonald, trông hài lòng
Những điểm chính bạn cần lưu ý với cách mô tả này:
- Vị trí: Đặt các từ khóa này NGAY SAU đơn vị câu chính của bạn, phân cách bằng dấu phẩy
- Số lượng và chất lượng từ khóa: Nên hình dung rõ ràng về nhân vật của bạn và cung cấp nhiều chi tiết càng tốt. Tránh kết hợp các từ khóa trái ngược như happy với angry, crying, hoặc riding a bicycle với walking, điều này có thể tạo ra sự mâu thuẫn. Tuy nhiên, nhiều sự kết hợp vẫn có thể mang lại kết quả độc đáo, hãy thử nghiệm và rút kinh nghiệm.
- Loại từ nên sử dụng: Danh từ, động từ và tính từ đều có thể sử dụng, miễn là chúng không quá trừu tượng và khó hình dung (như competitive, tangible, heretical…)
Hậu cảnh và cách thêm chi tiết cho hậu cảnh
Đây là một phương pháp mở rộng thú vị để khám phá. Bạn có thể thêm các từ khóa mô tả khung cảnh mà bạn muốn, và để rõ ràng hơn, hãy kèm theo từ khóa 'background' để chỉ rõ đây là phần hậu cảnh. Ví dụ: lớp học, bảng đen, bàn ghế, bút chì và giấy, màu vẽ
Taylor Swift đang làm công nhân xây dựng, ăn khoai tây chiên, đội mũ McDonald, trông hài lòng, nền cầu chưa hoàn thiện, máy trộn bê tông, gạch vụn
Các điểm cần lưu ý:
- Vị trí: Đặt các từ khóa này ngay sau các chi tiết về chủ thể chính, phân cách bằng dấu phẩy
- Chất lượng từ khóa: Thử kết hợp nhiều từ khóa để tạo ra những kết quả sáng tạo và độc đáo
- Loại từ nên sử dụng: Danh từ và tính từ; tránh sử dụng động từ để tránh gây nhầm lẫn cho AI
Chất liệu ảnh, phong cách và tông màu
Với hướng tiếp cận này, bạn có thể cân nhắc về loại hình ảnh mà bạn muốn tạo ra (tranh sơn dầu, tranh bút chì, ảnh chụp thực tế hay đồ họa CGI); phong cách bạn muốn theo đuổi [Hayao Miyazaki hay Junji Ito; Annie Leibovitz (chuyên chụp chân dung) hay Wes Anderson (đạo diễn nổi tiếng với phong cách đối xứng và màu sắc rực rỡ)]; và tông màu chủ đạo của bức ảnh (tông đỏ, tông xanh lá, tông hồng và cam…).
Taylor Swift là công nhân xây dựng, đang ăn khoai tây chiên, đội mũ McDonald, vẻ mặt hài lòng, nền cầu chưa hoàn thiện, máy trộn bê tông, gạch vụn, phong cách chụp của Annie Leibovitz, chụp chân dung kịch tính
Taylor Swift là công nhân xây dựng, ăn khoai tây chiên, đội mũ McDonald, với vẻ mặt hài lòng, nền cầu chưa hoàn thiện, máy trộn bê tông, gạch vụn, phong cách của Wes Anderson, ảnh sắc nét
Những điểm cần lưu ý:
- Vị trí mô tả: nằm sau chủ thể và nền, phân tách bằng dấu phẩy
- Số lượng và chất lượng từ khóa: thường chỉ cần một cụm từ khóa cho chất liệu hoặc phong cách ảnh. Chỉ cần chọn một trong hai thôi nhé, ví dụ như tranh của Kim Jung Gi kết hợp với từ khóa ảnh chụp bằng máy cơ DSLR thì sẽ không mang lại hiệu quả cao! Ví dụ về chất liệu: watercolor; oil painting; realism photography; Ví dụ về phong cách: style by Annie Leibovitz; style by Gustav Klimt; Junji Ito artstyle; black and white artstyle. Đối với từ khóa màu sắc, có thể là: red tone, orange and pink duotone, pastel color palette. Các từ khóa về chất liệu và màu sắc trong nhóm này thường kết hợp rất tốt với nhau (AI rất giỏi trong việc phối hợp phong cách và màu sắc, và tái tạo phong cách ảnh không phải là ảnh thực tế)
- Các từ khóa khác liên quan đến chất liệu ảnh và bố cục ảnh cũng thường xuất hiện ở đây. Một số phong cách không ngờ tới như LEGO, toy action figure, miniature model… sẽ được khám phá sâu hơn ở cấp độ cao hơn.
Các từ khóa phổ biến để làm phong phú thêm chi tiết cho ảnh
Bên cạnh các phương pháp phổ biến đã đề cập, còn có những từ khóa thuộc dạng 'cố định' mà bạn thường thêm vào cuối prompt để tăng cường độ sắc nét của hình ảnh. Thực tế, đây là các từ khóa giúp AI quyết định chi tiết hơn trong quá trình tạo ảnh, không liên quan đến phong cách cụ thể. Chúng ta sẽ xem xét kỹ hơn về nhóm từ khóa này ở phần tiếp theo.
Taylor Swift là công nhân xây dựng, ăn khoai tây chiên, đội mũ McDonald, vẻ mặt hài lòng, nền cầu chưa hoàn thiện, máy trộn bê tông, gạch vụn, phong cách của Wes Anderson, ảnh sắc nét, tông màu đỏ và xanh ngọc, độ phân giải 8K, HDR, chi tiết tinh xảo, hình ảnh chất lượng cao, gigapixel, siêu chi tiết
- Các từ khóa để cải thiện chất lượng hình ảnh còn nhiều hơn thế nữa, bao gồm: 8K, HDR10, chi tiết tinh xảo, siêu chi tiết, chi tiết vi mô, hình ảnh chất lượng cao, gigapixel, chi tiết chất lượng siêu cao, chất lượng hình ảnh chuyên nghiệp…
Giai đoạn thêm vào: làm nổi bật các từ khóa quan trọng
Khi số lượng từ khóa đã tăng lên đáng kể so với khi bạn bắt đầu soạn prompt, bạn có thể cần một công cụ để nhấn mạnh các yếu tố chính mà bạn muốn nổi bật trong bức ảnh. Để làm điều này, bạn sử dụng dấu ngoặc () cho một hoặc nhiều từ khóa bạn muốn làm nổi bật, với 3 cấp độ chú ý tương ứng với tối đa 3 bộ dấu ngoặc. Cụ thể:
(((quan trọng nhất))) > ((khá quan trọng)) > (quan trọng) > từ khóa bình thường không có dấu ngoặc
((Taylor Swift là công nhân xây dựng, ăn khoai tây chiên)), đội mũ McDonald, vẻ mặt hài lòng, nền cầu chưa hoàn thiện, máy trộn bê tông, gạch vụn, ((phong cách của Wes Anderson)), ảnh sắc nét, tông màu đỏ và xanh ngọc, độ phân giải 8K, HDR, chi tiết tinh xảo, hình ảnh chất lượng cao, gigapixel, siêu chi tiết
Thông thường, mình sẽ đóng ngoặc các yếu tố chính của chủ thể để mô hình AI ưu tiên tái tạo các yếu tố này trước. Các từ khóa còn lại sẽ hỗ trợ để tạo ra sản phẩm cuối cùng. Lưu ý là nếu bạn đóng ngoặc quá nhiều từ khóa, AI sẽ bị rối vì cố gắng nhấn mạnh tất cả các yếu tố, trong khi khả năng tập trung của AI là có hạn haha
Kết luận
Vậy là bạn đã nắm vững những kiến thức cơ bản về kỹ năng tạo hình bằng AI. Theo mình, khả năng prompt sẽ trở thành một trong những kỹ năng quan trọng trong tương lai, khi các công cụ AI ngày càng phát triển mạnh mẽ và luôn sẵn sàng phục vụ mọi lúc. Dù các công cụ AI đang trở nên thân thiện và dễ sử dụng hơn với ngôn ngữ tự nhiên, nhưng cách viết prompt thì vẫn sẽ không thay đổi! Ai biết “giao tiếp” với AI tốt hơn, hiệu quả hơn và biến nó thành công cụ hỗ trợ đắc lực thì sẽ có lợi thế trên thị trường lao động. Công việc sẽ nhanh chóng và đa dạng hơn, giúp bạn kiếm nhiều tiền hơn, sống thoải mái hơn, và AI sẽ giúp bạn giảm bớt công việc tay chân tẻ nhạt (trong trường hợp này, bạn cần phải biết viết và vẽ hình khối, nếu không thì thật khó đấy). Nếu bạn học và hiểu rõ về AI, nó sẽ không thể đào thải bạn mà sẽ phục vụ bạn một cách tốt nhất. Mình tin rằng bất kỳ ai có tinh thần cầu tiến và đam mê học hỏi đều có thể nắm vững kỹ năng này. Hãy đầu tư học tiếng Anh và cách sử dụng AI nhé! Hẹn gặp bạn ở phần tiếp theo!