Cách viết Prompt hiệu quả cho Stable Diffusion

MrH · 17 Tháng Mười 2023 17:06

Làm thế nào để viết được prompt tốt trong Stable Diffusion

Stable Diffusion (SD) là một mô hình trí tuệ nhân tạo mã nguồn mở mục đích ban đầu là dùng để chuyển đổi văn bản thành hình ảnh (txt2img) chỉ trong vài giây. Tuy nhiên, do có sự phát triển của cộng đồng nên SD dần dần đã trở thành một công cụ AI đồ sộ với rất nhiều chức năng và công cụ. Trong bài viết này, mình tập trung nói về khả năng sử dụng cơ bản nhất của Stable Diffusion, khả năng “Prompt engineering” ( viết tắt là Prompt vì mình cũng không biết dịch thế nào).

Prompt engineering là quá trình cấu trúc các từ ngữ mà một text-to-image model (mô hình biến văn bản-thành-hình ảnh) có thể hiểu được. Hiểu đơn giản thì chính là nói ra những gì mà bạn muốn để chỉ cho mô hình trí tuệ nhân tạo biết nó phải cần vẽ gì.

Vì prompt hiện giờ ngôn ngữ chính vẫn là tiếng anh nên phần trình bày sẽ bao gồm nhiều từ tiếng anh và không dịch, đòi hỏi các bạn cần có kiến thức về ngoại ngữ.

1. Cấu trúc của Prompt

Bạn hãy bắt đầu bằng cách đặt một danh sách câu hỏi :

Bạn muốn một bức ảnh hay một bức tranh? (A photo or a painting)
Subject (Chủ đề) của bức ảnh là gì? Người? Một con vật hay là phong cảnh?
Bạn muốn thêm những Details (Chi tiết) gì?

Special lighting (Ánh sáng): Soft, ambient, ring light, neon; Enviroment (Môi trường): Indoor, outdoor, underwater, in space; Color Scheme (Màu sắc).: Vibrant, dark, pastel; Point of view (Góc nhìn): Front, back, Overhead, Side; Background (Nền). Solid color, city, countryside.

Theo Art style (phong cách nghệ thuật) gì? 3D render, anime, movie poster
Theo Photo type (thể loại ảnh) nào? Macro, telephoto,…

Sau khi trả lời xong bạn có thể ghép vào thành một prompt như sau
Ví dụ: A picture of a lady bug, soft light, outdoor, macro style, in the forest

A painting of a man, indoor, portrait shot, comic poster, Jim Lee Style

Thứ tự của các từ ngữ cũng rất quan trọng, các từ đứng trước sẽ có sức mạnh hơn các từ đứng sau, và các prompt càng dài càng khó kiểm soát vè chất lượng. Để biết thêm chi tiết, hãy đọc bài Giới hạn của Prompt.

2. Các từ bổ ngữ
Từ bổ ngữ là những từ có thể thay đổi phong cách, cấu tạo hoặc viễn cảnh của hình ảnh được tạo ra. Có những từ hoặc cụm từ “ma thuật” cụ thể đã được chứng minh là giúp cải thiện chất lượng của hình ảnh. Ở đây, tác giả đưa ra một số loại từ bổ ngữ phổ biến thường dùng

Theo nhiếp ảnh (photography)
Theo phong cách nghệ thuật hoặc theo nghệ sỹ (Art/ Artist)
Theo phong cách diễn tả (illustration)
Theo cảm xúc (Joyfull)
Mọi người có thể tham khảo các từ khóa bổ ngữ theo link mô tả bên dưới từ một số trang uy tín:
SD Artist Collection
The Ai Art
Artsandculture
Parrot Zone (Bài viết về cách sử dụng Parrot do Kaikun viết bạn có thể xem ở đây)

3. Các từ khóa chất lượng ảnh
Một số từ khóa như 4k, HD, HDR, UHD, highly detailed… thực sự đem lại chất lượng ảnh tốt hơn ở các phiên bản model SD 1.5. Tuy nhiên các model gần đây, nhất là model SDXL thì điều này dường như không còn đúng nữa.

4. Các thông số kỹ thuật
Các thông số kỹ thuật như độ phân giải, ratio, CFG (Classifier Free Guidance), Steps,…. Cũng có tính chất quan trọng trong việc quyết định bức ảnh tạo ra có đẹp hay không.
Đọc thêm bài về các thông số cần biết khi sử dụng SD để nắm rõ hơn vấn đề này.

Chúc các bạn thành công!