From Zero to Hero (P32): Tất tần tật về cách viết prompt cho Model Pony Diffusion

MrH · 8 Tháng Chín 2024 09:03

Trong bài viết này, chúng ta sẽ tìm hiểu về mô hình Pony Diffusion, và cách viết prompt cho model này.

Bản thân Pony Diffusion cũng là một model được đào tạo dành cho Stable Diffusion, nhưng nó thuộc model base. Nhiều bạn đến đây cũng thắc mắc, vì sao Pony Diffusion được ưu ái, đặt hẳn 1 tag riêng trên Civitai và có 1 logo hình con ngựa bên cạnh.

Pony ở đây được lấy từ hình ảnh nhân vật con ngựa nhỏ trong serie hoạt hình My Little Pony.
Mô hình đã được đào tạo trên 2,6 triệu hình ảnh được xếp hạng thẩm mỹ dựa trên sở thích cá nhân của tác giả, với tỷ lệ khoảng 1:1 giữa các tập dữ liệu anime/phim hoạt hình/furry/pony và tỷ lệ 1:1 giữa các xếp hạng an toàn/có vấn đề/rõ ràng. Khoảng 50% trong số tất cả các hình ảnh đã được chú thích bằng các chú thích chi tiết chất lượng cao, dẫn đến khả năng ngôn ngữ tự nhiên rất mạnh.
Mô hình Pony rất mạnh ở các dạng ảnh sau:

Nhân vật anime: Mô hình này rất giỏi trong việc tạo ra các nhân vật dễ thương, cách điệu theo phong cách anime và manga.
Furry: Đặc biệt thành công trong việc tạo ra các nhân vật động vật có hình dạng giống người, từ chuyên môn mà mình học được khi sử dụng MidJourney là anthropomorphous
/ˌanTHrəpəˈmôrfəs/.
Nhiều chủ đề NSFW: Mô hình này có thể tạo ra nhiều nội dung dành cho người lớn, khiến nó trở nên phổ biến trong lĩnh vực này.

Các cài đặt cần lưu ý khi sử dụng model Pony Diffusion
Last Clip Layer
Mình thường để giá trị này là -2 để có kết quả ít sai sót nhất. Last Clip Layer có thể tìm thấy trên node của ComfyUI
Embedding
Tác giả của mô hình Pony Diffusion gợi ý chúng ta không cần dùng negative prompt vẫn có được hình đẹp. Tuy nhiên với mình, thêm 1 embedding để kết quả tốt hơn cũng không hại gì.
Embedding phổ biến cho Pony Diffusion có thể kể đến

pony-pdxl-negative-embeddings

Lora
Có nhiều Lora được đào tạo riêng cho model Pony, các bạn có thể hoàn toàn tìm thấy thông qua bộ lọc của các trang chia sẻ model.
Sampling Method (lấy mẫu)
Mình hay dùng 3 mẫu sau

DPM++ 2M Karras: Phương pháp này thường mang lại kết quả chất lượng cao với độ chi tiết và tính mạch lạc tốt.
DPM++ SDE Karras: Một diễn viên có diễn xuất tốt khác, đặc biệt phù hợp với những cảnh phức tạp.
Euler a: Phương pháp này nhanh hơn và có thể mang lại kết quả tốt, đặc biệt đối với những hình ảnh đơn giản.

Steps
Với mẫu Euler, chỉ cần sử dụng từ 25 steps. Còn các model Karras thì nên lấy từ 40 steps.
Size
Nên bắt đầu với kích cỡ cơ bản của SDXL là 1024px.

Cách viết prompt khi sử dụng model Pony Diffusion
Được đạo tạo dựa bằng cách kết hợp các tag và ngôn ngữ thông thường nên điểm đặc biệt là model pony hiểu được cả 2 ngôn ngữ (giống Mid Journery và Flux hiện tại), do đó nó có khả năng giúp người dùng thông thường prompt một cách dễ dàng mà không chỉ là tag. Những từ khóa như “hd”, “masterpiece” sẽ không có quá nhiều tác dụng tăng chất lượng hình ảnh, mà tác giả sẽ dùng hệ thống “score”
Score
Nếu nhìn vào prompt của pony chắc bạn không lạ với cấu trúc bắt đầu bằng “score_9, score_8_up, score_7_up, score_6_up, score_5_up, score_4_up”…
Hiểu đơn giản là tác giả của model khi train model này là tác giả sẽ đánh giá một tệp ảnh bằng tệp số với 1 là nhỏ nhất và 9 là cao nhất.
Vì thế nên tại prompt nếu ta thêm các prompt “score_9, score_9_up,…” sẽ ra các kết quả tốt, và cho các “score_1, score_2” sẽ giảm bớt các kết quả xấu.
Các tag đặc biệt
Các tag đặc biệt được nhấn mạnh bao gồm
‘source_pony’, ‘source_furry’, ‘source_cartoon’, ‘source_anime’ và ratings ‘rating_safe’, ‘rating_questionable’, 'rating_explicit"
Pony cũng lấy tag từ một số nguồn tag lớn, do đó, có thể thêm tag là các nguồn này để ảnh có xu hướng của các nguồn đó

from_safebooru : Thẻ này tập trung vào hình ảnh theo phong cách anime SFW (An toàn khi làm việc). Sử dụng thẻ này khi bạn muốn tạo nội dung thân thiện với gia đình.
from_danbooru : Bao gồm cả hình ảnh theo phong cách anime SFW và NSFW, cung cấp nhiều phong cách và nội dung đa dạng hơn.
from_rule34xxx : Thẻ này tập trung vào nội dung NSFW. Sử dụng thận trọng và chỉ khi tạo nội dung dành cho người lớn.
from_e621 :Thẻ này đặc biệt hữu ích cho nội dung liên quan đến thú cưng, vì e621 là một trang web nghệ thuật thú cưng phổ biến.

Nhấn mạnh tag
Pony cũng sử dụng đóng mở ngoặc đơn, để nhấn mạnh hay giảm sức mạnh của tag
Ví dụ (tag:1,2) thì tag sẽ mạnh hơn 1,2 lần so với một tag không được nhấn mạnh, và (tag:0,8) tức là tag sẽ giảm độ mạnh còn 0,8 lần so với tag thông thường.
Prompt phủ định (negative prompts)
Như đã đề cập, không có khuyến khích phải sử dụng negative prompt từ tác giả model, nhưng một số negative prompt mình thấy cho kết quả tốt mọi người có thể tham khảo

score_6, score_5, score_4, low-res, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry, artist name, (deformed, distorted, disfigured:1.3), poorly drawn, bad anatomy, wrong anatomy, extra limb, missing limb, floating limbs, (mutated hands and fingers:1.4), disconnected limbs, mutation, mutated, ugly, disgusting, blurry, amputation.

Phần score như đã nói ở trên, sẽ giảm các dữ liệu ảnh được đánh điểm thấp (ảnh xấu, chất lượng thấp). Những tag còn lại có tác dụng giải quyết các vấn đề phổ biến trong quá trình tạo AI: Những vấn đề như giải phẫu không đúng, số ngón tay không chính xác và chân tay lơ lửng,
ngăn chặn văn bản và hình mờ không mong muốn. Bằng cách phủ nhận chất lượng thấp và hiện tượng nhiễu, bạn đang thúc đẩy kết quả hướng tới đầu ra chất lượng cao hơn.

Một vài cảm nghĩ
Bài viết được tác giả rút ra từ kinh nghiệm bản thân, cũng như có tham khảo từ chính tác giả model Pony Diffusion và những người sử dụng khác trên Medium, do đó, có thể có những cách thức không phải phù hợp với tất cả mọi người, mọi mục đích sử dụng.
Tác giả tự đúc kết một số kinh nghiệm có thể áp dụng được trong phương pháp học tập về AI tạo ảnh:
1. Thử nghiệm là chìa khóa: Đừng ngại thử những kết hợp mới của prompt và settings. Một số kết quả tốt nhất đến từ những thử nghiệm bất ngờ.
2. Cân nhắc về mặt đạo đức và pháp luật: Hãy nhớ sử dụng Pony Diffusion XL một cách có trách nhiệm, đặc biệt là khi tạo nội dung NSFW. Luôn tôn trọng bản quyền và nguyên tắc cộng đồng. Các mô hình bạn sử dụng có được cấp giấy phép nguồn mở không?
3. Học tập liên tục: Lĩnh vực tạo nghệ thuật AI đang phát triển nhanh chóng. Hãy luôn tò mò và tìm hiểu về các kỹ thuật mới và cập nhật model. Bản thân mình cũng nhận thấy là chỉ không lên mạng một tuần thôi cũng thấy rất nhiều mô hình, phương pháp được cập nhật, bản thân như người tối cổ.
4. Phát triển phong cách của bản thân: Mặc dù học hỏi từ người khác là có giá trị, nhưng đừng quên phát triển phong cách và cách tiếp cận độc đáo của riêng bạn khi sử dụng AI.
5. Chia sẻ và cộng tác: Cộng đồng nghệ thuật AI phát triển mạnh mẽ nhờ chia sẻ kiến thức và sáng tạo. Đừng ngần ngại chia sẻ tác phẩm của bạn và học hỏi từ người khác. Tuy nhiên hãy đọc kĩ mọi thông tin bạn có thể tìm thấy trước khi đưa ra câu hỏi. Cộng đồng không thể trả lời mọi câu hỏi của bạn.

Các bạn hoàn toàn có thể sử dụng model Pony Diffusion với các server mạnh mẽ của Stable Diffusion trên Kaikun.io