From Zero to Hero (P23): Làm chủ model SDXL tạo ảnh thời gian thực

Nếu đã sử dụng Stable Diffusion thì các bạn cũng có thể thấy được thời gian phần nhiều chúng ta làm là ngắm màn hình trong lúc đợi tạo ảnh. Mong ước của rất nhiều người trong chúng ta là có thể rút ngắn thời gian tạo ảnh lại để tăng hiệu quả công việc.
Để giảm thời gian chờ đợi ảnh tạo có thể có hai cách: đầu tiên là chúng ta nâng cấp cấu hình máy, chắc chắn thời gian tạo ảnh sẽ nhanh hơn. Tuy nhiên cách này hơi đau ví. Cách hai là chúng ta có thể sử dụng các model có cấu trúc đặc biệt làm giảm 1 số công đoạn khi tạo ảnh, giúp giảm thời gian. Và cách sử dụng các model này cũng chính là nội dung bài viết dưới đây. Chúng ta sẽ tìm hiểu các model này là gì, công thức giúp các model này hoạt động và thử so sánh kết quả giữa các model này.
Mình sử dụng prompt như nhau với các model và same seed.
(Các model sẽ có yêu cầu khác nhau về step, CFG, sampling step do các fine tunning của model. Cấu hình sử dụng tài https://kaikun.io/advanced là RTX 4500, với 20 Gb Vram)
:zero: Model SDXL cơ bản
Với prompt đã đặt ra trước, chúng ta sẽ dùng ảnh tạo ra từ model này điểm neo để so sánh kết quả các model khác.

Prompt: A beautiful girl sitting in a sunny european cafe with tables outside golden summer light, by gustav klimt art, deco art nouveau style, stunning intricate details
Negative: BadDream, worst quality, low quality, normal quality, monochrome, grayscale, (shoes, foot:1.2), score_6, score_5, score_4, muscular, makeup, uncensored, 3d, mature
Steps: 50, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 1946899330, Size: 1024x1024, Model hash: 83d30d3dfb, Model: RealitiesEdgeXLLIGHTNING_V7Bakedvae, Version: v1.7.0
Time taken: 21.9 sec.

:one: Model LCM (Latent Consistency Models)
Đây là model đời đầu nhưng cũng mới khoảng tháng 10/2023, giúp giảm số steps để tạo ảnh qua đó tăng tốc độ.
Ở thời kỳ đầu, ngoài model chúng ta cần có lora LCM và Sampling step LCM, tuy nhiên các phiên bản Stable Diffusion hiện tại đã hỗ trợ model này nên chúng ta chỉ cần model là có thể sử dụng được.
Model sử dụng : Realities Edge XL LCM

Yêu cầu: A beautiful girl sitting in a sunny european cafe with tables outside golden summer light, by gustav klimt art, deco art nouveau style, stunning intricate details*
Negative prompt: BadDream, worst quality, low quality, normal quality, monochrome, grayscale, (shoes, foot:1.2), score_6, score_5, score_4, muscular, makeup, uncensored, 3d, mature*
Steps: 6, Sampler: Euler a, CFG scale: 1.5, Seed: 1946899330, Size: 1024x1024, Model hash: 5b3c0c4e9b, Model: RealitiesEdgeXLLIGHTNING_USELCMEDITION, Version: v1.7.0*
Time taken: 3.1 sec.*

:two: Model Turbo
Turbo là model của cha đẻ Stable Diffusion là Stability AI, được giới thiệu tháng 11/2023. Phương pháp tạo ra model này có tên gọi ADD(Adversarial Diffusion Distillation) và cũng được giới thiệu tạo ảnh ra với số bước giảm đi đáng kể, chỉ từ 1 bước và tối ưu nhất là 4 bước.

Yêu cầu:A beautiful girl sitting in a sunny european cafe with tables outside golden summer light, by gustav klimt art, deco art nouveau style, stunning intricate details
Negative prompt: BadDream, worst quality, low quality, normal quality, monochrome, grayscale, (shoes, foot:1.2), score_6, score_5, score_4, muscular, makeup, uncensored, 3d, mature
Steps: 6, Sampler: DPM++ 2M Karras, CFG scale: 1.5, Seed: 1946899330, Size: 1024x1024, Model hash: d048a83385, Model: RealitiesEdgeXLLIGHTNING_TURBOV7, Version: v1.7.0
Time taken: 3.0 sec.

:three: Model Lighting
Đối thủ cạnh tranh rất lớn với Stability AI, ByteDance cho ra mắt model Lighting với cấu trúc tương tự và số step cũng được khuyến nghị ở 4 bước. tuy nhiên ByteDance công khai các model Unet để người sử dung có thể dễ dàng training, các model Lighting hiện đang được khá tin dùng.
A beautiful girl sitting in a sunny european cafe with tables outside golden summer light, by gustav klimt art, deco art nouveau style, stunning intricate details
Negative prompt: BadDream, worst quality, low quality, normal quality, monochrome, grayscale, (shoes, foot:1.2), score_6, score_5, score_4, muscular, makeup, uncensored, 3d, mature
Steps: 4, Sampler: DPM++ SDE Karras, CFG scale: 2, Seed: 1946899330, Size: 1024x1024, Model hash: 05f7a5403d, Model: RealitiesEdgeXLLIGHTNING_LIGHTNING34Step, Version: v1.7.0
Time taken: 3.3 sec.

:four: Model Distilled
Cùng thời điểm ra mắt Lighting còn có model Distilled. Model có kích thước nhỏ hơn đáng kể so với một model SDXL thông thường (khoảng 4GB, trong khi model SDXL là 6GB), cũng cung cấp tốc độ nhanh hơn đáng kể so với việc tạo ảnh từ model SDXL thông thường.

Yêu cầu: A beautiful girl sitting in a sunny european cafe with tables outside golden summer light, by gustav klimt art, deco art nouveau style, stunning intricate details
Negative prompt: BadDream, worst quality, low quality, normal quality, monochrome, grayscale, (shoes, foot:1.2), score_6, score_5, score_4, muscular, makeup, uncensored, 3d, mature
Steps: 25, Sampler: UniPC, CFG scale: 7, Seed: 1946899330, Size: 1024x1024, Model hash: 7cb406ec06, Model: segmindSSD1B_v10, Version: v1.7.0
Time taken: 6.7 sec.

Tạm kết:
Ở ví dụ so sánh, mình cố gắng sử dụng thống nhất model RealitiesEdge để giảm tác động khác nhau giữa các model. Riêng model Distilled thì rất ít bản fine tune nên mình dùng bản mặc định. Các thông số được tối ưu nhất cho các model được phát triển bởi nhà phát hành.
Có thể thấy rõ các model đều tăng tốc độ đáng kể, thời gian giảm, gần như là thời gian thực, từ model SDXL thời gian tạo 22s, các model còn lại đều có thời gian giảm ít nhất 1/3.
Tuy nhiên về độ bám sát model gốc mình xin được đánh giá theo mức độ giảm dần như sau:
Lighting > Turbo > LCM > Distilled
Về tốc độ
Turbo>LCM>Lighting>Distilled
Tuy nhiên, nếu xét về prompt thì Distilled đang thể hiện chuẩn xác nhất ý hiểu prompt vì style “gustav klimt” khá đúng với style của họa sĩ, chứng tỏ data tốt của model. Hơn nữa model Distilled cũng có dung lượng nhỏ nhất trong các model SDXL, tiết kiệm tối da không gian lưu trữ của các bạn.

Các kết quả sẽ có sự sai khác nếu sử dụng prompt hoặc các model fine tune khác.
Chúc các bạn thành công!

1 Like